百度飓风算法严厉打击恶劣采集,算法一出多少网站被杀了。

     引用:"百度搜索于近日推出飓风算法,旨在严厉打击以恶劣采集为内容主要来源的网站,同时百度搜索将从索引库中彻底清除恶劣采集链接,给优质原创内容提供更多展示机会,促进搜索生态良性发展。飓风算法会例行产出惩罚数据,同时会根据情况随时调整迭代,体现了百度搜索对恶劣采集的零容忍。优质原创站点如发现站点索引量大幅减少且流量大幅下滑现象,可在反馈中心进行反馈。"

timg.jpg


按百度飓风算法说的,针对网站采集要进行打击了,其实在这算法之前倒下的一个采集微信各个公众号内容,并以网页形式展示的一个站点已经倒下了。那么我们要来看看这个算法到底都是怎么个规则。


专利篇

    百度有很多专利,在这里有一个对网站评论区域更新内容的监控。也就是说页面上某个模块的更新,百度都可以了解到。那么,也就是说如果你是采集的内容,不加任何修改就发布出去,那么恭喜你了飓风算法就是为你准备的。


语义分析篇

     百度一直以来都是中文搜索引擎中技术较好的公司,他的语义分析方面也有很多算法。从简单的tf-idf 到分词以及一系列的算法。


分词篇

    一段文本,会被打碎成一个一个的字符,循环拼接,从字典里将能形成有价值词的字符分词。然后,就是比对相似度。

啥是相似度呢?


飓风篇

     既然是算法,那么就是程序实现,那就是将一段文字分成若干个词。A段 有多少个词,网上其他内容中的 Ax段 有多少个词。

1.内容相似度对比:

A段 与 Ax段 ,字符的对比,和分词后 词与词的对比。从而得到 A段 与Ax段是否存在关联关系。

2.时间对比:

    蜘蛛抓取每个页面都会记录一个时间,那么就好比是网站日志里的访问时间。当在全网中发现某个话题时,通过前面的抓取、语义分析、分词、索引、会将这个新产生的话题评分,并与分词的关键词做关联。因此,这个评分会影响该页面在关联关键词搜索结果中的排位。

3.其他因素

    网站历史综合得分,单页面质量度,与往期页面质量度均值等一系列项参与运算。最终得出结论,这个页面是否是采集内容页面。根据最终采集页面数量判定网站的是否接受惩罚。


受到波及的网站

   小说类

   软件站

   新闻资讯站

   电影站

  

所以,做站要好好做内容还要下功夫,不能图省事。最终,被杀是肯定的。

 

299 人围观 / 0 条评论 ↓快速评论↓

(必须)

(必须,保密)

阿狸1 阿狸2 阿狸3 阿狸4 阿狸5 阿狸6 阿狸7 阿狸8 阿狸9 阿狸10 阿狸11 阿狸12 阿狸13 阿狸14 阿狸15 阿狸16 阿狸17 阿狸18