找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 1059|回复: 2

百度是怎样识别伪原创

[复制链接]
发表于 2012-1-10 19:40:43 | 显示全部楼层 |阅读模式 来自 中国–陕西–宝鸡
       第一,搜索引擎会过滤“的,了,呢,啊”之类的重复率非常之高的对排名无帮助的无用词语。
  第二,这里要谈为什么有时候转换近义词无效。从这里开始就算是我个人的经验总结了。既然市场上有一堆伪原创工具能够将词语伪原创比如将“电脑”伪原创为“计算机”,那么有什么理由不相信强大的搜索引擎不会伪原创?所以肯定的,搜索引擎一定会近义词伪原创,当搜索引擎遇到“电脑”和“计算机”时,会将他们自动转换这里姑且假设为A,所以很多情况下的近义词伪原创不收录的原因。​http://www.agjcty.com
  第三,这里要谈为什么有时候不仅近义词转换了并且打乱句子与段落依然无效。当搜索引擎过滤掉无用词,并将各类近义词转化为A,B,C,D后开始提取出这个页面最关键的几个词语A,C,E(这里举个例子,实际可能提取的关键字不是ACE三个而是1个到几十个都是说不定的)。并且将这些词进行指纹记录。这样也就是说,近义词转换过的并且段落打乱过的文章和原文对于搜索引擎来说是会认为一模一样的。http://www.lcpv.net
  第四,这段更深层次解释为什么几篇文章段落重组的文章依然可能会被搜索引擎识别出。首先既然百度能够生成指纹自然也能解码指纹,段落重组的文章不过是重要关键字的增加或者减少,这样比如有两篇文章第一篇重要关键字是ABC,而第二篇是AB,那么搜索引擎就可能利用自己一个内部相似识别的算法,如果相差的百分数在某个值以下就放出文章并且给予权重,如果相差的百分数高于某个值那么就会判断为重复文章从而不放出快照,也不给予权重。这也就是为什么几篇文章段落重组的文章依然可能会被搜索引擎识别出的原因。
  第五,我要解释下为什么有些伪原创文章仍然可以被收录的很好。我上面的推理只是对于百度识别伪原创算法的大致框架,实际上谷歌百度对于识别伪原创的工作要更加庞大并且复杂的多,谷歌一年就会改变两百次算法足以看出算法的复杂性。为什么某些伪原创的文章依然可以被收录的很好.

发帖求助前要善用【论坛搜索】功能,那里可能会有你要找的答案;

如何回报帮助你解决问题的坛友,好办法就是点击帖子下方的评分按钮给对方加【金币】不会扣除自己的积分,做一个热心并受欢迎的人!

 楼主| 发表于 2012-1-10 19:42:29 | 显示全部楼层 来自 中国–陕西–宝鸡
呵呵,最近本人还网站也少了!!!不好意思!!!

发帖求助前要善用【论坛搜索】功能,那里可能会有你要找的答案;

如何回报帮助你解决问题的坛友,好办法就是点击帖子下方的评分按钮给对方加【金币】不会扣除自己的积分,做一个热心并受欢迎的人!

回复 支持 反对

使用道具 举报

发表于 2012-1-10 20:10:52 | 显示全部楼层 来自 中国–河南–漯河
俺来看看~~~~~~

发帖求助前要善用【论坛搜索】功能,那里可能会有你要找的答案;

如何回报帮助你解决问题的坛友,好办法就是点击帖子下方的评分按钮给对方加【金币】不会扣除自己的积分,做一个热心并受欢迎的人!

回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则 需要先绑定手机号

关闭

站长推荐上一条 /1 下一条

QQ|侵权投诉|广告报价|手机版|小黑屋|西部数码代理|飘仙建站论坛 ( 豫ICP备2022021143号-1 )

GMT+8, 2024-12-22 21:48 , Processed in 0.046995 second(s), 9 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表