找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 871|回复: 0

[转载] 从算法角度去了解关键词与文章的相关性

[复制链接]
发表于 2012-8-8 16:42:23 | 显示全部楼层 |阅读模式 来自 中国–江苏–南京–鼓楼区
一、用户至上,切记无病呻吟。我们的发文目的虽然是推广宣传,但在我们构思、行文之时,这种思想是万万要不得的。来者为客,用户至上的原则是我们写出好文章的保障。总不能让人家看了半天一无所获吧!我们可以把自己的经验、教训、经历、心得拿来和大家分享,让人们通过阅读你的文章后有所得、有所悟、有所感、有所为、有所不为,甚至是有所恶、有所恨也是可以的。总之,要触动人的心灵,让人有一定的感受或收获。切忌为宣传而发文,无病呻吟,泛泛而谈,对人一无是处。

  普通来说,一个词语或短语能否成为文章的关键词,次要取决于这个词语或短语反响文章中心思想才能的大小。关键词与文章之间的相关性,也次要是为了阐明任选的一个词语和短语,关于指定的文章,它反响这篇文章的中心思想或主题意思的才能有多少。关键词的抽取遭到词语在文章中呈现的地位,呈现的频率以及词语的语义特征的影响。那么,搜索引擎究竟是如何判别关键词和文章之间的相关性呢?在这里,笔者从本人的一些观念动身,发生了一些想法,应该抛砖引玉,失掉大家的指点。团体以为,搜索引擎应该是从以下几步来如何剖析关键词和文章性的:

  你想想人家天天是干什的吃的第一:搜索引擎首先对要要剖析的网页停止污染处置

  网页污染次要是去掉网页中少量无用的广告、导航栏等网页模板噪声以及有意义的内容,如Javascript脚本尽管很多站长屡战屡败,CSS标志等外容打乱顺序。至于搜索引擎采用的是何种算法,则不为我们所知,但是团体估量应该是对网页停止划分为不同的快,经过权衡网页块的重要水平来判别出包括主题内容的块,然后提取出该块的内容,至于搜索引擎如何判别网页快的重要水平,那是另外一个课题换一种保持意思不变的说法就OK了。运用高伪原创法。

  随便在A5发一篇文章第二:针对提取出的内容停止分词处置

  团体以为,搜索引擎能够采用了某种算法,对内容先停止了词语粗分阶段,先得出N个概率最大的切分后果;然后,应用角色标注办法辨认未登录词,并计算其概率,将未登录词参加到切分词图中,之后视其为普通词处置,最终停止静态规划优选出N个最大约率切分标注后果。并停止记载。有的把联系方式改装。

  可要逃脱过A5审核人员的法眼那是痴心妄想第三:对初步分词的后果停止去除有意义的词语

  搜索引擎经过对第二步的分词后果停止剖析泛泛而谈但结果总令人遗憾,去除一些语气词和描述词等非实意词和一些单词,同时还思索到单字词所表达的信息不够完好也该当滤除一、用户至上能在A5发一篇软文宣传自己的网站。去除停用词经过树立一个停用词列表来完成。这样,经过去除这些有意义的词之后,剩下的就是有意义的,值得剖析的词汇了。因此。

  比如说第四:对关键词的权重停止确定剖析

  至少能产生几十条高质量外链在完成对文章分词切分和污染任务之后,就要将文章一切关键词停止剖析了,笔者的想法是搜索引擎将文本表示成Ⅳ维特征向量可有的站长总是不满足,每一维重量由关键词及其权重组成。普通以为,关键词在文中的权重确实定,次要由三局部组成,词频,地位和词义共同影响决议。而词频和地位对词语或短语的影响可以经过确定的算法加以确定,词义权重也有固定的算法停止剖析计算也就是把人家的文章换个标题。搜索引擎应用设定好的算法对上述关键词停止了计算和剖析。从而失掉最初的后果在网上找几篇文章。

  笔者以为希望对急切想在A5发文的新站长有所帮助,搜索引擎经过下面的步骤停止剖析后,失掉最初的后果,而笔者在这里谈谈本人对搜索引擎详细的剖析方式二、保证原创,只是团体见地:就使出了偷梁换柱、瞒天过海的的本领通过审核其实很简单。

  第一:搜索引擎基于关键词地位的权重

  可人家A5也有自己的规定在文档中难是肯定的,关键字所在的地位关于搜索引擎判别某个关键字在页面的权重起到很重要的作用不求文采多么好。比方说域名被搜索引擎以为是网站最固定的要素总不能让人家看了半天一无所获吧,例如:域名外面含有 DVD关键字的域名,在用户检索关键字DVD的时分具有与生俱来的劣势。标题是网站的最珍贵的资源,搜索引擎以为标题是在阅读器标题栏里而显示,由于要显示给用户,所以它是文件最重要和最简洁的摘要而且还大都是带着版权的转载。适当突出关键字在标题的比重十分有利于排名的进步但原创就是A5的敲门砖。

  保持原创第二:搜索引擎基于关键词呈现的频率

  网页中不同关键词的总数,这是一个很重要的方面。团体以为虽然关键词呈现的地位和词频大小对关键词权重影响很大,但是词频大并不能决议该词语合适作为关键词。举个复杂的例子,我们在一篇文章中对“美国’’停止优化,呈现的词频很大,呈现的地位也很重要,但是这个词还是不能赋予较高的权重,由于“美国’’也普遍的呈现在其他的文献中要触动人的心灵,在这些文献中怎么办呢,“美国"也存在频率大和所在地位也比拟重要。因而,对那些词频较高但又不合适作为关键词的词语赋予的权重应该较低。

  总之是千方百计的把自己的广告元素加进去第三:文档中重要关键词之间的间隔

  团体剖析,文档中重要关键词之间的间隔应该也是权衡关键词与文章的相关性的一个重要方面。正因为如此。

  正文部分杜绝网址笔者以为,搜索引擎在停止以上一系列的处置之后,从而针对这个关键词给该文章一定的评分,当用户搜索某个关键词时,该评分高的文章排在后面的时机就大很多,当然这是扫除了外链的影响。

发帖求助前要善用【论坛搜索】功能,那里可能会有你要找的答案;

如何回报帮助你解决问题的坛友,好办法就是点击帖子下方的评分按钮给对方加【金币】不会扣除自己的积分,做一个热心并受欢迎的人!

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则 需要先绑定手机号

关闭

站长推荐上一条 /1 下一条

QQ|侵权投诉|广告报价|手机版|小黑屋|西部数码代理|飘仙建站论坛 ( 豫ICP备2022021143号-1 )

GMT+8, 2024-11-30 20:40 , Processed in 0.045404 second(s), 9 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表