找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 1092|回复: 0

[杂谈] 搜索引擎切词中的匹配切词和统计切词

[复制链接]
发表于 2013-2-18 15:38:46 | 显示全部楼层 |阅读模式 来自 中国–辽宁–大连
    学习网站优化可以不懂搜索引擎算法,但我们应该了解一些搜索引擎切词的知识,这有利于我们对核
心关键词的布局做到更精准,缩小搜索范围,提高优化效率。   
    中文分词是将一句话或者一个短语切分成若干单独的词,通过搜索引擎规则重新组合成一个序列的过
程,简称“中文切词”。分词可以帮助搜索引擎程序自动识别语句的含义,从而使搜索结果的匹配度达到
最高,因此分词的质量也就直接影响了搜索结果的精确度。目前百度搜索引擎分词主要采用字典匹配和统
计学这两种方法。
  字典匹配分词
  搜索引擎有一个词库量超大的词典,即分词索引库,蜘蛛抓起的的词的字符串与词库中的词进行匹配
,找到某个词语就表示匹配成功。主要分为四种切分方式:最少切分(使每一句中切出的词数最小);正向最
大匹配法(由左到右的方向);双向最大匹配法(进行由左到右、由右到左两次扫描);逆向最大匹配法(由右到
左的方向)。
  为了搜索结果更精准,搜索引擎会多种分词方式交替使用,这就为搜索引擎带来很大的困难,如歧义
的处理,为了提高关键词匹配的精确率,搜索引擎会模拟人对字义的理解,从而达到识别词语的效果。在
分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。
  统计学分词
  统计学分词主要是通过该词在网页中出现的频率,位置等因素来进统计,并加入到分词索引库,混合
参与切词。

发帖求助前要善用【论坛搜索】功能,那里可能会有你要找的答案;

如何回报帮助你解决问题的坛友,好办法就是点击帖子下方的评分按钮给对方加【金币】不会扣除自己的积分,做一个热心并受欢迎的人!

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则 需要先绑定手机号

关闭

站长推荐上一条 /1 下一条

QQ|侵权投诉|广告报价|手机版|小黑屋|西部数码代理|飘仙建站论坛 ( 豫ICP备2022021143号-1 )

GMT+8, 2024-11-23 01:52 , Processed in 0.038966 second(s), 9 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表