|
学习网站优化可以不懂搜索引擎算法,但我们应该了解一些搜索引擎切词的知识,这有利于我们对核
心关键词的布局做到更精准,缩小搜索范围,提高优化效率。
中文分词是将一句话或者一个短语切分成若干单独的词,通过搜索引擎规则重新组合成一个序列的过
程,简称“中文切词”。分词可以帮助搜索引擎程序自动识别语句的含义,从而使搜索结果的匹配度达到
最高,因此分词的质量也就直接影响了搜索结果的精确度。目前百度搜索引擎分词主要采用字典匹配和统
计学这两种方法。
字典匹配分词
搜索引擎有一个词库量超大的词典,即分词索引库,蜘蛛抓起的的词的字符串与词库中的词进行匹配
,找到某个词语就表示匹配成功。主要分为四种切分方式:最少切分(使每一句中切出的词数最小);正向最
大匹配法(由左到右的方向);双向最大匹配法(进行由左到右、由右到左两次扫描);逆向最大匹配法(由右到
左的方向)。
为了搜索结果更精准,搜索引擎会多种分词方式交替使用,这就为搜索引擎带来很大的困难,如歧义
的处理,为了提高关键词匹配的精确率,搜索引擎会模拟人对字义的理解,从而达到识别词语的效果。在
分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。
统计学分词
统计学分词主要是通过该词在网页中出现的频率,位置等因素来进统计,并加入到分词索引库,混合
参与切词。
|
|