基于统计的分词方法更为灵活

久旱*** · 发表于 2013-1-7 19:50:31

SEOer都知道，搜索引擎工作原理中有一步预处理，将抓取的页面进行几道工序处理下，为之后的排名机制做好初步准备。在预处理过程中，就有分词这一道技术工序。英文是以一个单词作为基本单位，单词之间用空格分割连成一句话，中文是以字为单位中间没有连接符成为一句话。所以，中文分词与英文分词差别很大。而从现有的搜索引擎特别是百度的中文分词研究表明，主要是基于词典匹配和基于统计。
1、基于词典匹配是指将目标词或句与已有的词典中的词条进行匹配处理，扫描之后匹配成句、词、字形式。
（1）按照扫描方向不同，可分为正向匹配和逆向匹配。
（2）按照匹配长度优先级不同，可分为最大匹配和最小匹配。
（3）按照扫描方向和长度优先混合匹配，可分为正向最大匹配和逆向最大匹配等。
2、基于统计是指分析大量数据样本，扫描计算出字或词或句出现的统计概率，几个字乡邻出现越多，就越能形成一个词，同样的可以形成句。
基于词典匹配准确性是取决于词典的完整性和时效性，速度很快。基于统计的分词方法更为灵活，同时有利于消除歧义，但速度较慢。搜索引擎的中文分词往往是将这两种分词技术糅合在一起使用，以提高速度和准确性。这是我们所说的中文分词技术，那么同样的基于这些中文分词技术，我们要最大化利用，回归合肥SEO博客，谈谈前锋对中文分词技术的应用和揣测。
本文由广东移动http://www.brayoz.com/提供,如需转载请保留出处,谢谢！

		自动登录	找回密码
密码			立即注册

[杂谈] 基于统计的分词方法更为灵活

浏览过的版块

站长推荐 /1