找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 720|回复: 0

[杂谈] 基于统计的分词方法更为灵活

[复制链接]
发表于 2013-1-7 19:50:31 | 显示全部楼层 |阅读模式 来自 中国–广东–中山
SEOer都知道,搜索引擎工作原理中有一步预处理,将抓取的页面进行几道工序处理下,为之后的排名机制做好初步准备。在预处理过程中,就有分词这一道技术工序。英文是以一个单词作为基本单位,单词之间用空格分割连成一句话,中文是以字为单位中间没有连接符成为一句话。所以,中文分词与英文分词差别很大。而从现有的搜索引擎特别是百度的中文分词研究表明,主要是基于词典匹配和基于统计。
1、基于词典匹配是指将目标词或句与已有的词典中的词条进行匹配处理,扫描之后匹配成句、词、字形式。
(1)按照扫描方向不同,可分为正向匹配和逆向匹配。
(2)按照匹配长度优先级不同,可分为最大匹配和最小匹配。
(3)按照扫描方向和长度优先混合匹配,可分为正向最大匹配和逆向最大匹配等。
2、基于统计是指分析大量数据样本,扫描计算出字或词或句出现的统计概率,几个字乡邻出现越多,就越能形成一个词,同样的可以形成句。
基于词典匹配准确性是取决于词典的完整性和时效性,速度很快。基于统计的分词方法更为灵活,同时有利于消除歧义,但速度较慢。搜索引擎的中文分词往往是将这两种分词技术糅合在一起使用,以提高速度和准确性。这是我们所说的中文分词技术,那么同样的基于这些中文分词技术,我们要最大化利用,回归合肥SEO博客,谈谈前锋对中文分词技术的应用和揣测。
本文由广东移动http://www.brayoz.com/提供,如需转载请保留出处,谢谢!

发帖求助前要善用【论坛搜索】功能,那里可能会有你要找的答案;

如何回报帮助你解决问题的坛友,好办法就是点击帖子下方的评分按钮给对方加【金币】不会扣除自己的积分,做一个热心并受欢迎的人!

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则 需要先绑定手机号

关闭

站长推荐上一条 /1 下一条

QQ|侵权投诉|广告报价|手机版|小黑屋|西部数码代理|飘仙建站论坛 ( 豫ICP备2022021143号-1 )

GMT+8, 2024-12-23 22:27 , Processed in 0.037919 second(s), 9 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表