找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 846|回复: 1

[杂谈] 百度优化的分词技术

[复制链接]
发表于 2012-7-28 09:43:19 | 显示全部楼层 |阅读模式 来自 中国–河北–邯郸
本篇文章浅析一下百度的中文分词技术,有不足之处还望各位有心人能指出,当然,也希望可以帮助站长们更深层的理解搜索引擎分词技术,做好自己的网站,获得更好的排名。

  一、搜索引擎中文分词技术

  搜索引擎中文分词技术简单来说,就是把中文的汉字序列切分成有意义的词组。

  二、搜索引擎分词技术简述

  1.基于字符串匹配的分词方法

  按照一定的策略将待分析的汉字串与一个极其词库中的词条进行匹配。

  常用分词的方法:

  正向最大匹配法(由左到右的方向)

  分词测试例子:我/有意//分歧

  反向最大匹配法(由右到左的方向)

  分词测试例子:我//意见/分歧

  据大量测试数据统计结果表明:单纯使用正向最大匹配的错误率为1/169,单纯使用反

  向最大匹配的错误率为1/245。逆向匹配的切分精度略高于正向匹配。

  2.基于统计的分词方法

  相邻的字同时出现的次数越多,就越有可能构成一个词。用于系统自动识别新词。

  3.基于理解的分词方法

  在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧异现象。

  三、百度搜索引擎分词技术分析

  1.最大分词词长

  分词技术归纳:少于等于3个中文字不切割

  分词技术归纳:对于大于等于4个汉字的词将被分词

  2.分词匹配算法

  分词测试查询:查询:工地方向导

  正向最大匹配:工地/方向/

  反响最大匹配:工/地方/向导

  百度采用正向最大匹配算法

  分词技术归纳:首先用专用词典采用最大正向匹配分词,切出部分结果;剩余没有切分交给普通词典,同样采取正向最大匹配分词。

  关于搜索引擎分词技术,这次就浅析到这。但是搜索引擎的分词技术远远不止这些,分词中的一些难题,如歧义识别、新词识别、拼写检查错误提示、拼音提示功能、相关搜索提示等深一些的网站,随时会有新的知识让大家吸收。


发帖求助前要善用【论坛搜索】功能,那里可能会有你要找的答案;

如何回报帮助你解决问题的坛友,好办法就是点击帖子下方的评分按钮给对方加【金币】不会扣除自己的积分,做一个热心并受欢迎的人!

发表于 2012-7-28 10:20:18 | 显示全部楼层 来自 中国–河北–石家庄
百度的算法,楼主敢说你知道,现在大家就是猜测,楼主能得出结论就是最好了!

评分

参与人数 1金币 +5 收起 理由
抢楼评分专号 + 5 很幸运,你获得了抢楼奖励!

查看全部评分

发帖求助前要善用【论坛搜索】功能,那里可能会有你要找的答案;

如何回报帮助你解决问题的坛友,好办法就是点击帖子下方的评分按钮给对方加【金币】不会扣除自己的积分,做一个热心并受欢迎的人!

回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则 需要先绑定手机号

关闭

站长推荐上一条 /1 下一条

QQ|侵权投诉|广告报价|手机版|小黑屋|西部数码代理|飘仙建站论坛 ( 豫ICP备2022021143号-1 )

GMT+8, 2024-12-23 21:28 , Processed in 0.050638 second(s), 13 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表