找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 697|回复: 0

[杂谈] 搜索引擎之分类与入索引

[复制链接]
发表于 2015-12-29 09:29:27 | 显示全部楼层 |阅读模式 来自 中国–江苏–南通
入索引就是是分词后的入库。根据ABC,啊哦额等一系列term进行存放。分类是把一大堆东西A,去归类的另外几样东西B上。其实本质就是就求A们和某个B的相关性。然后这个相似性又分成布尔模型和潜在语义模型。
布尔模型很简单,就是包含(相关)和不包含(不相关)的问题。例如你上面的说的东西。各种2元匹配然后布尔模型是有局限性的,太依赖匹配,容易找出太多或者太少的结果。
然后接下来就是向量模型
把文档中的term映射到向量空间中,然后每个term会有自己的权重,通过余弦求相似性。当然,上面这两个种比较好理解,然后技术实现难度也不大,搜索引擎也不可能用。接下来说说搜索引擎可能会用的(为啥是可能?因为我也不在搜索引擎工作)
例如PLSA,LDA等基于统计学语义算法,可以用于分类,过滤,检索等方面,说实话我也搞不太清楚,大概是把文章映射到向量空间中,然后通过奇异值分解后 降维进行计算。通俗点来讲,就是例如通过上说的布尔模型模型,可以知道"iphone"和"iphone4s"是同一类东西。但是通过基于统计学的语义算法,能够知道乔布斯和iphone之间是有关系的,具体资料可以在网上查一查。

南京十胜石业务范围:IOS开发,Android开发,微信公众平台开发,HTML5站开发,智能硬件开发,企业ERP/CRM开发,B2B/B2C/O2O电商开发,WEB网站开发,QQ2041372411网站www.3sxx.com


发帖求助前要善用【论坛搜索】功能,那里可能会有你要找的答案;

如何回报帮助你解决问题的坛友,好办法就是点击帖子下方的评分按钮给对方加【金币】不会扣除自己的积分,做一个热心并受欢迎的人!

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则 需要先绑定手机号

关闭

站长推荐上一条 /1 下一条

QQ|侵权投诉|广告报价|手机版|小黑屋|西部数码代理|飘仙建站论坛 ( 豫ICP备2022021143号-1 )

GMT+8, 2024-12-23 19:03 , Processed in 0.042033 second(s), 9 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表