搜索引擎之分类与入索引

南京网*** · 发表于 2015-12-29 09:29:27

入索引就是是分词后的入库。根据ABC,啊哦额等一系列term进行存放。分类是把一大堆东西A，去归类的另外几样东西B上。其实本质就是就求A们和某个B的相关性。然后这个相似性又分成布尔模型和潜在语义模型。

布尔模型很简单，就是包含(相关)和不包含（不相关）的问题。例如你上面的说的东西。各种2元匹配然后布尔模型是有局限性的，太依赖匹配，容易找出太多或者太少的结果。

然后接下来就是向量模型

把文档中的term映射到向量空间中，然后每个term会有自己的权重，通过余弦求相似性。当然，上面这两个种比较好理解，然后技术实现难度也不大，搜索引擎也不可能用。接下来说说搜索引擎可能会用的（为啥是可能？因为我也不在搜索引擎工作）

例如PLSA，LDA等基于统计学语义算法，可以用于分类，过滤，检索等方面，说实话我也搞不太清楚，大概是把文章映射到向量空间中，然后通过奇异值分解后降维进行计算。通俗点来讲，就是例如通过上说的布尔模型模型，可以知道"iphone"和"iphone4s"是同一类东西。但是通过基于统计学的语义算法，能够知道乔布斯和iphone之间是有关系的，具体资料可以在网上查一查。

南京十胜石业务范围：IOS开发，Android开发，微信公众平台开发，HTML5站开发，智能硬件开发，企业ERP/CRM开发，B2B/B2C/O2O电商开发，WEB网站开发，QQ2041372411网站

		自动登录	找回密码
密码			立即注册

[杂谈] 搜索引擎之分类与入索引

浏览过的版块

站长推荐 /1