欢迎访问皇冠体育_皇冠体育比分-主页有限公司官网 !

皇冠体育_皇冠体育比分-主页

联系我们

全国咨询热线:0755-33506161

公司名称:深圳市皇冠体育有限公司
电话:0755-33506161
传真:0755-33605535
手机:13922830701
地址:深圳市宝安区松岗镇广田路天恒石材市场8号厂房

[皇冠体育比分]数据处理之搜索如何命中?

文章来源: 未知发表时间:2020-04-21 作者:[db:作者]

皇冠体育比分是24小时提供时政新闻,国内新闻,国际新闻,生活新闻,时事热点,新闻图片,军事,历史,生活,的专业时事报道门户网站。

本文主要讲解了用户在搜索的时候,是怎么命中的,enjoy~

本文主要讲解了用户在搜索的时候,是怎么命中的,enjoy~

通过本文你可以了解到:

用户搜索的过程:用户输入关键词,系统根据用户输入的内容筛选出系统认为用户感兴趣的信息,然后按照系统所设定的规则进行排序。整个过程可拆解为三步:分词、筛选、排序。

在了解分词前先看下搜索的存储原理:在系统词库和索引库之间建立关联,通过用户输入的关键词去匹配词库,然后拉取索引库内容展示给用户。

以在美食网站搜索“北京最大的火锅店”为例,索引库中内容为系统内所有店铺,每个店铺包含的字段有店名、位置、月销量、评论量、评分等等;词库中内容为系统内的词条,只要用户输入的内容能够匹配到词条,就可以快速找到词条对应的索引内容,无法匹配到词条时就没有返回结果。每个系统都有自己的词库,搜索的很多优化都是集中在词库的优化上。

一、分词

分词是对用户输入的信息进行解读,是自然语言处理的重要步骤。同机器学习原理一样,分词将非结构化的数据转化为结构化数据,结构化的数据就可以转化为数学问题了,解决数学问题正是计算机之所长。

1.1 分词的原因

搜索系统的词库无论如何优化、完善都是有限的,但用户的输入是没有限制的。那么如何把用户无限制的输入对应到有限的词库并返回结果呢?

这就需要引入一个新的概念——分词。简单说就是:系统在对用户输入的内容无法精确匹配时,会将内容进行切分,使切分后的词能够匹配到系统的词库。仍以上图为例,如果用户输入“北京最大的火锅店”,系统中并没有这个词,精确匹配的情况下没有任何结果,此时会将输入内容进行切分,于是

“北京最大的火锅店”—— “北京”、“最大”、“的”、“火锅店”。

“北京最大的火锅店”—— “北京”、“最大”、“的”、“火锅店”。

拆解后每个词就匹配到了相应的内容,排序后就会返回结果。并不是所有的词都会返回有价值的结果,比如案例中的“的”,几乎所有的信息里面都会含有这个字,因此在系统分词时会被直接忽略掉。