您好,欢迎来到12图资源库!分享精神,快乐你我!我们只是素材的搬运工!!
  • 首 页
  • 当前位置:首页 > 网站教程 > SEO教程 >
    搜索引擎中的粒度成绩
    时间:2017-10-11 12:09 来源:网络整理 作者:网络 浏览:收藏 挑错 推荐 打印

    传统的搜索引擎的定义,是指一种关于指定的查询(Query),可以前往与之相关的文档集合(Documents)的系统。而百度将这个定义愈加丰厚化,即搜索引擎可以协助人们更方便的找到所求。这里的“所求”,比“文档”愈加普遍和丰厚,比如一个关于天气的查询,直接前往一个天气预告的窗口,而非一篇关于天气的文档;再如一个关于小游戏的查询,直接前往这个小游戏的Flash页面而非复杂的引见性的文字。

    百度对Query深入的了解,源于自然言语处置技术在其中发扬的庞大作用。对搜索引擎而言,文本切分是最基础也是最重要的自然言语成绩之一。明天,我们就来谈谈文本切分粒度与搜索引擎的关系。

    本文后续章节组织如下:第二节引见什么是文本的粒度,第三节讲述搜索引擎的基本原理与文本切分粒度的关系,第四节深化讨论粒度的属性与检索相关性计算,第五节小结。

    二.文本粒度

    什么是文本的粒度?我们用什么来权衡文本粒度?在回答这些成绩前,让我们先看看以下几组词汇:

    缠绵、坎坷、葡萄、乒乓

    绿茶、篮球、白色、鼠标垫、起重机

    打球、跳绳、炒菜、登山

    笔记本电脑、高清机顶盒、IP电视

    但是、然后、假设、十分

    步步惊心、家的n次方、一团体的精彩

    百度在线网络技术(北京)有限公司、清华大学

    张学友、赵传、工藤新一、里奥内尔·安德雷斯·梅西

    ……

    这几组词汇中,哪些的粒度大,哪些的粒度小?

    不管在传统的言语学范围,还是在自然言语处置范围,都没有对粒度下一个明晰准确的定义。但是就搜索引擎而言,我们不妨这样定义:粒度是权衡文本所含信息量的大小。文本含信息量多,粒度就大,反之就小。有了这个准绳,我们就很容易判别文本粒度大小了。像“缠绵”,“坎坷”,“葡萄”这些词,虽然有两个字组成,但是仅表达一个意思,这些词的粒度是小的。而“篮球”,“鼠标垫”等词,是由复杂词分解的,虽然也只要一个意思,但还可以拆分,如“篮”和“球”,“鼠标”和“垫”。这类词,粒度稍微大一些。而“笔记本电脑”,“高清机顶盒”这样的词,粒度就更大了。

    专名是一类比较特殊的词,虽然所含字数很多,但其实只表达一个意思,如“步步惊心”,“家的n次方”这样的电影、电视剧的称号,粒度是很小的。机构名、人名等属于有外部结构的专名,比电影名的粒度稍大一些。

    显然易见,我们在讨论文本粒度时,理想的方式是从语义角度动身,合理的剖析和判别。但是以上我们仅对粒度做了定性的剖析,为粒度找一个适宜的度量单位和计算办法,是百度人不断追求的目的。

    三.搜索引擎的基本原理与词汇切分关系

    3.1 搜索引擎的基本原理

    文本检索系统,是搜索引擎最复杂的完成方式。经过前往包含关键字的页面,来满足用户的检索需求。方式化的表达就是给定一系列关键字集合K,要求前往一切包含关键字的文档D,对D中的恣意一个文档d,包含K中的恣意一个关键字k。

    普通我们采用倒排索引的方式来完成这个系统。所谓倒排索引,就是对关键字树立索引,记载包含这个关键字的文档集合D。关于央求的关键字集合,找出一切关键字对应的索引,并对索引求交,最后前往同时存在于一切索引中的文档。

    在百度,我们不只允许用户输入关键字,也可以输入任何长度在一定范围内的文本。此时我们需求对文本做一定处置,切分红一系列关键字,从而可以从倒排索引中找出对应的文档。

    那么为什么要对输入文本做切分,假设不切分会有什么成绩?

    我们可以想象一下,假设不对输入文本做切分,直接用输入文本去做婚配,会怎样样?首先,失掉的结果会十分少,由于直接用全部文本婚配,就失掉了灵敏性,对结果限制的十分死,必须完全婚配才能满足要求;其次,系统功用会十分差,由于需求对一切长度的文本都树立索引,这是指数级的,在实践系统中基本不能够完成。再思索一下另一个极端?我们对输入文本做单字切分,结果又是怎样?我们会失掉少量有关的页面,不只糜费系统功用,对相关性计算也形成了庞大的压力。

    所以,我们需求对文本做一个适宜的切分。

    (责任编辑:admin)