【www.gdgbn.com--C语言】

目前的搜索引擎是基于“词项”在进行一系列的排序计算的。

  这个很好理解,计算机目前还无法进行自然语言和计算机语言的直接转换或者计算,也就是无法进行语义的判断和计算。虽然有隐性语义检索的概念,但是也不是真正意义上的语音检索,而且应用的范围很有限。

  检索“老鼠的天地”如果你输入该词,一定是要获得“猫”的信息,这就是语义理解的根本,但是搜索的检索结果还是围绕“老鼠”“天敌”进行检索的结果,根本没有和“猫”的词项发生关系,所以,仅此而言,搜索目前并没有或者计算机技术并没有达到语义检索的境界。

  好,说了一堆,言归正传,词项才是搜索作为排序计算的基本因素。

  以后大家也不必再往别的地方想了,好好做好词项,就是优化的根本。

  其次在了解一下,关键词是如何产生的:

  这也是个蛮有意思的概念:

  优化很多的时候的本质就是关键词优化,当然也不排除整站优化,策略优化等等。

  但是啥是关键词?

  搜索如何确认该页的关键词?

  你认为和关键词和搜索的计算是否吻合?

  等等~

  这些简单的问题,也是初级优化所面临的基本疑惑。

  先说啥是关键词吧

  基于目前搜索针对的是网页的排序计算,我总结了一句话:“在搜索中输入谋词,可以找到该页面,那么这个词,相对于该页来说就是关键词”。

  当然搜索是基于全文检索的,所以这里不代表大段字符的检索。

  关键词搜索是如何计算获得的?

  这也是个技术问题,在倒排的过程中,至于搜索如何计算,原则上咱不知道,也不会知道的,但是原理是很简单的。必然的矩阵,以及词对于文档的相关性量化是必然的,当然你通过向量空间余玄计算或者次线性字符串近似匹配计算等等都可以获得该词语或者该字符串和文档的相关性量化值或者误差值。

  这样对于每个词语和文档的计算后,就会使的每个词语获得一个值,而后形成队列,原则上我观察百度取其前五个高值词语作为该页文档的主题,进行必然的后续计算。这就是关键词产生的基本原理。

本文来源:http://www.gdgbn.com/asp/17093/