【www.gdgbn.com--网络相关】

一种搜索结果的排序算法    
Jun 26, 2005 来源:未详     
    乱世用重典,搜索引擎在与spam的长期战争中总是处于不利地位(这很容易理解,搜索引擎公司真正考虑搜索结果相关性和排序的只有几个人,而互联网上整天琢磨怎么对付搜索引擎的有几万几十万webmaster),所以对spam的惩罚很严厉,事实上,所有的搜索引擎对它们认定的spam行为,通常只有一种惩罚:永久屏蔽。现在流行的太极链、凤凰链这些超链群,就存在被当做spam的可能性。国内的搜索引擎注册还没有形成市场,但在国外是很发达的产业,每年以200%的速度增长,它们叫SEO,即search engine optimization。
  从某种角度来说,几乎是spam在推动着搜索引擎的进步,很久很久以前的一天,搜索引擎们为了搜索结果能更准确,为了能把最相关的搜索结果排在前面,发明了meta tag。起初,meta tag是很好用的,那时候,诚实的webmaster们如实的填写网站摘要,如实的列出跟他的网站最相关的关键字,搜索引擎们抓取、索引、检索这些诚实的meta tag,并作为搜索结果排序的重要依据,然后,是一段相安无事的甜蜜时光。
  岁月迅速流逝,甜蜜时光挡不住资本的力量。“一旦有适当的利润,资本就大胆起来……有50%的利润,他就铤而走险;有100%的利润,他就敢践踏一切人间法律;有300%的利润,他就敢犯任何罪行,甚至冒绞首的危险。” 越来越多的网站开始追求收入追求pageview,它们开始欺骗搜索引擎,它们在meta tag中塞进成堆的关键字,塞进跟自己的网站内容无关的但是流行的关键字。群众的力量是巨大的,搜索引擎的相关性被破坏了。。。
 
  搜索引擎们对作弊者开始第一轮反击,但是无力的,它们的做法是:在排序时更多的依赖网页正文而不是meta tag。
  作弊者以进为退,开始第二轮攻击,他们在正文中大量使用与网页背景相同颜色的关键字,在image tags中塞进关键字,在网页代码加入“看不见的注释”。
  搜索引擎开始第二轮反击,它们找到了有效的方法来过滤这些看不见的文字,取得了小小的胜利。
  善良是善良者的墓志铭,卑鄙是卑鄙者的通行证”,作弊者眼见常规武器无效,开始利用搜索引擎的真诚。搜索引擎的spider是互联网上的谦谦君子,它们访问任何网站都会自报身份,并且查阅网站的访问规定,完全按照各网站的规矩来办事。于是,作弊者精心制作了两个网站,一个专供网友访问,一个专供搜索引擎访问,每当发现访问请求来自搜索引擎时,就返回专供搜索引擎看的能令搜索引擎满意的网页,而正常访问者只能看到另一个截然不同的网站。这种方法叫做cloaking。这第三轮攻击,作弊者大胜。

本文来源:http://www.gdgbn.com/jiaocheng/641/