`
wangminshe89
  • 浏览: 667284 次
文章分类
社区版块
存档分类
最新评论

搜索引擎与spam

 
阅读更多
搜索引擎与spam

亂世用重典,搜索引擎在与spam的長期戰爭中總是處于不利地位(這很容易理解,搜索引擎公司真正考慮搜索結果相關性和排序的只有几個人,而互聯网上整天琢磨怎么對付搜索引擎的有几万几十万webmaster),所以對spam的懲罰很嚴厲,事實上,所有的搜索引擎對它們認定的spam行為,通常只有一种懲罰:永久屏蔽。現在流行的太極鏈、鳳凰鏈這些超鏈群,就存在被當做spam的可能性。國內的搜索引擎注冊還沒有形成市場,但在國外是很發達的產業,每年以200%的速度增長,它們叫SEO,即search engine optimization 從某种角度來說,几乎是spam在推動著搜索引擎的進步,很久很久以前的一天,搜索引擎們為了搜索結果能更准确,為了能把最相關的搜索結果排在前面,發明了meta tag。起初,meta tag是很好用的,那時候,誠實的webmaster們如實的填寫网站摘要,如實的列出跟他的网站最相關的關鍵字,搜索引擎們抓取、索引、檢索這些誠實的meta tag,并作為搜索結果排序的重要依据,然后,是一段相安無事的甜蜜時光。



  歲月迅速流逝,甜蜜時光擋不住資本的力量。“一旦有适當的利潤,資本就大膽起來……有50%的利潤,他就鋌而走險;有100%的利潤,他就敢踐踏一切人間法律;有300%的利潤,他就敢犯任何罪行,甚至冒絞首的危險。” 越來越多的网站開始追求收入追求pageview,它們開始欺騙搜索引擎,它們在meta tag中塞進成堆的關鍵字,塞進跟自己的网站內容無關的但是流行的關鍵字。群眾的力量是巨大的,搜索引擎的相關性被破坏了。。。



  搜索引擎們對者開始第一輪反擊,但是無力的,它們的做法是:在排序時更多的依賴网頁正文而不是meta tag。



  者以進為退,開始第二輪攻擊,他們在正文中大量使用与网頁背景相同顏色的關鍵字,在image tags中塞進關鍵字,在网頁代碼加入“看不見的注釋”。



  搜索引擎開始第二輪反擊,它們找到了有效的方法來過濾這些看不見的文字,取得了小小的胜利。



  善良是善良者的墓志銘,卑鄙是卑鄙者的通行證”,者眼見常規武器無效,開始利用搜索引擎的真誠。搜索引擎的spider是互聯网上的謙謙君子,它們訪問任何网站都會自報身份,并且查閱网站的訪問規定,完全按照各网站的規矩來辦事。于是,者精心制作了兩個网站,一個專供网友訪問,一個專供搜索引擎訪問,每當發現訪問請求來自搜索引擎時,就返回專供搜索引擎看的能令搜索引擎滿意的网頁,而正常訪問者只能看到另一個截然不同的网站。這种方法叫做cloaking。這第三輪攻擊,者大胜。



  1998年3月1日,分別在AltaVista、Excite、HotBot、Infoseek、Lycos搜索當時的熱門詞匯“Monica Lewinsky”,各搜索引擎首頁居然分別有50%、30%、30%、10%、50%的搜索結果是spam。由此可見當時者們猖獗至何等程度!



  搜索引擎們,因為它們道德上的弱點,因為有些手段不愿用,所以無法完全辨別cloaking网站,也就無法完全對付者。搜索引擎能做的只是嚴厲的懲罰被發現的spam,以警告者,發展到今天的結果是,所有的搜索引擎對它們認定的spam行為,只有一种懲罰:永久屏蔽。



  但是,嚴厲的懲罰從來只是無能者推卸責任的借口,而不能真正的改善狀況。“一旦有适當的利潤,資本就大膽起來……有50%的利潤,他就鋌而走險;有100%的利潤,他就敢踐踏一切人間法律;有300%的利潤,他就敢犯任何罪行,甚至冒絞首的危險。” 者從來就不怕懲罰,當互聯网狂潮來臨,追求pageview的者們更是肆無忌憚。



  無可奈何的搜索引擎,只有去尋找新的相關性排序依据,只有去尋找者不能控制的排序依据,只有去网站以外尋找排序的依据,搜索引擎,真的別無選擇。



  于是,開始出現了超鏈分析,出現了Pagerank。一個网頁,說它自己是什么,它就是什么嗎?物以類聚,如果它說的是真的,那么指向這個网頁的鏈接應該來自具有同類內容的网頁,所以指向這個网頁的鏈接可以被用來驗證這個网頁的相關性。



  誰,最不可能出于貪婪而?誰,最可能如實提供网頁內容?是政府网站,和教育网站。所以,在超鏈分析中,gov和edu网站通常被賦予較高的排名,來自gov和edu的超鏈也有更高的价值。



  但是PageRank也帶來了一些不請自來的錯誤排序因素:新站不如舊站,小站不如大站,專業站不如通俗站。一個新网站,一個小网站,一個專業网站,它的內容再好,因為不可能迅速得到大量的超鏈,所以無法得到合适的排名,即使它的內容是無与倫比的。而一個歷史悠久的老网站、大网站、通俗网站,即使它已久不更新,或者內容遠不如某些小网站,卻可以獲得很高的排名。



  當超鏈分析剛出來時,SEO界一片悲觀論調,認為這是無法的,SEO業完蛋了(就象近期各搜索引擎紛紛收費,SEO業更覺得自己前景慘淡,其實雖然搜索引擎排名市場的大頭要給搜索引擎們,但SEO還是有錢賺的,畢竟,只有勞動模范有下崗的可能,從來沒听說騙子會失業的),但是,道高一尺魔高一丈,很快SEO們發現了對付超鏈分析的方法:你不是喜歡鏈接么,好,我就做大量的网站,准備大量的鏈接,哪個客戶出錢,我所有的网頁都給它一個鏈接。這种SEO方法被稱為link firm。這种方法剛出現時還算有效,不過很快就不行了,因為一個网站是否有大量來自內容不相干网頁的鏈接,或者一個不是搜索引擎的网站給出大量不相干的鏈接還不難判斷。而每當發現一個link firm,那些使用了該link firm的网站就全部死翹翹。我在wmw的論壇上看過一個家伙的帖子,說他的网站被封了,但他覺得自己很干淨,沒有做spam,所以主動去問Google封他网站的原因,原來僅僅是因為他用了一個link firm,真是可怜。



  一种搜索結果的排序算法,如果更多的是基于概念、主題、基于网頁內容的質量,而不是网絡上互相鏈來鏈去的超鏈的重要性,那么搜索結果的相關性在本質上會更好。



  只是,讓計算机學會理解和評价网頁內容嗎?好像還是很遙遠的事情;花大量的人力一個個网頁評估么?這肯定是虧本的商業行為,只有靠志愿者。ODP庶几近之,但也只能點擊,用關鍵字搜索時還是無法跟超鏈分析的結果相比。
分享到:
评论

相关推荐

    浅析PageRank算法

    很早就对Google的PageRank算法很感兴趣,但一直没有深究,只有个轮廓性的概念。前几天趁团队outing 的机会,在动车上看了一些相关的...最 后将讨论对PageRank的Spam攻击方法:Spam Farm以及搜索引擎对Spam Farm的防御。

    常见的网站seo术语文档

    搜索引擎使用多种技术来断定哪个网页与哪个搜索请求匹配,并且 根据相关程度来对自然搜索匹配结果进行排名,见最匹配的结果呈现在第一个搜索结果中。 付费放置和目录结果通常同时受到相关性以及网站所有者竞标结果的...

    Search-Engine-Spam-Blocklist:阻止列表,从搜索引擎的结果中过滤出垃圾邮件域

    搜索引擎垃圾邮件阻止列表 定期维护的阻止列表,用于从搜索引擎的结果中过滤出垃圾邮件域。 什么事啊 您知道所有这些奇怪的自动生成的垃圾邮件站点,这些站点经常在搜索结果中弹出,并带有诸如“待售的免费性爱热销...

    Spam-refer3r:引用垃圾邮件(也称为日志垃圾邮件或引用轰炸)-开源

    必需:-Php CLI-Php CURL引用垃圾邮件(也称为日志垃圾邮件或引用轰炸)是一种spamdexing(针对搜索引擎的垃圾邮件)。...由于搜索引擎使用的链接计数算法,垃圾邮件发送者的站点提高了搜索引擎排名。

    论文研究-基于结构信息和时域信息的垃圾网页检测技术.pdf

    提出一种将结构信息和时域信息综合运用来检测Spam技术的方法,并针对目前流行的Spam技术,从四个月的网络链接图中提取大量的结构和时域信息特征,训练一组检测Spam技术的网页分类器,取得了很好的实验结果。

    如果搜索中性是答案,那么有什么问题?-研究论文

    对搜索引擎偏见的担忧导致了一系列拟议的监管React。 尽管辩论集中在针对Google一系列业务决策提出的“问题”的可能补救措施,但它很大程度上遗漏了以下前提问题:搜索引擎偏见是否是市场失灵的产物,还是会给监管...

    TurboMail邮件服务器软件 v4.3.0 for windows.exe

    3、内置电子邮件全文搜索引擎 对邮件标题、发件人、收件人、时间、内容、附件进行全文索引,实现邮件全文搜索。 4、高级中继功能和海外转发服务器保证全球收发 可根据设定的条件使用多个邮箱进行邮件中继,可...

    TurboMail邮件服务器.zip

    3、内置电子邮件全文搜索引擎  对邮件标题、发件人、收件人、时间、内容、附件进行全文索引,实现邮件全文搜索。  4、高级中继功能和海外转发服务器保证全球收发  可根据设定的条件使用多个邮箱进行邮件中继,...

    TurboMail邮件服务器 4.3.0 For Linux.zip

    内置电子邮件全文搜索引擎 对邮件标题、发件人、收件人、时间、内容、附件进行全文索引,实现邮件全文搜索。 高级中继功能和海外转发服务器保证全球收发 可根据设定的条件使用多个邮箱进行邮件中继,可使用海外...

    Advanced topic in IR

    介绍了搜索引擎中两个非常实际的问题: 缓存和预取 14: april-12-han.ppt,2005-4-12 by Han Liu,uiuc at Urbana-Champaign 题目:Integrating Topics and Syntax 介绍在Language Model中如何将Semantic(Topics)信息...

    为SEO而生的wordpress主题TearSnow Fan V1.8.0

    此功能能够进一步的提升用户的体验,告诉通过搜索引擎来到网站的访客的现在所访问的网站位置。千万别再问泪雪什么是面包屑导航了哈,我可伤不起啊,不知道的请自己与主题TearSnow Fan V1.7.0对比。 四、去除Head...

    Chengxiang Zhai-Advanced topic in IR

    3-1 题目:Towards the Self-Annotating Web 介绍了一种任务:给网页做注解 <br>13:fetch.ppt 题目:Predictive Caching and Prefetching of Query Results in Search Engines 介绍了搜索引擎中两个...

    一种抵抗链接作弊的PageRank改进算法

    大量的基于链接的搜索引擎作弊方法对传统PageRank算法造成了巨大的影响,例如,链接农场、交换链接、黄金链、财富链等使得网页的PageRank值失去了公正性和权威性。该文在分析多种作弊方法对传统PageRank算法所造成的...

    MyNewsGroups :)-开源

    MyNewsGroups :)是一个基于Web的USENET新闻搜寻器,新闻阅读器和新闻发布者。 通过使用数据库后端,搜寻器仅一次获取新闻组消息。 基于Web的环境,SPAM过滤器,搜索引擎,订阅等。

    everlasting-botstopper:使用您的Lighttpd配置停止垃圾邮件发送者!

    关于这些是Lighttpd的一些配置规则,可阻止不遵守robots.txt的常见垃圾邮件爬网程序和搜索引擎。 我在上使用它来阻止烦人的bot,这样我就可以在我的网络服务器访问日志中不断看到它,并且效果非常好。 默认情况下,...

    机器如何“思考”:理解机器学习算法中的不透明度-研究论文

    本文将不透明度问题视为分类和排名的社会后果机制的问题,例如垃圾邮件过滤器、信用卡欺诈检测、搜索引擎、新闻趋势、市场细分和广告、保险或贷款资格以及信用评分。 这些分类机制都经常依赖于计算算法,并且在许多...

    WordPress 宝典.pdf

    它更能把握搜索引擎,在你使用 WordPress 并掌握几种插件后,对于优化将不用过多的操心,它会为你想的更多。  WordPress有许多第三方开发的免费模板,安装方式简单易用。不过要做一个自己的模板,则需要你有一定的...

Global site tag (gtag.js) - Google Analytics