Google的Robots.txt指南
我们知道,搜索引擎数据库中的所有网页,都是由Robot程序自动抓取收录的。不过,对于这些所谓的Spider或Robot究竟以怎样的机制在网站内爬行、收录网页则可能很多人就不太清楚了。自本文开始,我们将逐步介绍这方面的一些情况。
本文我们将首先介绍Google的Robot,包括Google最重要的几种Robot类型、相应的功能以及如何控制它们以保证网站优化效果。
只要打开您的Web服务器日志文件(为文本文件,使用文本编辑器即可),或者使用类似于AWStats之类日志分析工具,就能看到搜索引擎的robot造访的记录,对Google而言,最活跃的当然非广为人知的Googlebot莫属了,但除了Googlebot之外,Google还使用其他几种Robot,下面我们逐一说明。
GoogleBot : 服务Google主索引数据库
根据用途与对网页的索引机制,一般认为,Googlebot可分为deepbot与freshbot两个版本。其中,Deepbot,顾名思 义,所从事的任务是尽可能地挖掘网站内的深层页面,至于其能够在网站内爬行多深则取决于很多因素,之中起决定性的是网站的结构是否合理即网站的内部链接机 制是否能够有效地让网站成为一个整体,以及网页的PageRank;而Freshbot,则主要针对新鲜的内容与网页,注意,这里所说的新鲜内容 (Fresh Content)并不仅仅指网站内新加入的网页,也包括已经被纳入Google索引数据库但后又进行过修改、更新的。
注:对于Googlebot分为deepbot和freshbot两类的说法,存在一定的争议,目前还有种说法是:Google近来, 尤其是BigDaddy更新后,已经取消了deepbot,相应的功能改由freshbot承担,即只有一种Googlebot。至于是否如此,笔者尚未 找到更确凿的证据。
要让网站内的页面尽可能地被Google索引、收录,前提是要保证Googlebot有兴趣到网站内频繁造访,而要实现这一点,保持网站内容有节奏地更新便极为关键。——当然,更新的内容需要具备一定的质量。此外,网站是否具有一定数量的高质量反相链接也起着决定性作用,即网站的反相链接不仅仅决定网页的PageRank和在SERP中的排名,也决定着Googlebot对网站的爬行频率及深度。
不过,要引导Googlebot对网站内容的索引,还有条捷径可走,那便是Google Sitemap,从某种意义上,可以说Google Sitemap是Google的“后门”。Google Sitemap可以让网站建设者通过使用特定格式的sitemap文件,通知Google并指引Google spider收录相应网页。正确地使用Google Sitemap,可以确保让Google spider不遗漏网站内的任何页面,及时地、连续地收录进Google的索引数据库。同时,Google Sitemaps还可以反馈很多有用的信息,如网页诊断,这样,当网页内存在“Broken”链接时我们可以及时发现错误并改正。
MediaBot : 决定Adsense广告的投放
MediaBot的标识全称为“Mediapartners-Google”,是Google用来分析发布Adsense广告网页内容相关性的 robot。MediaBot收集的网页信息,是Google决定哪些广告将显示在网页上以及这些广告将以什么顺序显示的基础。
从某种意义上说,MediaBot索引的信息在很多程度上与Googlebot是重合的,因此,一直都有发布AdSense是否有助于网站排名的猜测,在Matt Cutts证实mediabot的索引爬行结果也被 BigDaddy的索引使用后这种怀疑便更显得顺理承章,虽然Matt Cutts一再强调Adsense发布商不会因MediaBot得到额外的好处,但很多人包括笔者看来,当我们对网站内容改动时,能够让Google索引数据库也得到及时更新本身便是一个极大的优势。
页面: 第1页 第2页

博友留言