中国开发网: 论坛: 程序员情感CBD: 贴子 593584
leejd
全能的Googlebot?
全能的Googlebot?
作者:Ghoul 2007-10-28 03:32:57 阅读:156

今天仔细查看了一下自网站上线以来的所有访问统计报告,其中发现地区分析那一项里面,来自美国的访问量占了比较明显的一部分。其实也不是访问了很多次,但是因为这个是新站访问量没多少,所以才显得比较明显。想想我好像没有什么在美国的朋友,于是就具体地查看了一下来自美国的流量。

美国的流量来自两个洲,加州和纽约州,加州的比较多一点,加州的又主要集中在San Leandro市和Mountain View市。再看了一下来自美国的所有访问量都是同样的操作系统(Windows),浏览器(IE),语言(en-us),屏幕分辨率(800*600),并且关键的网络位置那一项显示的是google inc.,可以确定所有这些流量都来自Google公司。

这些访问是来自Google公司的,但是这些访问并不是一般的Googlebot。因为Googlebot应该是只读取HTML的,而访问统计系统的数据是通过浏览器运行JavaScript才能收集到的,所以普通的搜索引擎的网络蜘蛛抓取网页的访问根本就不会出现在访问统计的数据中。统计系统里面的操作系统,浏览器这几项都是通过用户发送的User-Agent信息来收集,普通的Googlebot的User-Agent带有Googlebot的关键字,这批来自Google公司的访问量并没有表明自己是Googlebot,而是使用了一个统一的用户环境(Windows,IE,en-us, 800*600分辨率,24位色,支持JavaScript,Flash版本9.0)。

推测:操作系统和浏览器信息可以通过User-Agent伪装,另外其他的信息包括分辨率,语言等等也可以通过向专门收集流量信息的统计代码发送专门的参数来伪造,但是我的另外一个统计系统51啦收集到的数据跟Google Analytics收集到的来自美国的流量数据的细节基本一致。所以排除了Google主动向Google Analytics统计代码发送作弊数据的可能。从访问频率来看,通常每隔几天访问一到两次,也符合网络蜘蛛的访问规则。

所以可以肯定这不是普通的Googlebot,而是Google另外的网络蜘蛛。Google的这种蜘蛛是一种全功能的浏览器,能够模拟用户浏览的行为,支持JavaScript和Flash,可能还支持Cookie,支持使用JS来读取屏幕分辨率,颜色数,操作系统语言和区域设置。跟真人访问差不多。因为Google Analytics 里面的“网络位置”一项是根据IP地址确定的,所以无法伪造。

至于这种蜘蛛有什么用,最大的用途可能就是反作弊。Google早就说过,针对搜索引擎制作专门的页面是不对的,也就是说,Googlebot看到的东西应该和用户看到的东西一样才对。可能Google用这种蜘蛛来检查网站是否专门针对搜索引擎发送了特别的网页版本。还有可能是Google有另外的项目,需要使用这种高度拟人的蜘蛛去抓取数据,进行特别的研究和应用。

这种蜘蛛非常低调,除了IP地址是来自Google公司以外,其他的都跟普通用户行为一样。只是我这个是租用的空间,无法取得原始的Apache访问日志,不然可以看看具体的User-Agent和浏览行为。大家可以查看一下自己网站的访问统计是否有这样的数据。

本文固定链接:http://www.ghoul.cn/blog/article/72.html 转载时必须以链接形式注明原始出处。

相关信息:


欢迎光临本社区,您还没有登录,不能发贴子。请在 这里登录