Apache: 偶的目前还是爬虫方式 [阅读: 287] 2006-11-02 11:10:13 目前只实现了页面的采集,就是肆无忌惮的乱爬啦 URL采集用的正规则表达式,目前JAVAScript的URL还无法采集 下一步就是页面内容分析了,正在研究中... 还没想好是基于模板 还是基于分词,头疼ing ...