中国开发网: 论坛: 程序员情感CBD: 贴子 430792
Apache
偶的目前还是爬虫方式
目前只实现了页面的采集,就是肆无忌惮的乱爬啦

URL采集用的正规则表达式,目前JAVAScript的URL还无法采集


下一步就是页面内容分析了,正在研究中...

还没想好是基于模板 还是基于分词,头疼ing ...











相关信息:


欢迎光临本社区,您还没有登录,不能发贴子。请在 这里登录