CNDEV
CNDEV.ORG
当前在线
论坛
CBD
程序员情感CBD
程序员见面交流会
CBD开发区
Java/J2ME
.NET/C#
数据库
Delphi/BCB
Visual C
其它
修真养身
中国象棋
纪念日
谈钱太俗,还是投机吧
听音乐
iCosta
资源共享
一隅
好文共赏
看电影看美剧
待定
狗屎
雪域召唤
工作流
专业显摆区
语录
情感
批评与自我批评
爱情故事
发牢骚
看三点区
游戏
CNDEV-CS/WOW
浩宇长空
生活
家有XPH
我爱学英语
美食天地ORG
半调子体育迷
观澳园友邻
搞笑奇文
拍照片
我读书我存在
论坛系统
超级垃圾站
系统建议及BUG
系统测试
中国开发网
: 论坛:
程序员情感CBD
: 贴子 109697
CJF
:
这个专门收集一些大的网站就可以了吧。。不需要到处爬的
[阅读: 392] 2005-03-07 07:57:32
<空>
相关信息:
打算改进网络爬虫程序,打算爬进那些用JavaScript才能打开的网页。各位有何建议?
(空) (
李战
[1082]
2005-03-07 13:12
)
以前的只能沿着<a href=...>爬行,用了好久。但现在大量的网页都用POST方式或Script方式来链接网页。所以需要改进
(空) (
李战
[417]
2005-03-07 13:17
)
这样就比较难了,典型的页面就是登录页面,你要想爬进去,难如登天。
(空) (
Miracle
[332]
2005-03-07 13:21
)
当然,我不是要登录,而是搜索网页。不过,有些自动登录软件可以自己填写表单,然后提交的,虽然没有通用性。
(空) (
李战
[375]
2005-03-07 13:56
)
而且这也涉及到一个网络礼仪问题,一般来说通过编程手段大规模的post数据是非常不礼貌的
(空) (
Miracle
[351]
2005-03-07 13:23
)
先不说礼貌问题。将来ASP.NET的网页越来越多,都是WebForm,大量的链接都会用POST或Script。
(102字)
(
李战
[551]
2005-03-07 13:50
)
你是想抓什么东西?用什么做到爬虫?怎么不能post呢?
(17字)
(
haitao
[416]
2005-03-07 14:16
)
就是从打开一个网页开始,然后收集所有可以到达的网页,再逐一去打开。如此递归,当然...
(126字)
(
李战
[482]
2005-03-07 14:39
)
嘿嘿
(10字)
(
JoJo
[362]
2005-03-07 14:47
)
是的,这也是很头痛的问题。碰到那些网页有错误的,常常需要人工处理。
(空) (
李战
[407]
2005-03-07 15:40
)
关注的是什么行业、性质的内容呢?
(12字)
(
haitao
[475]
2005-03-07 14:49
)
目前,我仅仅用于搜集企业名录。下一步打算再关联搜集产品信息。
(空) (
李战
[335]
2005-03-07 15:43
)
这个专门收集一些大的网站就可以了吧。。不需要到处爬的
(空) (
CJF
[391]
2005-03-07 15:57
)
这样做的话,真得很危险,三下五除二你自己就被搞死了。
(空) (
Miracle
[521]
2005-03-07 15:38
)
死倒不会死,就是需要人工监控。但我本来也是用来收集指定网站内容的,系统停止的时候需要人工“跳过”。
(空) (
李战
[383]
2005-03-07 15:46
)
经常要人工干预?这不能算spider吧
(空) (
Miracle
[333]
2005-03-07 15:47
)
嘿嘿,我做的东西从来不完美,但都能用。
(空) (
李战
[316]
2005-03-07 15:52
)
最简单的,如果url是js组合出来的
(20字)
(
haitao
[459]
2005-03-07 13:27
)
不是要我去自己解释执行JavaScript吧。
(空) (
李战
[368]
2005-03-07 13:53
)
欢迎光临本社区,您还没有登录,不能发贴子。请在
这里登录