CNDEV
CNDEV.ORG
当前在线
论坛
CBD
程序员情感CBD
程序员见面交流会
CBD开发区
Java/J2ME
.NET/C#
数据库
Delphi/BCB
Visual C
其它
修真养身
中国象棋
纪念日
谈钱太俗,还是投机吧
听音乐
iCosta
资源共享
一隅
好文共赏
看电影看美剧
待定
狗屎
雪域召唤
工作流
专业显摆区
语录
情感
批评与自我批评
爱情故事
发牢骚
看三点区
游戏
CNDEV-CS/WOW
浩宇长空
生活
家有XPH
我爱学英语
美食天地ORG
半调子体育迷
观澳园友邻
搞笑奇文
拍照片
我读书我存在
论坛系统
超级垃圾站
系统建议及BUG
系统测试
中国开发网
: 论坛:
程序员情感CBD
: 贴子 561792
freegink
: 就是根据正则表达式分析,不过做个模板还是挺麻烦
[阅读: 348] 2007-09-07 02:59:38
我现在只做了一个单线程的,多线程的还没想好怎么做
相关信息:
最近想搞一个基于IE内核的网络爬虫程序方案
(603字)
(
李战
[967]
2007-09-06 01:58
)
好像有的离线浏览器是这样搞的
(空) (
龙之吻
[344]
2007-09-06 02:02
)
现在基本上都能取到动态的路径了,不过遇到JavaScript弹出对话框时,还要手工点击啊。怎样不让JavaScript对话框弹出来?
(空) (
李战
[560]
2007-09-06 04:13
)
已消灭了脚本错误提示对话框,但JavaScript的alert等对话框还消灭不了
(空) (
李战
[618]
2007-09-06 06:56
)
成功消灭JavaScript的alert,comfirm等窗口!
(空) (
李战
[757]
2007-09-06 13:33
)
主意挺好:
(142字)
(
王中王
[481]
2007-09-06 04:30
)
通信借用ie(wininet?)还行,解释、执行脚本都靠ie恐怕不好。。。。。
(54字)
(
haitao
[426]
2007-09-06 04:43
)
打开新窗口可以控制的,不会出现窗口乱弹现象。只需模拟关键元素的点击即可,调其click方法。
(空) (
李战
[466]
2007-09-06 07:11
)
不需要去管复杂的表单处理,只要能把WebForm等那些基于VIEW_STATE和JavaScript等导航的路径找出来就可以了,这些只需模拟点击即可。
(空) (
李战
[430]
2007-09-06 07:08
)
基于IE内核
(17字)
(
老玉米
[409]
2007-09-06 04:55
)
IE内核有MSDN大量资料可查,看其他开源Browser,工作量就大了。
(空) (
李战
[467]
2007-09-06 07:12
)
在GUI上模擬
(空) (
老玉米
[300]
2007-09-06 07:23
)
效率太低了,干不了大事
(空) (
老玉米
[332]
2007-09-06 07:24
)
nod,这东西用来做成个通过网页猜解密码,或者根据脚本定制浏览动作的工具还行。用这个来抓取搜索结果确实意义不大。
(46字)
(
Water-E
[801]
2007-09-06 07:51
)
其实,俺这个东东是给抓取某些网站内的部分结构化数据服务的,每天抓取几千或上万条即可。不干大事的
(空) (
李战
[320]
2007-09-06 07:56
)
現成得東西大把,比如ibm的
(71字)
(
老玉米
[363]
2007-09-06 08:23
)
說實話,個人認為,這個產品不是什么新東西了
(13字)
(
老玉米
[339]
2007-09-06 08:25
)
俺是孤陋寡聞,搜了一下,是一個自動測試工具哈,應該是自行定義腳本來控制網頁測試流程的吧。可能與我的需求不同
(空) (
李战
[379]
2007-09-06 09:04
)
RFT看怎么用了
(空) (
老玉米
[349]
2007-09-06 09:13
)
关于这个,俺做过一个小工具
(51字)
(
Apache
[357]
2007-09-06 09:24
)
show me the source.....
(空) (
pcplayer
[320]
2007-09-06 09:25
)
在家里的机器,回头找找...
(28字)
(
Apache
[340]
2007-09-06 09:27
)
小牛!
(空) (
李战
[347]
2007-09-06 09:29
)
我做了一个类似的东西,不过不是基于IE内核的,只是分析HTML
(21字)
(
freegink
[463]
2007-09-07 01:57
)
一样一样
(空) (
Apache
[331]
2007-09-07 02:00
)
厉害!我的论坛离线是直接程序写死的,多支持一种论坛就要多派生一个抓取类(虽然处理过程基本类似)。。。。。。。
(85字)
(
haitao
[403]
2007-09-07 02:08
)
一个模板
(3832字)
(
freegink
[404]
2007-09-07 02:23
)
这个模版比俺的那个高级,俺那个是取两个特征字符串中间的内容
(空) (
Apache
[478]
2007-09-07 02:29
)
另一个模板,这个是一个页面多条数据的,刚才那个是一个页面一条数据的
(3645字)
(
freegink
[465]
2007-09-07 02:25
)
我当时就觉得论坛的目录差别太大的,有树形的,有平板的。。。。。
(108字)
(
haitao
[386]
2007-09-07 02:33
)
能不能讲一下用模板抽取数据的思路?
(空) (
李战
[327]
2007-09-07 02:53
)
就是根据正则表达式分析,不过做个模板还是挺麻烦
(24字)
(
freegink
[347]
2007-09-07 02:59
)
肯定是用正则
(326字)
(
李战
[403]
2007-09-07 03:11
)
分析页面源码提取字段的特征规律
(40字)
(
freegink
[354]
2007-09-07 03:43
)
其实我第二个模板就是一个比较规则的表格数据,这种的比较容易,因为规律很明显
(108字)
(
freegink
[494]
2007-09-07 05:38
)
不理会HTML的标签,也就是说不一定用于HTML分析,其他文本数据也是可以的
(空) (
freegink
[376]
2007-09-07 03:01
)
不过这个处理不了你说的例如window.open之类的东西
(空) (
freegink
[383]
2007-09-07 03:02
)
这个问题已经被我消灭掉了
(22字)
(
李战
[342]
2007-09-07 03:24
)
如果都是格式化的东西用python狠方便,我写过一个
(空) (
pigprince
[425]
2007-09-07 03:27
)
他的网址有些是动态生成的,python的beautifulsoup是不错,但是对于动态的还是有点麻烦的
(空) (
leejd
[718]
2007-09-07 03:29
)
顶起来
(空) (
Apache
[335]
2007-10-22 09:43
)
这不是完美解决了吗??
(43字)
(
haitao
[371]
2007-10-22 09:58
)
这个东西挺有意思,俺也要弄
(空) (
Apache
[342]
2007-10-22 10:30
)
欢迎光临本社区,您还没有登录,不能发贴子。请在
这里登录