最近想搞一个基于IE内核的网络爬虫程序方案 <- 中国开发网

CNDEV.ORG

当前在线

论坛

CBD
- 程序员情感CBD
- 程序员见面交流会
CBD开发区
- Java/J2ME
- .NET/C#
- 数据库
- Delphi/BCB
- Visual C
个人
- 袁国术的个人网站
- 翟旭东网!!!
其它
情感
游戏
- CNDEV-CS/WOW
- 浩宇长空
生活
论坛系统

中国开发网: 论坛: 程序员情感CBD: 贴子 561300

李战：

最近想搞一个基于IE内核的网络爬虫程序方案

[阅读: 1113] 2007-09-06 01:58:48

主要是想解决网页动态路径爬行问题。

现有的网络爬虫似乎都只能根据当前网页中的静态路径，即<a>标签等指示的路径去爬行。

但是，越来越多的网页是采用JAVASCRIPT，ASP.NET的WebForm等技术实现的，因此一个网页到下一个网页的跳转可能是由Javascript实现的，或者是一个<FORM>表单的提交引起的。这样，要得到当前网页连接的后续网页，除了找出静态路径外，还要真正去执行Javascript或真正提交<FORM>表单才行。

如果这个网络爬虫程序是基于IE内核的，就可以用IE去打开一个网页，并找出可能有动态路径的网页元素，然后模拟click或submit等打开后续网页。

但问题是，网络爬行程序不可能只处理当前网页的一个路径，而是当前网页的所有可能路径。所以，一般把当前网页的未访问径保存在一个列表里，然后再选择一个路径爬行。当这个路径后续爬行可以结束后，再回头找到下一个未爬行的路径继续。

这就面临两个问题：
1.如何提取当前网页的所有动态路径（包括POST数据，Cookie，SESSION等）
2.如何保存这些动态路径的特征（以便后续提取这些路径时可以连POST数据，SESSION，Cookie等一起发送）

如果实现了这样的网络爬行程序，无疑可以让搜索引擎抓取那些ASP.NET和AJAX网站的深层网页。

各位大侠，有兴趣的讨论一下。

相关信息:

最近想搞一个基于IE内核的网络爬虫程序方案 (603字) (李战 [1112] 2007-09-06 09:58)
- 好像有的离线浏览器是这样搞的 (空) (龙之吻 [455] 2007-09-06 10:02)
- 现在基本上都能取到动态的路径了，不过遇到JavaScript弹出对话框时，还要手工点击啊。怎样不让JavaScript对话框弹出来？ (空) (李战 [654] 2007-09-06 12:13)
  - 已消灭了脚本错误提示对话框，但JavaScript的alert等对话框还消灭不了 (空) (李战 [708] 2007-09-06 14:56)
    - 成功消灭JavaScript的alert,comfirm等窗口！ (空) (李战 [1235] 2007-09-06 21:33)
- 主意挺好： (142字) (王中王 [986] 2007-09-06 12:30)
  - 通信借用ie（wininet?）还行，解释、执行脚本都靠ie恐怕不好。。。。。 (54字) (haitao [581] 2007-09-06 12:43)
    - 打开新窗口可以控制的，不会出现窗口乱弹现象。只需模拟关键元素的点击即可，调其click方法。 (空) (李战 [564] 2007-09-06 15:11)
  - 不需要去管复杂的表单处理，只要能把WebForm等那些基于VIEW_STATE和JavaScript等导航的路径找出来就可以了，这些只需模拟点击即可。 (空) (李战 [524] 2007-09-06 15:08)
- 基于IE内核 (17字) (老玉米 [553] 2007-09-06 12:55)
  - IE内核有MSDN大量资料可查，看其他开源Browser，工作量就大了。 (空) (李战 [568] 2007-09-06 15:12)
    - 在GUI上模擬 (空) (老玉米 [388] 2007-09-06 15:23)
      - 效率太低了，干不了大事 (空) (老玉米 [430] 2007-09-06 15:24)
        nod,这东西用来做成个通过网页猜解密码，或者根据脚本定制浏览动作的工具还行。用这个来抓取搜索结果确实意义不大。 (46字) (Water-E [1002] 2007-09-06 15:51)
        其实，俺这个东东是给抓取某些网站内的部分结构化数据服务的，每天抓取几千或上万条即可。不干大事的 (空) (李战 [426] 2007-09-06 15:56)
        現成得東西大把，比如ibm的 (71字) (老玉米 [508] 2007-09-06 16:23)
        說實話，個人認為，這個產品不是什么新東西了 (13字) (老玉米 [463] 2007-09-06 16:25)
        俺是孤陋寡聞，搜了一下，是一個自動測試工具哈，應該是自行定義腳本來控制網頁測試流程的吧。可能與我的需求不同 (空) (李战 [502] 2007-09-06 17:04)
        RFT看怎么用了 (空) (老玉米 [450] 2007-09-06 17:13)
        关于这个，俺做过一个小工具 (51字) (Apache [505] 2007-09-06 17:24)
        show me the source..... (空) (pcplayer [413] 2007-09-06 17:25)
        在家里的机器，回头找找... (28字) (Apache [461] 2007-09-06 17:27)
        小牛！ (空) (李战 [475] 2007-09-06 17:29)
- 我做了一个类似的东西，不过不是基于IE内核的，只是分析HTML (21字) (freegink [607] 2007-09-07 09:57)
  - 一样一样 (空) (Apache [441] 2007-09-07 10:00)
  - 厉害！我的论坛离线是直接程序写死的，多支持一种论坛就要多派生一个抓取类(虽然处理过程基本类似)。。。。。。。 (85字) (haitao [527] 2007-09-07 10:08)
    - 一个模板 (3832字) (freegink [573] 2007-09-07 10:23)
      - 这个模版比俺的那个高级，俺那个是取两个特征字符串中间的内容 (空) (Apache [577] 2007-09-07 10:29)
    - 另一个模板，这个是一个页面多条数据的，刚才那个是一个页面一条数据的 (3645字) (freegink [608] 2007-09-07 10:25)
      - 我当时就觉得论坛的目录差别太大的，有树形的，有平板的。。。。。 (108字) (haitao [519] 2007-09-07 10:33)
      - 能不能讲一下用模板抽取数据的思路？ (空) (李战 [427] 2007-09-07 10:53)
        就是根据正则表达式分析，不过做个模板还是挺麻烦 (24字) (freegink [500] 2007-09-07 10:59)
        肯定是用正则 (326字) (李战 [543] 2007-09-07 11:11)
        分析页面源码提取字段的特征规律 (40字) (freegink [503] 2007-09-07 11:43)
        其实我第二个模板就是一个比较规则的表格数据，这种的比较容易，因为规律很明显 (108字) (freegink [636] 2007-09-07 13:38)
        不理会HTML的标签，也就是说不一定用于HTML分析，其他文本数据也是可以的 (空) (freegink [476] 2007-09-07 11:01)
        不过这个处理不了你说的例如window.open之类的东西 (空) (freegink [480] 2007-09-07 11:02)
        这个问题已经被我消灭掉了 (22字) (李战 [468] 2007-09-07 11:24)
- 如果都是格式化的东西用python狠方便，我写过一个 (空) (pigprince [530] 2007-09-07 11:27)
  - 他的网址有些是动态生成的，python的beautifulsoup是不错，但是对于动态的还是有点麻烦的 (空) (leejd [826] 2007-09-07 11:29)
- 顶起来 (空) (Apache [435] 2007-10-22 17:43)
  - 这不是完美解决了吗？？ (43字) (haitao [463] 2007-10-22 17:58)
- 这个东西挺有意思，俺也要弄 (空) (Apache [445] 2007-10-22 18:30)

欢迎光临本社区，您还没有登录，不能发贴子。请在这里登录

页面内容处理时间: 0.018 - 543760

CNDEV.ORG 2003-2014 | 贴子列表 | 捐助 | | -ICP -IDC -ISP |