最近我发布了新的0.25版本,修正了一个crash问题,同时文档也完善了许多
这个工具代码量不多,但是非常实用,也欢迎大家一起贡献源码
需要 Python2.7 版本,其他依赖安装的时候会自动解决
功能
- 支持从json【示例】文件读取抓取任务
- 支持 python字典数据源方式 定义抓取任务
- 通配符和多页码抓取
- 参数暂存和传递 深度抓取
- css选择器
- 使用requests抓取网页
- 使用webkit内核抓取网页
安装
- 从pip安装
pip install pyrailgun
- 源码安装
python setup.py install
语法
例子
其他
- python2.7 是必须的
- 其他文档页
更新
- 0.25 fix 一个crash问题
- 0.24 受版权限制,替换webbroser为自己写的版本 去除yaml的支持
请问能不能把json文件再说详细一些。。。完全是一头雾水
vanckyli
3 7月 14 at 2:46 下午
https://github.com/princehaku/pyrailgun/wiki/json%E6%96%87%E4%BB%B6%E6%A0%BC%E5%BC%8F%E8%AF%B4%E6%98%8E 参考下这个wiki呢
princehaku
4 7月 14 at 4:43 下午
请问怎么获取js生成的网页节点的绝对位置呢?
sun
10 9月 14 at 10:52 上午
用webkit内核的时候 能不能多线程?
jack li
19 9月 14 at 12:30 上午
恩. 多线程正在考虑中 会支持一个callback在运行中获取最终数据
princehaku
19 9月 14 at 9:54 上午
恩? 首先你需要使用它的webkit功能 然后增加一点delay时间 保证js渲染完毕了 然后用常规的css表达式获取节点即可
princehaku
19 9月 14 at 9:55 上午
我在运行demo的时候,cmd输出的不是nodes列表,而是输出了网页源码,而且中文是乱码。不知道是什么原因。
№风舞§天伤
14 5月 16 at 8:27 下午
哦,还有运行那个打印到文件的demo也是同样的表现。两个demo一个并没有打印nodes,一个写出的文件为空。
№风舞§天伤
14 5月 16 at 8:35 下午