最近我发布了新的0.25版本,修正了一个crash问题,同时文档也完善了许多
这个工具代码量不多,但是非常实用,也欢迎大家一起贡献源码
需要 Python2.7 版本,其他依赖安装的时候会自动解决
功能
- 支持从json【示例】文件读取抓取任务
- 支持 python字典数据源方式 定义抓取任务
- 通配符和多页码抓取
- 参数暂存和传递 深度抓取
- css选择器
- 使用requests抓取网页
- 使用webkit内核抓取网页
安装
- 从pip安装
pip install pyrailgun
- 源码安装
python setup.py install
语法
例子
其他
- python2.7 是必须的
- 其他文档页
更新
- 0.25 fix 一个crash问题
- 0.24 受版权限制,替换webbroser为自己写的版本 去除yaml的支持