pyrailgun - Big Bug Ban

Archive for the ‘pyrailgun’ tag

实在受困于主机资源，跑个java几百M的内存就去了。

所以用python重新写了一份railgun。

比java版的更简洁，去掉了一些用不上的部分。包括抓取后的全文索引和数据库mapping部分。

现在它只是一个简单的抓取框架了，一个python的简单抓取网页的工具。

可以让用python抓取网页更加方便，轻松+愉快。

使用方式详见里面的有个现有所有功能的demo

简单的使用说明：

怎么使用? 首先你需要创建一个对应站点的规则文件比如testsite.yaml
你的所有抓取过程，解析规则，都是在yaml文件里面定义的

规则差不多就像你上面看到的这些，demo里面也有几个特殊的

接下来就可以在代码里面使用它了，把它作为一个任务加入到railgun

你就可以得到一个包含了所有解析后数据的节点列表。

[{img:xxx,src:xxx,score:xxx,dest:xxx,description:xxx},{img:xxx,src:xxx,score:xxx,dest:xxx,description:xxx}]

接下来怎么使用他么就是你随意的事情老！

Written by princehaku

28 2 月, 2013 at 12:32 上午