Archive for 3月, 2012
railgun初版
这个东西的目的是通过撰写xml
然后自动进行目标的数据采集
后续要加入对采集后的数据进行处理和维护
以及可以定义自己的过滤器.对中间或结果数据进行操作变更
用来做毕业设计的其中一部分。
<?xml version="1.0" encoding="UTF-8"?> <shell> <name>3haku.net</name> <description>rules for wordpress blog 3haku.net</description> <baseurl>*</baseurl> <fetch> <url>http://3haku.net/</url> <cookie>enable</cookie> <charset>auto</charset> <params> <param> <key>User-Agent</key> <value>RailGun</value> </param> <param> <key>Accept</key> <value>gzip</value> </param> </params> <timeout>10000</timeout> </fetch> <parse method="dom" rule="#content div" filter="net.techest.testFilter"> <parse method="dom" fork="true" rule=".main"> <store ext=".html">cache/html/</store> </parse> <parse method="regxp" fork="true" rule="<img[\s\S]*?src="([\s\S]*?)""> <parse method="regxp" rule="src="(.*)\/(.*?)["$]"> <fetch> <url>$1/$2</url> </fetch> <store>cache/img/$2</store> </parse> </parse> </parse> </shell>
fetch后的rescoure可以进行dom解析或者正则解析,然后将得到的数据再进行操作
这个rule是抓取我的博客用的.
效果如下
[download id=”38″]
ps: 用xml还是比较蛋疼..” ‘ 这类的都要用html转义符