Big Bug Ban

兴趣 践行 创新

Archive for 3月, 2012

railgun初版

 


这个东西的目的是通过撰写xml
然后自动进行目标的数据采集
后续要加入对采集后的数据进行处理和维护
以及可以定义自己的过滤器.对中间或结果数据进行操作变更
用来做毕业设计的其中一部分。

<?xml version="1.0" encoding="UTF-8"?>
<shell>
    <name>3haku.net</name>
    <description>rules for wordpress blog 3haku.net</description>
    <baseurl>*</baseurl>
    <fetch>
        <url>http://3haku.net/</url>
        <cookie>enable</cookie>
        <charset>auto</charset>
        <params>
            <param>
                <key>User-Agent</key>
                <value>RailGun</value>
            </param>
            <param>
                <key>Accept</key>
                <value>gzip</value>
            </param>
        </params>
        <timeout>10000</timeout>
    </fetch>
    <parse method="dom" rule="#content div" filter="net.techest.testFilter">
        <parse method="dom" fork="true" rule=".main">
            <store ext=".html">cache/html/</store>
        </parse>
        <parse method="regxp" fork="true" rule="&lt;img[\s\S]*?src=&quot;([\s\S]*?)&quot;">
            <parse method="regxp" rule="src=&quot;(.*)\/(.*?)[&quot;$]">
                <fetch>
                    <url>$1/$2</url>
                </fetch>
                <store>cache/img/$2</store>
            </parse>
        </parse>
    </parse>
</shell>

fetch后的rescoure可以进行dom解析或者正则解析,然后将得到的数据再进行操作

这个rule是抓取我的博客用的.

效果如下

[download id=”38″]

 

ps: 用xml还是比较蛋疼..” ‘ 这类的都要用html转义符

 

Written by princehaku

3月 24th, 2012 at 10:37 上午