Big Bug Ban

兴趣 践行 创新

railgun初版

 


这个东西的目的是通过撰写xml
然后自动进行目标的数据采集
后续要加入对采集后的数据进行处理和维护
以及可以定义自己的过滤器.对中间或结果数据进行操作变更
用来做毕业设计的其中一部分。

<?xml version="1.0" encoding="UTF-8"?>
<shell>
    <name>3haku.net</name>
    <description>rules for wordpress blog 3haku.net</description>
    <baseurl>*</baseurl>
    <fetch>
        <url>http://3haku.net/</url>
        <cookie>enable</cookie>
        <charset>auto</charset>
        <params>
            <param>
                <key>User-Agent</key>
                <value>RailGun</value>
            </param>
            <param>
                <key>Accept</key>
                <value>gzip</value>
            </param>
        </params>
        <timeout>10000</timeout>
    </fetch>
    <parse method="dom" rule="#content div" filter="net.techest.testFilter">
        <parse method="dom" fork="true" rule=".main">
            <store ext=".html">cache/html/</store>
        </parse>
        <parse method="regxp" fork="true" rule="&lt;img[\s\S]*?src=&quot;([\s\S]*?)&quot;">
            <parse method="regxp" rule="src=&quot;(.*)\/(.*?)[&quot;$]">
                <fetch>
                    <url>$1/$2</url>
                </fetch>
                <store>cache/img/$2</store>
            </parse>
        </parse>
    </parse>
</shell>

fetch后的rescoure可以进行dom解析或者正则解析,然后将得到的数据再进行操作

这个rule是抓取我的博客用的.

效果如下

[download id=”38″]

 

ps: 用xml还是比较蛋疼..” ‘ 这类的都要用html转义符

 

Written by princehaku

3月 24th, 2012 at 10:37 上午

Posted in java

Tagged with

with 6 comments

6 Responses to 'railgun初版'

Subscribe to comments with RSS or TrackBack to 'railgun初版'.

  1. 测试下

    princehaku

    29 3月 12 at 5:24 下午

  2. 这是搞虾米的…

    Yove

    19 4月 12 at 4:13 下午

  3. 抓取系统底层。已经完成的部分比这个牛逼。

    princehaku

    19 4月 12 at 10:04 下午

  4. 弄成这种比每次写代码好多了, :razz:

    yurenchen

    24 5月 12 at 12:03 上午

  5. 囧…为什么每次都在垃圾评论..才看到.

    princehaku

    6 6月 12 at 4:15 下午

  6. 嘿嘿。绝对的好东西。

    xiyang

    11 6月 12 at 3:34 下午

Leave a Reply