火车采集器是一个供各大主流文章系统、论坛系统等使用的多线程内容采集发布程序。火车采集器如何去抓取数据,取决于用户的规则。使用火车采集器,可以瞬间建立一个拥有庞大内容的网站。系统支持远程图片下载,图片批量水印,Flash下载,下载文件地址探测,自定义发表的内容等有关采集器。火车采集器采集数据是分成两个步骤的,一是采集数据,二是发布数据。
1 w" {0 B. ?' j3 m. w1,功能
( f" S1 }& c* H' y2 d7 i- X火车采集器(LocoySpider)是一款功能强大且易于上手的专业采集软件,强大的内容采集和数据导入功能能将您采集的任何网页数据发布到远程服务器,自定义用户cms系统模块,不管你的网站是什么系统,都有可能使用上火车采集器,系统自带的模块文件支持:风讯文章,动易文章,动网论坛,PHPWIND论坛,Discuz论坛,phpcms文章,phparticle文章,LeadBBS论坛,魔力论坛,Dedecms文章,Xydw文章,惊云文章等的模块文件。更多cms模块请自己参照制作修改,也可到官方网站与大家交流制作。 同时您也可以使用系统的数据导出功能,利用系统内置标签,将采集到的数据对应表的字段导出到本地任何一款Access,MySql,MS SqlServer内。, } ~, D1 j/ e+ w; r% W
LocoySpider采用Visual C#编写,可独立在Windows2008下运行(windows2003 自带.net1.1框架。最新版的火车采集器是2008版,需要升级到.net2.0框架才能使用),如您在Windows2000、Xp等环境下使用,请先到微软官方下载一个.net framework2.0或更高环境组件。火车采集器V2009 SP2 04月29日! R- U" I' i! r5 X; f. x/ B
2,数据抓取原理
" a* i3 x b0 V( g+ w3 H( x火车采集器如何去抓取数据,取决于您的规则。您要获取一个栏目的网页里的所有内容,需要先将这个网页的网址采下来,这就是采网址。程序按您的规则抓取列表页面,从中分析出网址,然后再去抓取获得网址的网页里的内容。再根据您的采集规则,对下载到的网页分析,将标题内容等信息分离开来并保存下来。如果您选择了下载图片等网络资源,程序会对采集到的数据进行分析,找出图片,资源等的下载地址并下载到本地。
- ]1 p# Q. Y! V7 E3,数据发布原理4 G' p& C1 c5 h3 s: |
在我们将数据采集下来后数据默认是保存在本地的,我们可以使用以下几种方式对数据进行处理。: G% P$ O/ s2 h& ?; }$ U; f
1、不做任何处理。因为数据本身是保存在数据库的(access、db3、mysql、sqlserver),您如果只是查看数据,直接用相关软件打开查看即可。
: z' \ X6 D, f! a! _) Q! Q/ Q1 ]2、Web发布到网站。程序会模仿浏览器向您的网站发送数据,可以实现您手工发布的效果。3 I1 `* G5 o/ s' [
3、直接入数据库。您只需写几个SQL语句,程序会将数据按您的SQL语句导入到数据库中。: p Y! {& k- M% T, `1 `. n: }. K
4、保存为本地文件。程序会读取数据库里的数据,按一定格式保存为本地sql或是文本文件。
- \/ ~7 K6 V0 O9 A% U" F& \ f4,工作流程, f1 g( v4 l& M9 u$ D- i
火车采集器采集数据是分成两个步骤的,一是采集数据,二是发布数据。这两个过程是可以分开的。3 T- q( S1 u1 n3 f2 H5 P
1、采集数据,这个包括采集网址,采集内容。这个过程是获得数据的过程。我们做规则,在采的过程中也算是对内容做了处理。
' ]/ }; X5 F; m9 m+ V0 w0 B" @1 \2、发布内容就是将数据发布到自己的论坛,CMS的过程,也是实现数据为已有的过程。可以用WEB在线发布,数据库入库或存为本地文件。3 W5 ?$ l5 r3 N4 S1 ?
具体的使用其实是很灵活的,可以根据实际来决定。比如我可以采集时先采集不发布,有时间了再发布,或是同时采集发布,或是先做发布配置,也可以在采集完了再添加发布配置。总之,具体过程由您而定,火车采集器的强大功能之一也就是体现在灵活中。3 `% S: u% v7 x! G
5,采集器, v; e9 m, V4 J& r7 r U
2012-05-16更新5 D' R) N% a/ w" M/ r+ x& g7 v
1.屏蔽掉httpwebpost中浏览器的脚本错误提示! H; k6 H7 f# {) X: I3 H
2.修复使用偏好中的采集器没有开机启动和关闭窗口选项没有启用的bug# O) h' r9 X$ W# w& c1 [
3.对mysql和sqlserver做本地服务器建了索引,解决了大数据量时查询出错的问题: t1 }6 r9 R4 B% H# C# O
4.细节修改,如在线发布里面的COOKIS可以全选,多页默认传前页user-agent给多页4 f- W4 W4 P8 f, f5 W
5.增加了多个任务在只使用一个任务运行窗口,减少资源使用7 ` ~ g) x: e# O
6.更改任务运行完关机方式为只生效一次
' z) k5 T' V( @6 k7.修复一个当多页获取为空时网址成默认页的bug9 `' M! F$ x7 z K) Q
8.插件中没有处理 UseGetStepUrls 的bug; G7 o0 \) j4 F0 H% S+ @
9.httpserver 增加了列表分组,自动启动,和新建任务返回分组和任务id; e% Y4 U9 @( e1 H o
10.对用户对标签组合再次标签组合进行了允许处理。
! \! S+ Y1 P2 j$ T11.修复对列表获取的内容,部分情况下会补全的bug/ F" N; c9 l1 H! ] Z: }
12.修复多页管理时特殊情况下新建标签没有保存的bug
6 n1 A( T5 |" q0 ?5 }! Y13.修复部分情况下标签提取大小写无效的bug
. l" L1 L% ^/ C5 _14.修复如果一个标签出现多次时间转换转换部分无效的bug.* Q4 g2 `) F8 F9 T( Y7 s: I) x
15.修复了ubb转换中部分转换错误的bug.
0 n1 q: Q& N+ t+ G- D& G" ~% A16.增加了将下载地址保存为html文件的功能。) p. B: h0 i; O! e9 [& k
17.增加了web发布时网页超时设置. j9 i1 t9 o$ R7 J! e% B, E
18.修复本地数据库使用Access时任务数据批量工具清理已发数据无效的bug.* k8 E+ a5 _/ H( S! N, Q! ~& p
19.修复任务完成后关机设置取消后还会再提示关机的bug9 x9 @1 N2 i+ ~2 `5 S/ j0 o
20.修改部分电脑上Mongodb服务不能识别的bug; g, b9 q5 u# q5 N
6,新增功能
; Q" m! c! u& U/ N无限级多页采集
: e z9 q5 Z1 r& u; \( a: q* R任务队列运行管理功能
+ N: j M/ R2 m( P5 n6 N8 Q无限级分组任务管理,任务回收站功能
; g3 F" i8 C/ G1 T8 GRSS地址采集功能
# U' u- m: |: e4 \列表页分页采集获取功能7 v [/ g( U1 z+ i6 k0 H" Z" U- R
列表页附加参数获取功能+ ^+ h8 s S5 j7 U& v2 P
列表页及标签XPath可视化提取功能. {# a+ Z k6 U( @8 ?1 d' `: M
标签纯正则替换功能 J: ?$ N6 E/ z5 s2 I5 z7 X3 ? X; e% W
Http接口查看运行情况. Z0 F3 T( `3 {4 L4 T
导出记录为单个或多个Txt、html 文件6 ^! |/ |. e) d ?( Z! F: H' R
标签间自由组合功能
, S" f0 V+ k2 X7 {3 ^3 Y针对标签内容继续发送Http请求功能6 t0 U) C9 E7 s) l
无限级列表网址采集0 [' F$ a- H0 l ~1 q4 s
从Http头信息中获取数据
& c; t3 X* d; I6 L标题内容正文提取功能) q8 s# Q5 O& `# r6 H
Aspx列表分页自识别
J6 s) `9 @2 A/ {9 ?& q; `多网站站群式web发布
7 W4 C/ X8 f* `- n' ?" O, w- r导出记录为Word格式
$ K$ K9 _' l' n* ~6 X' a导出所有记录为Excel格式
1 w2 Q+ ]9 b& C3 i使用随机二级代理服务器(支持Socket代理)% ]/ q- t u- e0 @& u1 U
多扩展间数据交换功能
6 Z& \# ]2 k+ Z- m下载的图片自动加增强型水印功能
5 q' \1 q5 t+ }1 R6 ]Ocr识别(图片转化为文字)* V/ h! @- e" g
Http接口管理采集器运行8 v8 `* C$ |' W7 R/ Z1 [- }
Mongodb数据库保存数据
% ~" d V1 |! P0 `, K1 Z主从服务器分布式采集
, i d7 E j8 E8 L+ z9 J2 T* w! z/ _7,术语介绍! a( {0 G, e; g3 B1 t) t
采集规则: i4 a* b) \9 H9 a |
采集规则分为站点规则和任务规则,通常是指任务规则。所谓采集规则就是要采集一个网站时在软件里进行的设置。这个设置可以从软件里导出保存成一个文件并可以再导入到软件里。站点规则文件的后缀名为:.lsite;任务规则文件的后缀名为:.ljob。
9 @, j( s- K, y2 f) a; l! x7 a9,采集任务
( n1 s% F7 Q: S9 `# r/ z# T采集任务又简称为任务。它是采集规则和发布规则的总和。也是采集规则和发布规则的载体。采集规则和发布规则的设置通过在任务编辑框里进行设置。从采集器里导出的采集规则文件(.ljob后缀的)也可称为任务规则。导入导出任务规则就是指导入导出.ljob文件。
" f5 m6 V' ^ X4 d. [. p! g10,发布模块
" t/ H% b, i2 H4 z$ n: ~发布模块又称为发布规则,通常是指数据库发布模块或者WEB发布模块。所谓发布模块就是在需要将已经采集的数据发布到目的地(比如:指定数据库,网站中)时在软件里进行的设置。这个设置可以保存成一个文件并可以导入到采集器里使用。数据库发布模块文件的后缀名为:.jhc;WEB在线发布模块文件的后缀名为:.cwr。
3 E# ~. Z6 @0 d/ a5 {/ @. e/ ~(采集规则和发布模块都可以从采集器里导出,也都可以导入到采集器中使用。采集规则负责将网页上的数据采集下来,发布模块负责将采集的数据发布到网站中。可见,采集规则的编写和修改和被采集的网站有关系,而发布模块的编写和修改和要发布数据的网站有关系。如从不同的网站栏目采集数据往同一个网站的某个板块(频道)里发布,需要多个采集规则和一个发布模块。从一个网站栏目采集数据往不同的网站系统里发布,需要一个采集规则和多个发布模块。注意这里的说的采集规则是指采集网站和抓取内容的设置。)
& o4 }4 X$ i O& k. |11,发布接口
* O, _; y$ M7 c1 S发布接口就是一个小的页面程序通常和WEB发布模块配合使用。WEB在线发布(使用WEB发布模块)是将采集的数据以POST方式发送到网站页面程序中由网站程序处理数据。而发布接口就是为了满足特定需求而写的一个网站的页面程序(如:PHP页面,ASP页面等)。然后采集器通过WEB在线发布将数据发送到这个接口文件由这个接口文件处理数据。接口文件通常放在服务器网站某个目录下。简单的说就是采集器将采集的数据发送到接口文件中,接口文件得到数据后去处理数据。使用发布接口用户可以更加灵活自由的处理采集器发送的数据。+ b; \9 q* v3 f
12,插件' \8 d K' ]7 t ]& q6 U: L
火车采集器里的插件分为PHP插件和.NET插件两种。标准版支持PHP插件,企业版支持PHP插件和.NET插件。插件可以让用户通过自己写PHP程序或者.NET程序放到采集器中对采集的数据进行处理。采集数据数据在四个地方可以使用插件,分别为:采网址时、采内容时、采多页时,保存时。
1 m6 U; b( D$ T13,发布数据
' O0 }/ p! c D- \4 B$ m; l2 T发布数据就是将采集到的数据发布到指定的目的地,火车采集器支持四种发布方式。
/ a+ s# D* s' _; x O, S: V' j; ]6 ?方式一:Web在线发布到网站 这种发布方式类似于在网站后台手工添加数据一样。采集器将数据发送给网站后台程序,由网站后台程序去处理数据通常后台程序讲数据存入网站数据库中。
" \ ^! k) H4 j1 t- x( u! c' k方式二:保存为本地文件 这种方式可以将采集的数据发布到本地的文件中,采集器支持保存成Txt格式、Csv格式和Html格式。
% Q0 c; g' r; h# E6 D7 i/ R% S6 n方式三:导入到自定义数据库 这种方式可以通过采集器连接到其他数据库从而将采集的数据从软件内置数据库中导入到其他的数据库中,采集器支持连接Mysql、Access、Oracle、MSsql数据库。
* b/ o6 ~& G a5 M3 Q$ C7 v, d* b8 h) H方式四:保存为本地Sql文件(Insert语句) 这种方式是将采集的数据导出保存成Insert语句,可以用于在数据库的管理工具中执行插入数据。0 E5 B& J: U8 m1 h% O
14,本地编辑数据- F; W: y+ }8 H2 x, T
采集器不仅可以采集发布数据,还可以将采集下来的数据经过编辑以后再发布。支持批量替换,通过SQL语句批量处理以及在文本编辑框里编辑。
1 I j! B% V% @% \) N6 ]
2 m$ Z8 u$ P' P, s/ W4 b* ^' W; j+ ?# ?# h7 c' |
|
|