四、Arale
Arale主要為個(gè)人使用而設(shè)計(jì),而沒有像其它爬蟲一樣是關(guān)注于頁面索引。Arale能夠下載整個(gè)web站點(diǎn)或來自web站點(diǎn)的某些資源。Arale還能夠把動(dòng)態(tài)頁面映射成靜態(tài)頁面。
五、JSpider
JSpider:是一個(gè)完全可配置和定制的Web Spider引擎.你可以利用它來檢查網(wǎng)站的錯(cuò)誤(內(nèi)在的服務(wù)器錯(cuò)誤等),網(wǎng)站內(nèi)外部鏈接檢查,分析網(wǎng)站的結(jié)構(gòu)(可創(chuàng)建一個(gè)網(wǎng)站地圖),下載整個(gè)Web站點(diǎn),你還可以寫一個(gè)JSpider插件來擴(kuò)展你所需要的功能。
Spider是一個(gè)用Java實(shí)現(xiàn)的WebSpider,JSpider的執(zhí)行格式如下:
jspider [URL] [ConfigName]
URL一定要加上協(xié)議名稱,如:http://,否則會(huì)報(bào)錯(cuò)。如果省掉ConfigName,則采用默認(rèn)配置。
JSpider 的行為是由配置文件具體配置的,比如采用什么插件,結(jié)果存儲方式等等都在conf\[ConfigName]\目錄下設(shè)置。JSpider默認(rèn)的配置種類 很少,用途也不大。但是JSpider非常容易擴(kuò)展,可以利用它開發(fā)強(qiáng)大的網(wǎng)頁抓取與數(shù)據(jù)分析工具。要做到這些,需要對JSpider的原理有深入的了 解,然后根據(jù)自己的需求開發(fā)插件,撰寫配置文件。
Spider是:
一個(gè)高度可配置和和可定制Web爬蟲
LGPL開源許可下開發(fā)
100%純Java實(shí)現(xiàn)
您可以使用它來:
檢查您網(wǎng)站的錯(cuò)誤(內(nèi)部服務(wù)器錯(cuò)誤, …)
傳出或內(nèi)部鏈接檢查
分析你網(wǎng)站的結(jié)構(gòu)(創(chuàng)建一個(gè)sitemap, …)
下載整修網(wǎng)站
通過編寫JSpider插件實(shí)現(xiàn)任何功能.
該項(xiàng)目主頁: http://j-spider.sourceforge.net/
六、spindle
spindle是一個(gè)構(gòu)建在Lucene工具包之上的Web索引/搜索工具.它包括一個(gè)用于創(chuàng)建索引的HTTP spider和一個(gè)用于搜索這些索引的搜索類。spindle項(xiàng)目提供了一組JSP標(biāo)簽庫使得那些基于JSP的站點(diǎn)不需要開發(fā)任何Java類就能夠增加搜索功能。
七、Arachnid
Arachnid是一個(gè)基于Java的web spider框架.它包含一個(gè)簡單的HTML剖析器能夠分析包含HTML內(nèi)容的輸入流.通過實(shí)現(xiàn)Arachnid的子類就能夠開發(fā)一個(gè)簡單的Web spiders并能夠在Web站上的每個(gè)頁面被解析之后增加幾行代碼調(diào)用。 Arachnid的下載包中包含兩個(gè)spider應(yīng)用程序例子用于演示如何使用該框架。
該項(xiàng)目主頁: http://arachnid.sourceforge.net/
八、LARM
LARM能夠?yàn)镴akarta Lucene搜索引擎框架的用戶提供一個(gè)純Java的搜索解決方案。它包含能夠?yàn)槲募?,?shù)據(jù)庫表格建立索引的方法和為Web站點(diǎn)建索引的爬蟲。
該項(xiàng)目主頁: http://larm.sourceforge.net/
九、JoBo
JoBo是一個(gè)用于下載整個(gè)Web站點(diǎn)的簡單工具。它本質(zhì)是一個(gè)Web Spider。與其它下載工具相比較它的主要優(yōu)勢是能夠自動(dòng)填充form(如:自動(dòng)登錄)和使用cookies來處理session。JoBo還有靈活的下載規(guī)則(如:通過網(wǎng)頁的URL,大小,MIME類型等)來限制下載。
十、snoics-reptile
1、snoics-reptile是什么?
是用純Java開發(fā)的,用來進(jìn)行網(wǎng)站鏡像抓取的工具,可以使用配制文件中提供的URL入口,把這個(gè)網(wǎng)站所有的能用瀏覽器通過GET的方式獲取到的資源全部抓取到本地,包括網(wǎng)頁和各種類型的文件,如:圖片、flash、mp3、zip、rar、exe等文件。可以將整個(gè)網(wǎng)站完整地下傳至硬盤內(nèi),并能保持原有的網(wǎng)站結(jié)構(gòu)精確不變。只需要把抓取下來的網(wǎng)站放到web服務(wù)器(如:Apache)中,就可以實(shí)現(xiàn)完整的網(wǎng)站鏡像。
2、現(xiàn)在已經(jīng)有了其他的類似的軟件,為什么還要開發(fā)snoics-reptile?
因?yàn)橛行┰谧ト〉倪^程中經(jīng)常會(huì)出現(xiàn)錯(cuò)誤的文件,而且對很多使用javascript控制的URL沒有辦法正確的解析,而snoics-reptile通過對外提供接口和配置文件的形式,對特殊的URL,可以通過自由的擴(kuò)展對外提供的接口,并通過配置文件注入的方式,基本上能實(shí)現(xiàn)對所有的網(wǎng)頁都正確的解析和抓取。
該項(xiàng)目主頁: http://www.blogjava.net/snoics
十一、Web-Harvest
Web-Harvest是一個(gè)Java開源Web數(shù)據(jù)抽取工具。它能夠收集指定的Web頁面并從這些頁面中提取有用的數(shù)據(jù)。Web-Harvest主要是運(yùn)用了像XSLT,XQuery,正則表達(dá)式等這些技術(shù)來實(shí)現(xiàn)對text/xml的操作。
Web-Harvest 是一個(gè)用Java 寫的開源的Web 數(shù)據(jù)提取工具。它提供了一種從所需的頁面上提取有用數(shù)據(jù)的方法。為了達(dá)到這個(gè)目的,你可能需要用到如XSLT,XQuery,和正則表達(dá)式等操作text/xml 的相關(guān)技術(shù)。Web-Harvest 主要著眼于目前仍占大多數(shù)的基于HMLT/XML 的頁面內(nèi)容。另一方面,它也能通過寫自己的Java 方法來輕易擴(kuò)展其提取能力。