精品久久久久久久久午夜福利,夫妇中文字幕乱叫

　　四、Arale

　　Arale主要為個(gè)人使用而設(shè)計(jì)，而沒有像其它爬蟲一樣是關(guān)注于頁面索引。Arale能夠下載整個(gè)web站點(diǎn)或來自web站點(diǎn)的某些資源。Arale還能夠把動(dòng)態(tài)頁面映射成靜態(tài)頁面。

　　五、JSpider

　　JSpider:是一個(gè)完全可配置和定制的Web Spider引擎.你可以利用它來檢查網(wǎng)站的錯(cuò)誤(內(nèi)在的服務(wù)器錯(cuò)誤等),網(wǎng)站內(nèi)外部鏈接檢查，分析網(wǎng)站的結(jié)構(gòu)(可創(chuàng)建一個(gè)網(wǎng)站地圖),下載整個(gè)Web站點(diǎn)，你還可以寫一個(gè)JSpider插件來擴(kuò)展你所需要的功能。

　　Spider是一個(gè)用Java實(shí)現(xiàn)的WebSpider，JSpider的執(zhí)行格式如下：

　　jspider [URL] [ConfigName]

　　URL一定要加上協(xié)議名稱，如：http://，否則會(huì)報(bào)錯(cuò)。如果省掉ConfigName，則采用默認(rèn)配置。

　　JSpider 的行為是由配置文件具體配置的，比如采用什么插件，結(jié)果存儲方式等等都在conf\[ConfigName]\目錄下設(shè)置。JSpider默認(rèn)的配置種類很少，用途也不大。但是JSpider非常容易擴(kuò)展，可以利用它開發(fā)強(qiáng)大的網(wǎng)頁抓取與數(shù)據(jù)分析工具。要做到這些，需要對JSpider的原理有深入的了解，然后根據(jù)自己的需求開發(fā)插件，撰寫配置文件。

　　Spider是:

　　一個(gè)高度可配置和和可定制Web爬蟲

　　LGPL開源許可下開發(fā)

　　100%純Java實(shí)現(xiàn)

　　您可以使用它來：

　　檢查您網(wǎng)站的錯(cuò)誤(內(nèi)部服務(wù)器錯(cuò)誤, …)

　　傳出或內(nèi)部鏈接檢查

　　分析你網(wǎng)站的結(jié)構(gòu)(創(chuàng)建一個(gè)sitemap, …)

　　下載整修網(wǎng)站

　　通過編寫JSpider插件實(shí)現(xiàn)任何功能.

　　該項(xiàng)目主頁: http://j-spider.sourceforge.net/

　　六、spindle

　　spindle是一個(gè)構(gòu)建在Lucene工具包之上的Web索引/搜索工具.它包括一個(gè)用于創(chuàng)建索引的HTTP spider和一個(gè)用于搜索這些索引的搜索類。spindle項(xiàng)目提供了一組JSP標(biāo)簽庫使得那些基于JSP的站點(diǎn)不需要開發(fā)任何Java類就能夠增加搜索功能。

　　七、Arachnid

　　Arachnid是一個(gè)基于Java的web spider框架.它包含一個(gè)簡單的HTML剖析器能夠分析包含HTML內(nèi)容的輸入流.通過實(shí)現(xiàn)Arachnid的子類就能夠開發(fā)一個(gè)簡單的Web spiders并能夠在Web站上的每個(gè)頁面被解析之后增加幾行代碼調(diào)用。 Arachnid的下載包中包含兩個(gè)spider應(yīng)用程序例子用于演示如何使用該框架。

　　該項(xiàng)目主頁: http://arachnid.sourceforge.net/

　　八、LARM

　　LARM能夠?yàn)镴akarta Lucene搜索引擎框架的用戶提供一個(gè)純Java的搜索解決方案。它包含能夠?yàn)槲募?，?shù)據(jù)庫表格建立索引的方法和為Web站點(diǎn)建索引的爬蟲。

　　該項(xiàng)目主頁: http://larm.sourceforge.net/

　　九、JoBo

　　JoBo是一個(gè)用于下載整個(gè)Web站點(diǎn)的簡單工具。它本質(zhì)是一個(gè)Web Spider。與其它下載工具相比較它的主要優(yōu)勢是能夠自動(dòng)填充form(如：自動(dòng)登錄)和使用cookies來處理session。JoBo還有靈活的下載規(guī)則(如：通過網(wǎng)頁的URL，大小，MIME類型等)來限制下載。

　　十、snoics-reptile

　　1、snoics-reptile是什么?

　　是用純Java開發(fā)的，用來進(jìn)行網(wǎng)站鏡像抓取的工具，可以使用配制文件中提供的URL入口，把這個(gè)網(wǎng)站所有的能用瀏覽器通過GET的方式獲取到的資源全部抓取到本地，包括網(wǎng)頁和各種類型的文件，如：圖片、flash、mp3、zip、rar、exe等文件。可以將整個(gè)網(wǎng)站完整地下傳至硬盤內(nèi)，并能保持原有的網(wǎng)站結(jié)構(gòu)精確不變。只需要把抓取下來的網(wǎng)站放到web服務(wù)器(如：Apache)中，就可以實(shí)現(xiàn)完整的網(wǎng)站鏡像。

　　2、現(xiàn)在已經(jīng)有了其他的類似的軟件，為什么還要開發(fā)snoics-reptile?

　　因?yàn)橛行┰谧ト〉倪^程中經(jīng)常會(huì)出現(xiàn)錯(cuò)誤的文件，而且對很多使用javascript控制的URL沒有辦法正確的解析，而snoics-reptile通過對外提供接口和配置文件的形式，對特殊的URL，可以通過自由的擴(kuò)展對外提供的接口，并通過配置文件注入的方式，基本上能實(shí)現(xiàn)對所有的網(wǎng)頁都正確的解析和抓取。

　　該項(xiàng)目主頁: http://www.blogjava.net/snoics

　　十一、Web-Harvest

　　Web-Harvest是一個(gè)Java開源Web數(shù)據(jù)抽取工具。它能夠收集指定的Web頁面并從這些頁面中提取有用的數(shù)據(jù)。Web-Harvest主要是運(yùn)用了像XSLT,XQuery,正則表達(dá)式等這些技術(shù)來實(shí)現(xiàn)對text/xml的操作。

　　Web-Harvest 是一個(gè)用Java 寫的開源的Web 數(shù)據(jù)提取工具。它提供了一種從所需的頁面上提取有用數(shù)據(jù)的方法。為了達(dá)到這個(gè)目的，你可能需要用到如XSLT,XQuery,和正則表達(dá)式等操作text/xml 的相關(guān)技術(shù)。Web-Harvest 主要著眼于目前仍占大多數(shù)的基于HMLT/XML 的頁面內(nèi)容。另一方面，它也能通過寫自己的Java 方法來輕易擴(kuò)展其提取能力。

2/4 首頁上一頁 1 2 3 4 下一頁尾頁

玩c一定用得到的18款Java開源Web爬蟲