亚洲最新无码中文字幕久久,JJzzJJzz视频在线看,jjzz日本护士

repositories

你是否需要大量的數(shù)據(jù)來(lái)檢驗(yàn)?zāi)愕腁PP性能？最簡(jiǎn)單的方法是從網(wǎng)上免費(fèi)數(shù)據(jù)存儲(chǔ)庫(kù)下載數(shù)據(jù)樣本。但這種方法最大的缺點(diǎn)是數(shù)據(jù)很少有獨(dú)特的內(nèi)容并且不一定能達(dá)到預(yù)期的結(jié)果。以下是70多家可以獲得免費(fèi)大數(shù)據(jù)存儲(chǔ)庫(kù)的網(wǎng)站。

Wikipedia:Database ：向感興趣的用戶(hù)提供所有可用的內(nèi)容的免費(fèi)副本?？梢缘玫蕉喾N語(yǔ)言的數(shù)據(jù)。內(nèi)容連同圖片可以下載。

Common crawl 建立并維護(hù)一個(gè)所有人都可以訪問(wèn)的開(kāi)放的網(wǎng)絡(luò)。這個(gè)數(shù)據(jù)保存在亞馬遜s3bucket中，請(qǐng)求者可能花費(fèi)一些錢(qián)來(lái)訪問(wèn)它。

Common crawl ：建立并維護(hù)一個(gè)開(kāi)放的網(wǎng)絡(luò)，向所有人開(kāi)放。

EDRM File Formats Data Set：由381個(gè)文件夾200種文件格式組成。

Apache Mahout TLP項(xiàng)目創(chuàng)建一個(gè)可擴(kuò)展的機(jī)器學(xué)習(xí)算法。Mahout有許多免費(fèi)的和付費(fèi)的語(yǔ)料庫(kù)語(yǔ)料。

EDRM Enron Email Data Set v2由安然公司郵件信息和附件組成，存在兩組可下載的壓縮文件中：XML和PST。

ClueWeb09用來(lái)支持信息檢索和相關(guān)人類(lèi)語(yǔ)言技術(shù)研究的資料庫(kù)。它包含了從2009年1月到2月間收集的大約10億個(gè)網(wǎng)頁(yè)，包含10種語(yǔ)言。資料庫(kù)被若干TREC會(huì)議的追蹤檢測(cè)使用。

DMOZ –最大的、最全面的人工編輯的開(kāi)放式網(wǎng)站目錄。它收集了不同類(lèi)型的網(wǎng)站鏈接。Dmoz是互聯(lián)網(wǎng)搜索引擎的一個(gè)主要來(lái)源。

theinfo.org –這是一個(gè)大數(shù)據(jù)集網(wǎng)站，在這里學(xué)者、設(shè)計(jì)師、藝術(shù)家等可以交流技巧和竅門(mén)，一起開(kāi)發(fā)和共享工具，并開(kāi)始整合他們獨(dú)有的項(xiàng)目。

Project Gutenberg 提供超過(guò)36000免費(fèi)電子書(shū)的下載，可以下載到個(gè)人電腦、Kindle, Android, iOS or 或其他便攜式設(shè)備。

Million song data set：與tracks 和藝術(shù)家有關(guān)的數(shù)據(jù)

AWS (Amazon Web Services) Public Data Sets：提供了可以無(wú)縫融入AWS（亞馬遜網(wǎng)絡(luò)服務(wù)）云應(yīng)用的公共數(shù)據(jù)集的集中存儲(chǔ)庫(kù)。

BigML big list of public data sources.

Bioassay data：研究文章“生物測(cè)定數(shù)據(jù)的虛擬篩選”，由Amanda Schierz編寫(xiě)，有21個(gè)生物測(cè)定數(shù)據(jù)集（活性/非生理活性成分），可以下載。

Bitly 1.usa.gov data：匿名點(diǎn)擊政府鏈接

Canada Open Data：有許多政府和地理空間的數(shù)據(jù)集的試點(diǎn)項(xiàng)目

Canada Open Data：許多政府和地理空間數(shù)據(jù)集的試點(diǎn)項(xiàng)目。

Causality Workbench：數(shù)據(jù)存儲(chǔ)庫(kù)

Corral Big Data repository：在德克薩斯高級(jí)計(jì)算中心，提供以數(shù)據(jù)為中心的技術(shù)。

Data Source Handbook:公開(kāi)數(shù)據(jù)指南

Datacatalogs.org：來(lái)自美國(guó)、歐盟、加拿大、CKAN以及其他的公開(kāi)政府?dāng)?shù)據(jù)

Data.gov.uk：英國(guó)的公共可用數(shù)據(jù)（London datastore也是）

Data.gov/Education：對(duì)于教育數(shù)據(jù)資源的主要指南，包括高價(jià)值的數(shù)據(jù)集、數(shù)據(jù)可視化、課堂資源、創(chuàng)建自公開(kāi)數(shù)據(jù)的應(yīng)用程序以及其他。

DataMarket：可視化的世界經(jīng)濟(jì)、社會(huì)、自然和工業(yè)，擁有來(lái)自聯(lián)合國(guó)，世界銀行，歐盟統(tǒng)計(jì)局和其他重要數(shù)據(jù)提供者的一億時(shí)間序列。

Datamob：可以很好利用的公開(kāi)數(shù)據(jù)

DataSF.org：可向City & County of San Francisco, CA.購(gòu)買(mǎi)的數(shù)據(jù)集信息交流中心

DataFerrett：一個(gè)用來(lái)訪問(wèn)和使用The Data Web的數(shù)據(jù)挖掘工具，許多網(wǎng)上美國(guó)政務(wù)數(shù)據(jù)集的集合。

EconData：大量經(jīng)濟(jì)學(xué)的時(shí)間序列，由許多美國(guó)政府機(jī)構(gòu)編制。

Enron Email Dataset：來(lái)自大約150個(gè)用戶(hù)的數(shù)據(jù)，這些用戶(hù)大多數(shù)是安然公司高級(jí)管理人員

Europeana Data：包含2000萬(wàn)文字，圖片，視頻開(kāi)放的元數(shù)據(jù)，以及由歐洲數(shù)位圖書(shū)館收集的聲音，對(duì)于歐洲文化遺產(chǎn)內(nèi)容值得信賴(lài)的、全面的資源。

Europeana Data：

FEDSTATS：一個(gè)美國(guó)統(tǒng)計(jì)資料的綜合資源以及更多

FIMI repository for frequent itemset mining：工具和數(shù)據(jù)集

Financial Data Finder at OSU：大型財(cái)務(wù)數(shù)據(jù)集目錄

GDELT:關(guān)于事件、位置和音調(diào)的全球數(shù)據(jù)，被英國(guó)衛(wèi)報(bào)形容為“生命、宇宙和一切的大數(shù)據(jù)歷史”

GEO (GEO Gene Expression Omnibus)：一個(gè)支持MIAME兼容數(shù)據(jù)提交的基因表達(dá)/分子豐度信息庫(kù)，一個(gè)精心策劃的網(wǎng)上資源，用于基因表達(dá)數(shù)據(jù)的瀏覽，查詢(xún)和檢索。

GeoDa Center：地理和空間數(shù)據(jù)

Google ngrams datasets：來(lái)自數(shù)Google掃描的百萬(wàn)書(shū)籍文本

Grain Market Research：財(cái)務(wù)數(shù)據(jù)，包括股票、期貨等

Hilary Mason research-quality Big Data sets收集許多文本和圖片數(shù)據(jù)集

1/2 1 2 下一頁(yè) 尾頁(yè)

大數(shù)據(jù)：70多個(gè)網(wǎng)站讓你免費(fèi)獲取大數(shù)據(jù)存儲(chǔ)庫(kù)