HitCompanies Datasets:HitCompanies隨機取樣的1萬個英國公司全面的數(shù)據(jù),采用人工智能/機器學(xué)習(xí)進(jìn)行自動更新。
ICWSM-2009 dataset:包含2008年8月1日到10月1日之間的4400萬個博文
Infochimps:一個數(shù)據(jù)開放的目錄和集合,允許分享、出售和下載關(guān)于任何內(nèi)容的數(shù)據(jù)。
Investor Links:包含財物數(shù)據(jù)
KDD Cup center:數(shù)據(jù)、工作表和結(jié)果
Kevin Chai list of datasets:文本、SNA和其他領(lǐng)域
KONECT:科布倫茨網(wǎng)絡(luò)收集,擁有大量各種類型的網(wǎng)絡(luò)數(shù)據(jù)集,以便在網(wǎng)絡(luò)挖掘領(lǐng)域進(jìn)行研究。
Linking Open Data 工程,免費向所有人提供數(shù)據(jù)
MIT Cancer Genomics gene expression datasets and publications:來自麻省理工Whitehead Center用于基因組研究
ML Data:歐盟Pascal2網(wǎng)絡(luò)數(shù)據(jù)儲存庫
NASDAQ Data Store:提供市場數(shù)據(jù)
National Government Statistical Web Sites:來自大約70個網(wǎng)站的數(shù)據(jù)、報告、統(tǒng)計年鑒、新聞和其他,包括非洲、歐洲、亞洲和拉丁美洲的國家。
National Space Science Data Center (NSSDC):美國國家航空航天局的數(shù)據(jù)集,包含行星探索、空間和太陽物理學(xué)、生命科學(xué)、天體物理學(xué)以及其他方面。
Open Data Census:評估世界各地的開放數(shù)據(jù)的狀態(tài)。
OpenData from Socrata:允許訪問超過10000個數(shù)據(jù)集,包括商業(yè)、教育、政府和娛樂
Open Source Sports:大量運動數(shù)據(jù)庫,包括棒球、足球、籃球和曲棍球
Peter Skomoroch dataset Bookmarks PubGene(TM) Gene Database and Tools:基因組有關(guān)的出版物數(shù)據(jù)庫
Quandl, a collaboratively curated portal to millions of financial and economic time-series datasets.
qunb:一個用來發(fā)現(xiàn)和可視化的數(shù)據(jù)資料的平臺
Robert Schiller data:住房建筑、股票市場和更多的來自于他的書 Irrational Exuberance的數(shù)據(jù)
SMD: Stanford Microarray Database,存儲來自微陣列實驗的原始的和標(biāo)準(zhǔn)的數(shù)據(jù)
Jerry Smith dataset collection:財經(jīng)、政府、機器學(xué)習(xí)、科學(xué)和其他數(shù)據(jù)
SourceForge.net Research Data:包含大約10萬個項目和超過100萬注冊用戶的活動的歷史和現(xiàn)狀的統(tǒng)計數(shù)據(jù)的項目管理網(wǎng)站。
StatLib,卡內(nèi)基梅隆大學(xué)數(shù)據(jù)檔案
STATOO Datasets part 1和 STATOO Datasets part 2
Time Series Data Library
Visual Analytics Benchmark Repository.
UCI KDD Database Repository :適用于機器學(xué)習(xí)和知識發(fā)現(xiàn)研究的大數(shù)據(jù)集
UCI Machine Learning Repository.
UCR Time Series Data Archive:提供數(shù)據(jù)集、論文、鏈接和代碼
United States Census Bureau.
Wikiposit:一個(虛擬的)融合了來自許多不同網(wǎng)站的數(shù)據(jù)(大多數(shù)是金融的),允許用戶合并來自不同來源的數(shù)據(jù)
Wolfram Alpha disease and patient level dat.
Yahoo Sandbox datasets:語言、圖表、評級、廣告與營銷、競賽
Yelp Academic Dataset:30家大學(xué)的250個最接近商業(yè)的所有數(shù)據(jù)和評論,為學(xué)生和學(xué)者來探討和研究
199IT編譯自http://www.bigdata-madesimple.com/70-websites-to-get-large-data-repositories-for-free/