由于各个网站对于数据使用都有明确且严格的声明,我们不便在未经各网站许可的情况下私自传播数据,所以这里仅提供各数据源的网址,请大家自行登陆到各网站上提取自己所需的数据,并按各网站的数据使用声明使用数据。
数据源友情链接:
- 政府&机构数据
- 美国政府开源数据库:http://www.data.gov/
- 英国政府开源数据库:http://data.gov.uk/
- 世界银行数据库:http://www.worldbank.org/
- 美国气候数据库:http://www.ncdc.noaa.gov/
- 美国交通部数据库:http://www.rita.dot.gov/bts/data_and_statistics/index.html
- 开源社区数据集
- Machine Learning Data: http://mldata.org/repository/data/
- UCI: http://archive.ics.uci.edu/ml/
- Co-Clustering: https://coclustering.hds.utc.fr/doku.php?id=en:start
- R Dataset:http://www.stats4stem.org/data-sets.html
- Google开源数据平台:http://www.reddit.com/r/bigquery/wiki/datasets
- 商业数据平台
- 竞赛&会议数据
- Kaggle:https://www.kaggle.com/
- DataCastle: http://www.pkbigdata.com/
- KDD: http://www.kdd.org/
- Statistical computing&Statistical Graphics: http://stat-computing.org/dataexpo/
- 其他
- 基因数据:http://aws.amazon.com/cn/1000genomes/
- Cancer Program Dataset: http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi
- 电影评分数据集:http://grouplens.org/datasets/movielens/
- NCBI :http://www.ncbi.nlm.nih.gov/
- Data Source on Web:
http://mran.revolutionanalytics.com/documents/data/#machinelearning - Mahout数据集:https://mahout.apache.org/users/basics/collections.html