趣味机器学习入门小项目(附教程与数据) 没有任何理论可以代替实践,虽然教材和课程能让你掌握一些基本原理,但在尝试应用时,你会发现具体操作起来比较困难。因此项目有助于提高应用机器学习的技巧,此外在找工作中也会给自己增添一些筹码。 这个项目的目标是将现成模型应用到不同的数据集。首先,你会根据直觉为问题找到对应的模型,实践检验该模型是否对数据丢失具有鲁棒性、是否适合处理哪种类别特征;其次,本项目将教会你快速设计初始模型的技能,在实际应用中,我们一般会先找到一个简单模型进行快速实现以确定一个baseline,逐步提升模型性能,而不是一蹴而就的完成;最后,这个练习可以帮助你掌握建模的流程。下面我里除了一个机器学习问题处理的通用性步骤例如:
-
导入数据
-
数据清洗
-
将数据集拆成训练/测试或交叉验证集
-
预处理
-
变换
-
特征工程 因为使用现成的模型,这促使你有更多的机会专注于学习上述的这些关键步骤,通过以下教程可以练习回归、分类和聚类算法。
首先介绍一下该项目中所使用到的数据源:
-
UCI机器学习库——350多个可检索数据集,几乎涵盖每一个主题。 http://archive.ics.uci.edu/ml/
-
Kaggle数据集——Kaggle社区上的100多个数据集。 https://www.kaggle.com/datasets
-
Data.gov——由美国政府发布的开放数据集。 https://www.data.gov/ 其次是教程,项目中的模型使用Python的第三方库Scikit-learn进行快速实现,需要了解scikit-learn的安装以及使用方法(参考官方手册),具体如下:
-
Python:sklearn——sklearn数据包官方教程 http://scikit-learn.org/stable/tutorial/
-
中文教程手册: http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030179
-
Scikit Learn预测葡萄酒质量——用于训练机器学习模型的分步教程 http://elitedatascience.com/python-machine-learning-tutorial-scikit-learn
来源:oschina
链接:https://my.oschina.net/u/2269841/blog/1576351