第2章 端到端的机器学习项目
第2章 端到端的机器学习项目 写在前面 参考书 《机器学习实战——基于Scikit-Learn和TensorFlow》 工具 python3.5.1,Jupyter Notebook, Pycharm 回归问题的性能指标 均方根误差(RMSE):$\sqrt {\frac{1}{m} \sum\limits_{i=1}^m ( h(x^{(i)}) - y^{(i)} ) ^2}$,对应$l_2$范数。 平均绝对误差(MAE):$\frac{1}{m} \sum\limits_{i=1}^m | h( x^{(i)} ) - y^{(i)} |$,对应$l_1$范数。 范数指数越高,则越关注大的价值,忽略小的价值。这就是为什么RMSE比MAE对异常值更敏感。但是当异常值非常稀少(例如钟形曲线)时,RMSE的表现优异,通常作为首选。 df.where详解 参考连接: https://blog.csdn.net/brucewong0516/article/details/80226990 返回一个同样shape的df,当满足条件为TRUE时,从本身返回结果,否则从返回其他df的结果 df.mask使用时,结果与where相反 分层抽样详解 sklearn.model_selection.StratifiedShuffleSplit 参考链接: https://blog.csdn.net