Spark MLlib中分类和回归算法
Spark MLlib中分类和回归算法: -分类算法: pyspark.mllib.classification -朴素贝叶斯 NaiveBayes -支持向量机(优化:随机梯度下降)SVMWithSGD -逻辑回归 LogisticRegressionWithSGD // 从Spark 2.0开始,官方推荐使用BFGS方式优化LR算法 LogisticRegressionWithBFGS // 针对流式数据实时模型训练算法 StreamingLogisticRegressionWithSGD -树Tree相关分类算法: pyspark.mllib.tree -决策树 DecisionTree -随机森林算法 –集成学习算法-Bagging方式 RandomForest -梯度提升决策树算法 –集成学习算法 –Boosting方式 GradientBoostedTrees Spark MLlib中从底层源码来看,无论是DT 还是RF还是GBT算法,底层都是RF算法实现的。 -分类算法的类别: 树相关的算法,既可以做二分类,又可以做多分类算法: numClass: Number of classes for classification -二分类 NB、SVM、LR -多分类 NB、LR 监督学习算法: 数据集RDD