Spark机器学习之MLlib整理分析
友情提示 : 本文档根据林大贵的《Python+Spark 2.0 + Hadoop机器学习与大数据实战》整理得到,代码均为书中提供的源码(python 2.X版本)。 本文的可以利用pandoc转换为docx文档,点击这里安装下载 pandoc 后,在终端输入以下命令: pandoc youfilename.md -f markdown -t docx -s -o outputfilename.docx Mllib 决策树二元分类 环境准备 这个阶段包括数据的下载和整理,去除缺失的数据,不符合规范的数据(比如乱码等),数据类型转换,将字符串类型映射为数字类型(建立字典),数据类型转患(将字符串类型的数字转换为浮点型的数字)。 导入这个模型我们需要的包 # -*- coding: UTF-8 -*- import sys from time import time import pandas as pd import matplotlib.pyplot as plt from pyspark import SparkConf, SparkContext from pyspark.mllib.tree import DecisionTree from pyspark.mllib.regression import LabeledPoint import numpy as np