鸢尾花

决策树模型——鸢尾花分类

空扰寡人 提交于 2020-02-27 10:41:33
构建一个决策树分类模型,实现对鸢尾花的分类 1.lris数据集介绍: 鸢尾花数据集是机器学习领域中非常经典的一个分类数据集。数据集全名为:Iris Data Set,总共包含150行数据。 每一行由4个特征值及一个目标值(类别变量)组成。 其中4个特征值分别是:萼片长度、萼片宽度、花瓣长度、花瓣宽度 目标值为3种不同类别的鸢尾花:山鸢尾、变色鸢尾、维吉尼亚鸢尾 2.读取数据 Iris数据集里是一个矩阵,每一列代表了萼片或花瓣的长宽,一共4列,每一列代表某个被测量的鸢尾植物,一共采样了150条记录。 from sklearn.datasets import load_iris # 导入方法类 iris = load_iris() #导入数据集iris iris_feature = iris.data #特征数据 iris_target = iris.target #分类数据 print (iris.data) #输出数据集 print (iris.target) #输出真实标签 print (len(iris.target) ) print (iris.data.shape ) #150个样本 每个样本4个特征 #输出结果如下: [[5.1 3.5 1.4 0.2] [4.9 3. 1.4 0.2] [4.7 3.2 1.3 0.2] [4.6 3.1 1.5 0.2] [5. 3

探索sklearn | 鸢尾花数据集

本小妞迷上赌 提交于 2020-01-22 21:36:41
1 鸢尾花数据集背景 鸢尾花数据集是原则20世纪30年代的经典数据集。它是用统计进行分类的鼻祖。 sklearn包不仅囊括很多机器学习的算法,也自带了许多经典的数据集,鸢尾花数据集就是其中之一。 导入的方法很简单,不过我比较好奇它是如何来存储这些数据的,于是我决定去背后看一看 from sklearn.datasets import load_iris data = load_iris() 找到sklearn包的路径,发现包可不少,不过现在扔在一边,以后再来探索,我现在要找到是datasets文件夹。 文件夹里没有找到load_iris()这个函数在哪,只是在__init__文件里,发现了这么一行 from .base import load_iris 2 数据的内容 不出我料数据没有存储在程序文件里,而是用csv格式保存着,单独放在了data文件夹里 150,4,setosa,versicolor,virginica 5.1,3.5,1.4,0.2,0 #花萼长度,花萼宽度,花瓣长度,花瓣宽度 4.9,3.0,1.4,0.2,0 4.7,3.2,1.3,0.2,0 4.6,3.1,1.5,0.2,0 5.0,3.6,1.4,0.2,0 第一行首先记录了样本数目150,特征数目4 现在是时候来详细介绍一下数据了: 数据包含三种鸢尾花的四个特征,分别是花萼长度(cm)、花萼宽度(cm

用逻辑回归实现鸢尾花数据集分类(1)

匿名 (未验证) 提交于 2019-12-03 00:19:01
鸢尾花数据集的分类问题指导 -- 对数几率回归(逻辑回归)问题研究 (1) 这一篇Notebook是应用对数几率回归( Logit Regression )对鸢尾花数据集进行品种分类的。首先会带大家探索一下数据集中的特征,类别信息。然后带大家从入门与进阶来学习应用逻辑回归分类。 1.背景介绍 1.1. 逻辑回归 Logistic Regression (对数几率回归 Logit Regression) 名字 关于名字,有文献将Logistic Regression译为“逻辑回归”, 但中文“逻辑”与logitic 和 logit 的含义相去甚远,因此在《机器学习》中意译为“对数几率回归”,简称“对率回归”。 线性回归 在介绍对数几率回归之前先介绍一下线性回归,线性回归的主要思想是通过历史数据拟合出一条直线,因变量与自变量是线性关系,对新的数据用这条直线进行预测。 线性回归的公式如下: y=w0+w1x1+...+wnxn=wTx+b 逻辑回归 对数几率回归是一种广义的线性回归分析模型,是一种预测分析。虽然它名字里带回归,但实际上对数几率回归是一种分类学习方法。它不是仅预测出“类别”, 而是可以得到近似概率预测,这对于许多需要利用概率辅助决策的任务很有用。普遍应用于预测一个实例是否属于一个特定类别的概率,比如一封email是垃圾邮件的概率是多少。 因变量可以是二分类的

用逻辑回归实现鸢尾花数据集分类(2)

匿名 (未验证) 提交于 2019-12-03 00:19:01
鸢尾花数据集的分类问题指导 -- 对数几率回归(逻辑回归)问题研究(2) 用逻辑回归实现鸢尾花的分类(1) 中,我们了解了鸢尾花数据集中的特征数据等信息,并尝试使用Logistic Regression方法基于scikit提供的iris数据集做简单的分类。这篇进阶版会带大家来学习 如何将原始文件中的数据转变成机器学习算法可用的numpy数据 。相信这对于无论是入门数据分析者还是有一定数据分析基础的数据分析师,都是在实际操作处理现实原始数据时最犯难的一件事。巧妇难为无米之炊,没有能够进行机器学习的数据,纵然你有各种机器学习算法的能力与技能,还是一样不能做好一个数据分析项目。 所以这次会带大家来了解一下基于 平衡的样本 下一个大体完整的数据处理与分析过程。此外,这篇notebook会在模型构造时运用sklearn中的一个有意思的类: Pipeline ,即管道机制,来实现流式教程的封装与管理(streaming workflows with pipelines)。 pipeline of transforms with a final estimator. import pandas as pd import numpy as np import matplotlib.pyplot as plt import plotly.plotly as py import plotly