diabetes

《R语言实战》之 创建数据集(第二章,各种数据结构)

梦想与她 提交于 2020-03-25 06:03:24
数据集 2.1数据集概念 概念:通常是由数据构成的矩形数据 不同行业对数据集的行和列叫法不同 行业人 行 列 统计学家 观测(observation) 变量(variable) 数据库分析师 记录(record) 字段(field) 数据挖掘和机器学习研究中 示例(example) 属性(attribute) 可处理的数据类型(模式):数值型、字符型、逻辑型、复数型、原生型(字节) 存储数据的结构:标量、向量、数据、数据框和列表 实例的标识符:rownames(行名);实例的类别型:因子(factors) 2.2数据结构 这节讲了几个数据结构,向量、矩阵、数组、数据框,前三种分别是一维、二维、大于二维的,它们共同点是一个数据结构中,仅能用一种数据的模式,而数据框则可以多种模式。 一些定义 对象:可复制给变量的任何事物,包括常量、数据结构、函数、图形 模式:描述对象如何存储和某各类 数据框:存储数据的一种结构(列表示变量,行表示观测),一个数据框 可存储不同类型的变量 (如数值型、字符型) 2.2.1 向量(一维数据,数值型、字符型、逻辑型) a<- c(1,2,3) #数值型 b<-c("one","two","three")#字符型 c<-c(TRUE,TURE,FALSE) #逻辑型 注意: 1.字符型的向量,元素要加“ ”或者' ',数值型和逻辑型不需要。 2.同一向量

R语言学习——数据框

心已入冬 提交于 2020-02-13 17:00:14
> #数据框可以包含不同模式(数值型、字符型、逻辑型等)的数据,是R中最常处理的数据结构。数据框可以通过函数data.frame()创建:mydata<-data.frame(coll,col2,col3,...) > #其中的列向量col1、col2、col3等可以为任何类型(如数值型、字符型或者逻辑型)每一列的名称可由函数names指定。实例如下: > #创建一个数据框 > patientID<-c(1,2,3,4) > age<-c(25,34,28,52) > diabetes<-c("Type1","Type2","Type1","Type1") > status<-c("Poor","Improved","Excellent","Poor") > patientdata<-data.frame(patientID,age,diabetes,status)#创建数据框patientdata > patientdata patientID age diabetes status 1 1 25 Type1 Poor 2 2 34 Type2 Improved 3 3 28 Type1 Excellent 4 4 52 Type1 Poor > #每一列数据的模必须唯一,可以将多个模式的不同列放到一起组成数据框。、 > #选取数据框中元素的方式有若干种,可以使用下标记号

python大战机器学习——支持向量机

纵然是瞬间 提交于 2020-02-06 18:20:10
  支持向量机(Support Vector Machine,SVM)的基本模型是定义在特征空间上间隔最大的线性分类器。它是一种二类分类模型,当采用了核技巧之后,支持向量机可以用于非线性分类。   1)线性可分支持向量机(也称硬间隔支持向量机):当训练数据线性可分是,通过硬间隔最大化,学得一个线性可分支持向量机   2)线性支持向量机(也称为软间隔支持向量机):当训练数据近似线性可分时,通过软间隔最大化,学得一个线性支持向量机   3)非线性支持向量机:当训练数据不可分时,通过使用核技巧以及软间隔最大化,学得一个非线性支持向量机。 1、线性可分支持向量机   输入:线性可分训练数据集T   输出:最大几何间隔的分离超平面和分类决策函数   算法步骤:     1)构造并且求解约束优化问题,求得最优解w*,b*     2)由此得到分离超平面,以及分类决策函数   若训练数据集T线性可分,最大间隔分离超平面存在且唯一   下面是线性可分支持向量机学习算法的对偶算法:   输入:线性可分训练数据集T   输出:最大集合间隔的分离超平面和分类决策函数   算法步骤:     1)构造并且求解约束最优化问题,求得最优解α*     2)计算w*,同时选择α*的一个正的分量αj*>0,计算b*     3)由此得到最大集合间隔分离超平面和分类决策函数 2、线性支持向量机  

R的数据结构

被刻印的时光 ゝ 提交于 2019-12-26 16:33:08
R可处理的数据类型(模式)包括数值型、字符型、逻辑型、复数型、原生型(字节),存储数据的结构包括标量、向量、矩阵、数组、数据框、列表。 1.向量 向量是一维数组,其中的元素必须是相同的类型。 1.1 向量的创建 1 a <- c(1,2,3,4,5) 2 b <- c('one','two') 1.2 向量的索引 从0开始,而不是从1开始。 1 > a <- c(1,2,3,4,5) 2 > a[3] 3 [1] 3 4 > a[1:3] 5 [1] 1 2 3 2.矩阵 矩阵是一个二维数组,其中的元素也都拥有相同的模式。 2.1 矩阵的创建 默认按列进行填充。 1 > cells <- c(1,4,6,9,3,5) 2 > rnames <- c('R1','R2') 3 > cnames <- c('C1','C2','C3') 4 > m <- matrix(cells,nrow = 2,ncol = 3,byrow = T,dimnames = list(rnames,cnames)) 5 > m 6 C1 C2 C3 7 R1 1 4 6 8 R2 9 3 5 2.2 矩阵的索引 1 > m 2 C1 C2 C3 3 R1 1 4 6 4 R2 9 3 5 5 > m[1,2] 6 [1] 4 7 > m[1,] 8 C1 C2 C3 9 1 4 6 10 > m[1,c

机器学习pipeline总结

依然范特西╮ 提交于 2019-12-06 02:56:40
# -*- coding: utf-8 -*- """scikit-learn introduction Automatically generated by Colaboratory. Original file is located at https://colab.research.google.com/drive/1quaJafg43SN7S6cNwKFr0_WYn2ELt4Ph scikit-learn官方网站:https://scikit-learn.org/stable/ 模块引入 """ from sklearn import datasets from sklearn.metrics import mean_squared_error, r2_score import matplotlib.pyplot as plt import numpy as np """#分类: - SVM(support vector machine):支持向量机 - svm.SVC() ###iris数据集 - iris feature: 花萼长度,花萼宽度,花瓣长度,花瓣宽度 - iris lable: 山鸢尾,杂色鸢尾,维吉尼亚鸢尾 """ iris = datasets.load_iris() print('iris feature\n', iris.data[0:5])

入门基础知识

て烟熏妆下的殇ゞ 提交于 2019-12-02 16:49:08
一、R语言介绍   随着数据量的极剧增加,需要从海量的数据中收集有用的信息------>数据挖掘   数据分析科学逐渐火热。下图是典型的数据分析步骤   1.1、为什么要使用R?     主要的总结几点就是:       1、R是完全免费的       2、拥有顶尖的制图水准       3、交互式的强大平台       4、有很多可以直接利用的数据库   1.2、R的安装和获取     在网址: http://cran.r-project.org ,进行免费下载,然后傻瓜式安装,如果出现相关问题,百度就可以很好解决。这里不过多介绍。     推荐使用Rstudio作为编译器,方便。   1.3、R的使用        R是区分大小写的解释型语言。     数据类型:向量,矩阵,数据框,列表(各种对象的集合)     使用<-表示赋值和=,相同(不推荐使用等号赋值)  age <- c(1,3,5,2,11,9,3,9,12,3)#向量age weight <- c(4.4,5.3,7.2,5.2,8.5,7.3,6.0,10.4,10.2,6.1)#向量weight mean(weight)#求平均值 sd(weight)#求标准差 cor(age,weight)#求相关度 plot(age,weight)#以图形的形式显示 注:后面会介绍自定义图形(修改图形参数)