R语言机器学习之caret包运用
在大数据如火如荼的时候,机器学习无疑成为了炙手可热的工具,机器学习是计算机科学和统计学的交叉学科, 旨在通过收集和分析数据的基础上,建立一系列的算法,模型对实际问题进行预测或分类。 R语言无疑为我们提供了很好的工具,它正是计算机科学和统计科学结合的产物,开源免费, 相对于Python、Orange Canvas、Weka、Kinme这些免费的数据挖掘软件来说,更容易上手,统计图形也更加美观。 今天在这里和大家介绍一下Caret机器学习包的一些基本用法。 一、数据收集 下载kernlab包里的spam数据集,spam是一个邮件数据集,共有4601个观测值,58个变量,最后一个变量是一个二值变量,“spam”和“no spam”,我们要做的工作就是通过建立模型了预测观测值是否为“spam”。首先加载软件包和数据集: > library(caret) 载入需要的程辑包:lattice 载入需要的程辑包:ggplot2 警告信息: 1: 程辑包‘caret’是用R版本3.1.1 来建造的 2: 程辑包‘ggplot2’是用R版本3.1.1 来建造的 > library(kernlab) 警告信息: 程辑包‘kernlab’是用R版本3.1.3 来建造的 > data(spam) > head(spam) make address all num3d our over remove