分类变量

PRML学习笔记第一章

匿名 (未验证) 提交于 2019-12-03 00:41:02
【转】 模式识别的目标 自动从数据中发现潜在规律,以利用这些规律做后续操作,如数据分类等。 模型选择和参数调节 类似的一族规律通常可以以一种模型的形式为表达,选择合适模型的过程称为模型选择(Model Selection)。模型选择的目的只是选择模型的形式,而模型的参数是未定的。 从数据中获得具体规律的过程称为训练或学习,训练的过程就是根据数据来对选定的模型进行参数调节(Parameter Estimation)的过程,此过程中使用的数据为训练数据集(Training Set)。 对于相同数据源的数据来讲,规律应该是一般的(泛化Generalization),因此评估一个学习结果的有效性可以通过使用测试数据集(Testing Set)来进行的。 预处理 对于大多数现实中的数据集来讲,使用其进行学习之前,通常需要进行预处理,以提高学习精度及降低学习的开销。 以图像识别为例,若以像素做为一个特征,往往一幅图像的特征就能达到几万的数量级,而很多特征(如背景色)都是对于图像辨识起不到太大作用的,因此对于图像数据集,预处理过程通常包括维数约减(特征变换,特征选择),仅保留具有区分度的特征。 文本数据分类任务中,对训练文本也有类似的处理方式,只不过此时扮演特征的是单词,而不是像素值。 监督学习和非监督学习 输入向量(input vector): ,响应向量(target vector):

二分类Logistic回归模型

匿名 (未验证) 提交于 2019-12-02 23:57:01
  Logistic回归属于 概率型的非线性回归 ,分为 二分类 和 多分类 的回归模型。这里只讲二分类。   对于二分类的Logistic回归,因变量y只有“是、否”两个取值,记为 1和0 。这种值为0/1的二值品质型变量,我们称其为 二分类变量 。   假设在自变量$x_{1}, x_{2}, \cdots, x_{p}$作用下,y取“是”的概率是p,则取“否”的概率是1-p,研究的是当y取“是”发生的模率p与自变量$x_{1}, x_{2}, \cdots, x_{p}$的关系。 Logistic回归模型 ①Logit变 换    Logit 变换 以前用于人口学领域,1970年被Cox引入来解决 曲线直线化 问题。   通常把某种结果 出现的概率与不出现的概率之比 称为称为 事件的优势比odds ,即假设在p个独立自变量$x_{1}, x_{2}, \cdots, x_{p}$作用下,记y取1的概率是$p=P(y=1 | X)$,取0概率是$1-p$,取1和取0的概率之比为$\frac{p}{1-p}$。Logit变换即取对数:$$\lambda = \ln ({\rm{ odds }}) = \ln \frac{p}{{1 - p}}$$ ②Logistic函数    Logistic中文意思为“逻辑”,但是这里,并不是逻辑的意思,而是通过logit变换来命名的。  

python学习09之分类变量

匿名 (未验证) 提交于 2019-12-02 22:51:30
  本次学习   1 import pandas as pd from sklearn.model_selection import train_test_split #读取数据 data = pd.read_csv('E:/data_handle/melb_data.csv') #从预测器中分离目标 y =data.Price X = data.drop(['Price'],axis=1) #将数据划分为训练和验证子集 X_train_full, X_valid_full, y_train, y_valid = train_test_split(X, y, train_size=0.8,test_size=0.2,random_state=0) #删除有缺少值得列 cols_with_missing = [col for col in X_train_full.columns if X_train_full[col].isnull().any()] X_train_full.drop(cols_with_missing, axis=1, inplace=True) X_valid_full.drop(cols_with_missing, axis=1, inplace=True) #“基数”是指列中唯一的数目 #选择技术相对较低的分类列(方便但随意) low

算法启蒙

淺唱寂寞╮ 提交于 2019-12-01 18:50:31
https://www.cnblogs.com/nxld/p/6168380.html 本文,主要想简单介绍下数据挖掘中的算法,以及它包含的类型。然后,通过现实中触手可及的、活生生的案例,去诠释它的真实存在。 一般来说,数据挖掘的算法包含四种类型,即分类、预测、聚类、关联。前两种属于有监督学习,后两种属于无监督学习,属于描述性的模式识别和发现。 有监督学习 有监督的学习,即存在目标变量,需要探索特征变量和目标变量之间的关系,在目标变量的监督下学习和优化算法。例如,信用评分模型就是典型的有监督学习,目标变量为“是否违约”。算法的目的在于研究特征变量(人口统计、资产属性等)和目标变量之间的关系。 分类算法 分类算法和预测算法的最大区别在于,前者的目标变量是分类离散型(例如,是否逾期、是否肿瘤细胞、是否垃圾邮件等),后者的目标变量是连续型。一般而言,具体的分类算法包括,逻辑回归、决策树、KNN、贝叶斯判别、SVM、随机森林、神经网络等。 预测算法 预测类算法,其目标变量一般是连续型变量。常见的算法,包括线性回归、回归树、神经网络、SVM等。 无监督学习 无监督学习,即不存在目标变量,基于数据本身,去识别变量之间内在的模式和特征。例如关联分析,通过数据发现项目A和项目B之间的关联性。例如聚类分析,通过距离,将所有样本划分为几个稳定可区分的群体。这些都是在没有目标变量监督下的模式识别和分析。

Java基础知识

本小妞迷上赌 提交于 2019-12-01 07:07:06
目录 1.0 Java基础 1.0.1 Java的发展史 1.0.2 Java的跨平台 1.0.3 JVM安装 1.1第一个Java程序 1.1.1 关注的重点内容 1.1.2 代码编写 1.1.3代码的关注点 1.2 Java数据类型 1.2.1 数据类型是什么 1.2.2 数据类型分类 1.3 Java中的变量 1.3.1 什么是变量 1.3.2 如何定义变量 1.4运算符 1.4.1运算符分类 1.4.2算术运算符 1.4.3 比较运算 1.4.4字符类型的比较原理 1.4.5逻辑运算符 1.4.6三目运算符 1.4.7单目运算符 1.5 条件判断 1.5.1 条件判断的分类 1.5.2 if语句 1.5.3 switch语法 1.6 循环 1.6.1 循环分类 1.6.2 while循环 1.6.3 do..while 循环 1.6.4 for循环 1.6.5 foreach 循环 1.6.6 continue 关键字 1.6.7 总结break 和 continue 1.6.8 任务 1.7 数组 1.7.1 数组的意义 1.7.2 数组的语法 1.7.3 数组的分类 1.7.4 数组的赋值与遍历 1.7.5 数组的报错 1.7.6 数据类型转换 1.7.7 任务 1.8 字符串 1.8.1 字符串初始化 1.8.2 字符串构造方法 1.8.3 字符串方法的使用 1.8

deep_learning_MNIST数据集

ぐ巨炮叔叔 提交于 2019-11-30 16:02:59
Code_link: https://pan.baidu.com/s/1dshQt57196fhh67F8nqWow 本文是为既没有机器学习基础也没了解过TensorFlow的码农、序媛们准备的。如果已经了解什么是MNIST和softmax回归本文也可以再次帮助你提升理解。在阅读之前,请先确保在合适的环境中安装了TensorFlow( windows安装请点这里 ,其他版本请官网找),适当编写文章中提到的例子能提升理解。 首先我们需要了解什么是“ MNIST ”? 每当我们学习一门新的语言时,所有的入门教程官方都会提供一个典型的例子——“Hello World”。而在机器学习中,入门的例子称之为MNIST。 MNIST是一个简单的视觉计算数据集,它是像下面这样手写的数字图片: 每张图片还额外有一个标签记录了图片上数字是几,例如上面几张图的标签就是:5、0、4、1。 本文将会展现如何训练一个模型来识别这些图片,最终实现模型对图片上的数字进行预测。 首先要明确,我们的目标并不是要训练一个能在实际应用中使用的模型,而是通过这个过程了解如何使用TensorFlow完成整个机器学习的过程。我们会从一个非常简单的模型开始——Softmax回归。 然后要明白,例子对应的源代码非常简单,所有值得关注的信息仅仅在三行代码中。然而,这对于理解TensorFlow如何工作以及机器学习的核心概念非常重要

SVM学习总结

Deadly 提交于 2019-11-29 11:55:45
目录 一、SVM学习回顾 1 线性可分支持向量机与硬间隔最大化 1.1 线性可分支持向量机 1.2 函数间隔和几何间隔 1.3 间隔最大化 (1) 最大间隔分离超平面 (2) 支持向量和间隔边界 1.3 学习的对偶算法 2 线性支持向量机与软间隔最大化 2.1 线性支持向量机 2.2 学习的对偶算法 2.3 支持向量 2.4 合页损失函数 3 非线性支持向量机与核函数 3.1 核技巧 (1) 非线性分类问题 (2) 核函数的定义 (3) 核技巧在支持向量机中的应用 3.2 正定核 3.3 常用核函数 3.4 非线性支持向量机 4 序列最小最优化算法 二、补充 备注 备注1 凸二次规划 备注2 拉格朗日对偶性和KKT条件 备注3 为什么要转化为对偶问题求解 备注4 欧式空间和希尔伯特空间 其他问题 为什么高斯核可以将原始维度映射到无穷维 线性可分SVM、线性SVM和非线性SVM三者的b是否唯一 前言 第一次写博客,有不好的地方请各位多加指教;之前对SVM进行了一些学习,每次学习的时候又感觉很多东西都忘掉了;之前暑假的时候又进行了一次较为详细的学习,想着记录一下,一些笔记也都准备好了,由于若干原因(主要是拖延症晚期)一直拖到现在;本次总结主要是以李航老师的统计学习方法为参考,对书中的思路做一个梳理(因此想要了解或者回顾SVM的话,本文会有一点帮助,如果想仔细学习的话还是要结合

从结构到性能,一文概述XGBoost、Light GBM和CatBoost的同与不同

*爱你&永不变心* 提交于 2019-11-27 19:01:11
尽管近年来神经网络复兴并大为流行,但是 boosting 算法在训练样本量有限、所需训练时间较短、缺乏调参知识等场景依然有其不可或缺的优势。本文从算法结构差异、每个算法的分类变量时的处理、算法在数据集上的实现等多个方面对 3 种代表性的 boosting 算法 CatBoost、Light GBM 和 XGBoost 进行了对比;虽然本文结论依据于特定的数据集,但通常情况下,XGBoost 都比另外两个算法慢。 最近,我参加了 kaggle 竞赛 WIDS Datathon,并通过使用多种 boosting 算法,最终排名前十。从那时开始,我就对这些算法的内在工作原理非常好奇,包括调参及其优劣势,所以有了这篇文章。尽管最近几年神经网络复兴,并变得流行起来,但我还是更加关注 boosting 算法,因为在训练样本量有限、所需训练时间较短、缺乏调参知识的场景中,它们依然拥有绝对优势。 2014 年 3 月,XGBOOST 最早作为研究项目,由陈天奇提出 2017 年 1 月,微软发布首个稳定版 LightGBM 2017 年 4 月,俄罗斯顶尖技术公司 Yandex 开源 CatBoost 由于 XGBoost(通常被称为 GBM 杀手)已经在机器学习领域出现了很久,如今有非常多详细论述它的文章,所以本文将重点讨论 CatBoost 和 LGBM,在下文我们将谈到: 算法结构差异

第10章:多元分析

戏子无情 提交于 2019-11-27 13:03:44
10.1 聚类分析 即群分析,是对多个样本(或指标)进行定量分类的一种多元统计分析方法。对样本进行分类称为Q型聚类分析,对指标进行分类称为R型聚类分析。 10.1.1 Q型聚类分析 (1)样本的相似性度量 对于定量变量,最常用的是闵式距离 绝对值距离 欧几里得距离:最常用,当坐标轴进行正交旋转时,它保持不变 切比雪夫距离 马氏距离:对一切线性变换是不变的 (2)类与类之间的相似性度量 最短距离法 最长距离法 重心法 类平均法 离差平方和法 (3)最短距离法(最近邻法)的计算步骤: clc,clear a=[1,0;1,1;3,2;4,3;2,5]; [m,n]=size(a); d=zeros(m); d=mandist(a'); %mandist求矩阵列向量组之间的两两绝对值距离 d=tril(d); %截取下三角元素 nd=nonzeros(d); %去掉d中的零元素,非零元素按列排列 nd=union([],nd) %去掉重复的非零元素 for i=1:m-1 nd_min=min(nd); [row,col]=find(d==nd_min);tm=union(row,col); %row和col归为一类 tm=reshape(tm,1,length(tm)); %把数据tm变成行向量 fprintf('第%d次合成,平台高度为%d时的分类结果为:%s\n',... i,nd

决策树和K近邻分类

北城余情 提交于 2019-11-26 19:29:39
python3.6 pycharm 2019-8-10 第一次发布 文章性质:学习资料总结 1. 机器学习介绍 机器学习(Machine Learning):假设用 P 来评估计算机程序在某任务类 T 上的性能,若一个程序利用经验 E 在任务 T 上获得了性能改善,则我们就说关于 T 和 P, 该程序对 E 进行了学习。 在不同的问题设定下,T、P、E 可能指完全不同的东西。机器学习中一些流行的任务 T 包括: 分类:基于特征将实例分为某一类。 回归:基于实例的其他特征预测该实例的数值型目标特征。 聚类:基于实例的特征实现实例的分组,从而让组内成员比组间成员更为相似。 异常检测:寻找与其他样本或组内实例有很大区别的实例。 其他更多任 关于经验 E,《Deep Learning》(Ian Goodfellow、Yoshua Bengio、Aaron Courville 著,2016 年出版)的「Machine Learning basics」一章提供了一份很好的综述: 经验 E 指的是数据(没有数据我们什么也干不了)。根据训练方式,机器学习算法可以分为监督(supervised)和无监督(unsupervised)两类。无监督学习需要训练含有很多特征的数据集,然后学习出这个数据集上有用的结构性质。而监督学习的数据集除了含有很多特征外,它的每个样本都要有一个标签(label)或目标