分类数据

神经网络实现手写数字分类matlab

落花浮王杯 提交于 2020-02-07 17:33:08
1 实验结果 有点糊,将就看一下,一个手写数字的自动识别,识别的准确率大概为94% 2、数据集Minist 下载地址:http://yann.lecun.com/exdb/mnist/ 四个文件分别为训练集数据、训练集标签、测试集数据、测试集标签。官方介绍,训练集数据有60000张,测试集数据有10000张。(说明:下载后电脑会自动解压成.ubyte.gz格式),这四个文件不是标准的图片格式,因此我们需要建一个.m文件实现对数据的读取。每张图片都是28 28,因此每次读取28 28大小为一张图片。 2.1 读取数据转化为向量 将图片向量化为784 1,将训练集所有图片向量存在x_train中,大小为784 60000,标签存放在y_train中,大小为1*60000(测试集同理,分别为x_test,y_test) 为了后面找到最合适的网络参数,因此直接将读取的训练集、测试集数据存在文件中,后面直接载入文件调用即可。读取训练集、测试集为同一函数,为了将读取到的数据区别开分别存放在train和test文件中,在函数中定义一个描述字符,表示该文件是训练文件还是测试文件。 function build_dataset(image_file,label_file,describe) %读取训练集图片文件 images = fopen(image_file,'r'); %读取文件说明信息

K最邻近分类

徘徊边缘 提交于 2020-02-07 06:19:47
最邻近分类是分类方法中比较简单的一种,下面对其进行介绍 1.模型结构说明 最邻近分类模型属于“基于记忆”的非参数局部模型,这种模型并不是立即利用训练数据建立模型,数据也不再被函数和参数所替代。在对测试样例进行类别预测的时候,找出和其距离最接近的 个样例,以其中数量最多的类别作为该样例的类预测结果。 最邻近分类模型的结构可以用下图来说明,图中叉号表示输入的待分类样例,对其分类时选定一个距离范围(虚线圆圈表示的范围),在该范围内包含有 个样例(除去待分类样例外,这里 =5),这里所说的距离并不专指距离度量(如曼哈顿距离、欧氏距离等),它可以是任意一种邻近度度量(在我的博文《数据测量与相似性分析》中有介绍),此时最邻近的5个样例中,有3个“+”例,2个“-”例,故待分类样例的类别定位“+”。为了便于确定类别, 一般取奇数。 ​ 2.模型构建 2.1 K值选取 从 最邻近分类方法的分类过程可知, 值对模型的误分类率影响较大。 较小时,相当于用较小邻域中的样例进行预测,“学习”的近似误差会减小,但是“学习“的估计误差会增大,且对邻域内的样例非常敏感,若邻近的样例中包含部分噪声,预测结果就会出错, 较大时的情况则相反。 总的来说, 值减小意味着整体模型变复杂,容易发生过拟合, 值增大意味着模型变简单,导致忽略“训练”样例中一些有用信息,预测误分类率会增高。在应用中,一般 取较小的值

Matlab | 对带标签数据信号分类并作图保存到本地

折月煮酒 提交于 2020-02-07 02:58:07
本次操作的目的是将数据集S01(大小为500x61x180,500组数据,61通道,每个通道记录了180个值)按照标签(大小为1x500,取值-1和1分为两类)将不同类别的数据分开,并分别进行作图保存到本地。 load ( 'D:\RESEARCH\DATASET\ERRP dataset from gaze\ErrP data from gaze\S01eeg.mat' ) load ( 'D:\RESEARCH\DATASET\ERRP dataset from gaze\ErrP data from gaze\S01labels.mat' ) %错误信号的叠加平均 S01_error ( 61,180 ) = 0 ; %预定义信号及信号长度 m = 0 ; for n = 1:500 if S01labels ( 1,n ) == -1 m = m+1 ; %计数,最后要平均的 for i = 1:61 for j = 1:180 S01_error ( i,j ) = ( S01_error ( i,j ) +S01eeg ( n,i,j )) /m ; end end end end errorcount = m for i = 1:61 n = i ; figure ( i ) ; plot ( 1:180,S01_error ( i,: )) ; set ( i,

测试时网络异常的分类

a 夏天 提交于 2020-02-07 01:45:58
一、测试时网络异常的分类: 在系统的运行过程中,可能会遇到各种各样的网络问题,其中主要可能出现的问题有: 网络延迟:当网络信息流过大时,可能导致设备反应缓慢,造成数据传输缓慢。 网络掉包:网络掉包是在数据传输的过程中,数据包由于各种原因在信道中丢失的想象。 数据节流:当数据传输量达到网络带宽上线时,数据包可能会被设备拦截下来在之后发出。 网络重播:当网络不稳定是可能会导致发送端判断数据包丢失导致部分数据包重发。 数据乱序:当数据传输有可能出现数据包到达接收端时间不一致,导致数据包乱序问题。 数据篡改:数据传输的过程中可能数据被连接篡改的情况。 二、Windows下网络异常的模拟方法 Windows下可以使用clumsy来进行网络异常的模拟。 Clumsy首先根据用户选择的filter来拦截指定的网络的数据。在filter中可以设定你感兴趣的协议(tcp/udp),端口号,是接收还是发出的端口,你也可以通过简单的逻辑语句来进一步缩小范围。当clumsy被激活时,只有符合这些标准的网络数据仍然会由系统正常传输。 当filter的网络数据包被拦截后,你可以选择clumsy提供的功能来有目的性的调整网络情况。 延迟(Lag),把数据包缓存一段时间后再发出,这样能够模拟网络延迟的状况。 掉包(Drop),随机丢掉一些数据。 节流(Throttle)

大数据案例分析

可紊 提交于 2020-02-06 19:56:52
摘自 https://www.cnblogs.com/ShaYeBlog/p/5872113.html 一、大数据分析在商业上的应用 1、体育赛事预测 世界杯期间,谷歌、百度、微软和高盛等公司都推出了比赛结果预测平台。百度预测结果最为亮眼,预测全程64场比赛,准确率为67%,进入淘汰赛后准确率为94%。现在互联网公司取代章鱼保罗试水赛事预测也意味着未来的体育赛事会被大数据预测所掌控。 “在百度对世界杯的预测中,我们一共考虑了团队实力、主场优势、最近表现、世界杯整体表现和博彩公司的赔率等五个因素,这些数据的来源基本都是互联网,随后我们再利用一个由搜索专家设计的机器学习模型来对这些数据进行汇总和分析,进而做出预测结果。”--- 百度北京大数据实验室的负责人张桐 2、股票市场预测 去年英国华威商学院和美国波士顿大学物理系的研究发现,用户通过谷歌搜索的金融关键词或许可以金融市场的走向,相应的投资战略收益高达326%。此前则有专家尝试通过Twitter博文情绪来预测股市波动。 理论上来讲股市预测更加适合美国。中国股票市场无法做到双向盈利,只有股票涨才能盈利,这会吸引一些游资利用信息不对称等情况人为改变股票市场规律,因此中国股市没有相对稳定的规律则很难被预测,且一些对结果产生决定性影响的变量数据根本无法被监控。 目前,美国已经有许多对冲基金采用大数据技术进行投资,并且收获甚丰

统计学习方法 李航---第5章 决策树

北城以北 提交于 2020-02-06 04:58:44
第5章 决策树 决策树(decision tree)是一种基本的分类与回归方法。本章主要讨论用于分类的决策树。决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程。它可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。其主要优点是模型具有可读性,分类速度快。学习时,利用训练数据,根据损失函数最小化的原则建立决策树模型。预测时,对新的数据,利用决策树模型进行分类。决策树学习通常包括3个步骤:特征选择、决策树的生成和决策树的修剪。 5.1 决策树模型与学习 定义5.1 (决策树) : 分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点(node)和有向边(directed edge)组成。结点有两种类型:内部结点(internal node )和叶结点(leaf node)。内部结点表示一个特征或属性,叶结点表示一个类。 用决策树分类,从根结点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到其子结点;这时,每一个子结点对应着该特征的一个取值。如此递归地对实例进行测试并分配,直至达到叶结点。最后将实例分到叶结点的类中。 图中圆和方框分别表示内部结点和叶结点. 决策树与if-then规则 可以将决策树看成一个if-then规则的集合,转换成if-then规则的过程:由决策树的根结点到叶结点的每一条路径构建一条规则

WEKA使用手册

依然范特西╮ 提交于 2020-02-04 12:00:10
1. 简介 WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),它的源代码可通过 http://www.cs.waikato.ac.nz/ml/weka 得到。同时weka也是新西兰的一种鸟名,而WEKA的主要开发者来自新西兰。 WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。 如果想自己实现数据挖掘算法的话,可以看一看weka的接口文档。在weka中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。 2005 年8月,在第11届ACM SIGKDD国际会议上,怀卡托大学的Weka小组荣获了数据挖掘和知识探索领域的最高服务奖,Weka系统得到了广泛的认可,被誉为数据挖掘和机器学习 历史上的里程碑,是现今最完备的数据挖掘工具之一(已有11年的发展历史)。Weka的每月下载次数已超过万次。 --整理自 http://www.china-pub.com/computers/common/info.asp?id=29304 2. 数据格式 巧妇难为无米之炊。首先我们来看看WEKA所用的数据应是什么样的格式。 跟很多电子表格或数据分析软件一样

KNN分类器

我怕爱的太早我们不能终老 提交于 2020-02-04 07:36:56
KNN学习(K-Nearest Neighbor algorithm,K最邻近方法 )是一种统计分类器,对数据的特征变量的筛选尤其有效。 基本原理 KNN的基本思想是:输入没有标签(标注数据的类别),即没有经过分类的新数据,首先提取新数据的特征并与測试集中的每一个数据特征进行比較;然后从測试集中提取K个最邻近(最类似)的数据特征标签,统计这K个最邻近数据中出现次数最多的分类,将其作为新的数据类别。 KNN的这样的基本思想有点类似于生活中的“物以类聚。人以群分”。 在KNN学习中,首先计算待分类数据特征与训练数据特征之间的距离并排序。取出距离近期的K个训练数据特征。然后根据这K个相近训练数据特征所属类别来判定新样本类别:假设它们都属于一类,那么新的样本也属于这个类;否则,对每一个候选类别进行评分,依照某种规则确定新的样本的类别。 笔者借用以下这个图来做更形象的解释: 如上图,图中最小的那个圆圈代表新的待分类数据。三角形和矩形分别代表已知的类型,如今须要推断圆圈属于菱形那一类还是矩形那一类。 可是我该以什么样的根据来推断呢? 看离圆形近期(K=1)的那个类型是什么,由图可知,离圆形近期的是三角形,故将新数据判定为属于三角形这个类别。 看离圆形近期的3个数据(K=3)的类型是什么,由图可知离圆形近期的三个中间有两个是矩形,一个是三角形,故将新数据判定为属于矩形这个类别。

图神经网络 | (6) 图分类(SAGPool)实战

落爺英雄遲暮 提交于 2020-02-04 02:28:00
近期买了一本图神经网络的入门书,最近几篇博客对书中的一些实战案例进行整理,具体的理论和原理部分可以自行查阅该书,该书购买链接: 《深入浅出的图神经网络》 。 该书配套代码 本节我们通过代码来实现基于自注意力的池化机制(Self-Attention Pooling)。来对图整体进行分类,之前我们是对节点分类,每个节点表示一条数据,学习节点的表示,进而完成分类,本节我们通过自注意力池化机制,得到整个图的表示,进而对全图进行分类(每个图表示一条数据)。 导入必要的包 import os import urllib import torch import torch.nn as nn import torch.nn.init as init import torch.nn.functional as F import torch.utils.data as data import torch.optim as optim import numpy as np import scipy.sparse as sp from zipfile import ZipFile from sklearn.model_selection import train_test_split import pickle import pandas as pd import torch_scatter #注意

统计学习方法笔记

烂漫一生 提交于 2020-02-03 03:33:55
统计学习方法概论 1.1 统计学习 统计学习 (statistics learning): 计算机 基于 数据 构建 概率统计模型 并运用 模型 对 数据 进行 预测与分析 。也称为 统计机器学习 (statistics machine learning)。 统计学习的特点: 以 计算机及网络 为平台,是建立在计算机及网络之上的; 以 数据 为研究对象,是数据驱动的学科; 目的是对 数据 进行 预测与分析 ; 统计学习以 方法 为中心,统计学习方法构建 模型 并应用模型进行预测与分析; 是 概率论、统计学、信息论、计算理论、最优化理论及计算机科学等 多个领域的交叉学科; // 现在我们所说的机器学习,往往是指 统计机器学习 。 统计学习的对象 数据(data) 。 首先呢,统计学习从数据出发,提取数据的特征,抽象出数据中的模型,发现数据中的知识,最终又回到对数据的分析预测中去。 其次,作为统计学习的对象,数据是多样的,它包括存在于计算机及网络上的各种 数字 、 文字 、 图像 、 视频 、 音频 数据以及它们的组合。 关于数据的基本假设: 同类数据具有一定的统计规律性。 (什么叫“同类数据”:具有某种共同性质的数据,比如英文文章,互联网网页,数据库中的数据等,它们具有统 计规律性 ,所以可以用 概率统计方法 来进行处理。比如,可以用随机变量描述数据中的特征