Apache Axis

sklearn-数据预处理scale

久未见 提交于 2021-02-02 06:03:59
python机器学习-乳腺癌细胞挖掘(博主亲自录制视频,包含数据预处理scale) https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share 数据预处理方法包括scale,normalization,Binarizer # -*- coding: utf-8 -*- """ Created on Sat Apr 14 09:09:41 2018 @author:Toby standardScaler==features with a mean=0 and variance=1 minMaxScaler==features in a 0 to 1 range normalizer==feature vector to a euclidean length=1 normalization bring the values of each feature vector on a common scale L1-least absolute deviations-sum of absolute values(on each row)=1;it is insensitive to

数据预处理 --Sklearn preprocessing的理解

天大地大妈咪最大 提交于 2021-02-02 05:59:09
一、标准化 API函数: scaler()或者StandardScaler()   数据集标准化对有些机器学习算法是很有必要的手段,只所以进行标准化,是因为两个原因:其一,对于同一特征中,最大最小值之差过大,将数据缩放在合适的范围,比如手机包月流量使用情况,有些数值是500M,有些是1G;其二、有些机器学习算法中目标函数的基础为假设特征均值为0,方差在同一介数的情况,sklearn官网说这类算法比如:SVM的RBF内核或线性模型的l1和l2正则化,如果某些特征的方差比其它的特征方差大几个数量级别,A方差是1,B特征方差是1000,那么会导致B特征对此算法占主导地位,导致学习器不是你所期望的结果。 标准化公式:(X - X_mean)/X_std; 计算时对每个属性/每列分别进行。 API函数一:sklearn.preprocessing.scale(X, axis= 0, with_mean= True,with_std= True,copy= True) 变量注解:   X:{array-like, sparse matrix}   axis:默认值为0,为0表示分别标准化每个特征(按列),为1表示对每个样本进行标准化(按行)   with_mean和with_std:分别表示数据均值规范为0,方差规范为1 用例: from sklearn import

04_data特征预处理 of 特征工程 【day1】

僤鯓⒐⒋嵵緔 提交于 2021-02-02 02:51:42
0、Xmind 1、data的特征预处理       1、what is 特征处理?   统计方法,要求的data    2、 特征预处理的方式    3、sklearn.preprocessing   there are all 预处理 method 2、归一化 1. what is 归一化?   原始data -----变换、映射----> [0,1] 2. 公式          计算过程           3. sklearn.preprocessing.MinMaxScalar   sklearn.preprocessing.MinMaxScalar                scalar缩放   语法      步骤       input:二维array  代码 from sklearn.preprocessing import MinMaxScaler # 归一化 def minmaxSclar(): """ 归一化处理 :return: None """ # mm = MinMaxScaler() mm = MinMaxScaler(feature_range=(2,3 )) data = mm.fit_transform([[90,2,10,40],[60,4,15,45],[75,3,13,46 ]]) print (data) if __name__

李宏毅 线性回归预测PM2.5

强颜欢笑 提交于 2021-02-02 02:06:40
作业说明   给定训练集train.csv,要求根据前9个小时的空气监测情况预测第10个小时的PM2.5含量。 训练集介绍:   (1):CSV文件,包含台湾丰原地区240天的气象观测资料(取每个月前20天的数据做训练集,12月X20天=240天,每月后10天数据用于测试,对学生不可见);   (2):每天的监测时间点为0时,1时......到23时,共24个时间节点;   (3):每天的检测指标包括CO、NO、PM2.5、PM10等气体浓度,是否降雨、刮风等气象信息,共计18项; (4):数据集 https://github.com/datawhalechina/leeml-notes/blob/master/docs/Homework/HW_1/Dataset 数据处理 【下文中提到的“数据帧”并非指pandas库中的数据结构DataFrame,而是指一个二维的数据包】 根据作业要求可知,需要用到连续9个时间点的气象观测数据,来预测第10个时间点的PM2.5含量。针对每一天来说,其包含的信息维度为(18,24)(18项指标,24个时间节点)。可以将0到8时的数据截 取出来,形成一个维度为(18,9)的数据帧,作为训练数据,将9时的PM2.5含量取出来,作为该训练数据对应的label;同理可取1到9时的数据作为训练用的数据帧,10时的PM2.5含量作为label......以此

高性能图表控件LightningChart有关轴标签、轴的精度问题解答

纵然是瞬间 提交于 2021-02-01 17:26:02
LightningChart.NET 完全由GPU加速,并且性能经过优化,可用于实时显示海量数据-超过10亿个数据点。 LightningChart包括广泛的2D,高级3D,Polar,Smith,3D饼/甜甜圈,地理地图和GIS图表以及适用于科学,工程,医学,航空,贸易,能源和其他领域的体绘制功能。 LightningChart.NET现已加入在线订购,SignalTools , 12 months, WPF版本原价4105元,现价只需3499元,现在抢购立享优惠!立即购买>> 点击下载LightningChart.NET最新试用版 如何自定义轴标签 如图所示添加轴标签。为什么最后一个坐标标签的可见属性设置为True,为什么它被隐藏。 有没有一种方法可以确保始终显示标签数组的第一个和最后一个标签。 有什么办法可以判断相邻坐标是否重叠 回复: 可以测量标签的大小并将其与可用空间进行比较。所需文本空间的大小可以使用_chart.MeasureText(Text,Font)进行测量。[请注意,Chart.MeasureText(Text,Font)以DIP单位输出;在需要的地方使用DpiHelper.DipToPx()。PX中的最大轴和最小轴之间的间距可以通过以下方法测量(axisX.ValueToCoord(axisX.Maximum,false)-axisX

Py之seaborn:数据可视化seaborn库的柱状图、箱线图(置信区间图)、散点图/折线图、核密度图/等高线图、盒形图/小提琴图/LV多框图的简介、使用方法之最强攻略(建议收藏)

烂漫一生 提交于 2021-02-01 10:50:45
Py之seaborn:数据可视化seaborn库的柱状图、箱线图(置信区间图)、散点图/折线图、核密度图/等高线图、盒形图/小提琴图/LV多框图的简介、使用方法之最强攻略(建议收藏) 导读 :数据可视化是以客观数据为主体,从数据角度窥探这个世界;目的是描述真实,洞察未知;从浩如烟海的复杂数据中理出头绪,化繁为简,变成看得见的财富, 要让行动的决策人在短时间内看得懂 ,从而实现更高效的决策。它主要是借助于图形化手段,清晰有效地传达与沟通信息。但是,这并不就意味着数据可视化就一定因为要实现其功能用途而令人感到枯燥乏味,或者是为了看上去绚丽多彩而显得极端复杂。为了有效地传达思想概念,美学形式与功能需要齐头并进,通过直观地传达关键的方面与特征,从而实现对于相当稀疏而又复杂的数据集的深入洞察。 目录 一、如何选择图表类型? 二、seaborn库中单独绘图的11种函数讲解:数据可视化Seaborn库的柱状图、箱线图(置信区间图)、散点图/折线图、核密度图/等高线图、盒形图/小提琴图/LV多框图的简介、使用方法之最强攻略(建议收藏) 1、countplot函数:柱状图(类别特征计算重复个数) 2、catplot函数:柱状图、箱型图(置信区间)、散点图、小提琴图等 (1)、CatPlotByG (2)、CatPlotByHG 3、barplot函数:条形图可视化 (1)、BarPlot (2)

ggplot2|玩转Manhattan图-你有被要求这么画吗?

▼魔方 西西 提交于 2021-01-25 02:02:57
Manhattan图算是GWAS分析的标配图了,可参考 Bio|manhattan图 进行绘制。 由于Manhattan点太多,后期AI/PS修改的话难度有点大,如果可以“个性化”绘制的话那是极好的! 一 载入R包,数据 1)载入数据处理的tidyverse包,使用qqman中gwasResults示例数据集 #载入R包 #install.packages("qqman") library ( qqman ) library ( tidyverse ) #查看原始数据 head ( gwasResults ) SNP CHR BP P 1 rs1 1 1 0.9148060 2 rs2 1 2 0.9370754 3 rs3 1 3 0.2861395 4 rs4 1 4 0.8304476 5 rs5 1 5 0.6417455 6 rs6 1 6 0.5190959 我们知道Manhattan图实际就是点图,横坐标是chr,纵坐标是-log(Pvalue) ,原始P值越小,-log转化后的值越大,在图中就越高。 原始数据中重要的“元素”都有了 ,我们自己的数据也是只需要这四列就可以了。注意绘制前需要转化一下: 2)处理原始数据---计算SNP的累计位置 # 1)计算chr长度 chr_len <- gwasResults %>% group_by ( CHR ) %>%

ggplot2|玩转Manhattan图-你有被要求这么画吗?

我们两清 提交于 2021-01-24 20:59:38
本文首发于“生信补给站”,ggplot2|玩转Manhattan图-你有被要求这么画吗? 更多关于R语言,ggplot2绘图,生信分析的内容,敬请关注小号。 Manhattan图算是GWAS分析的标配图了,可参考 Bio|manhattan图 进行绘制。 由于Manhattan点太多,后期AI/PS修改的话难度有点大,如果可以“个性化”绘制的话那是极好的! 一 载入R包,数据 1)载入数据处理的tidyverse包,使用qqman中gwasResults示例数据集 #载入R包 #install.packages("qqman") library ( qqman ) library ( tidyverse ) #查看原始数据 head ( gwasResults ) SNP CHR BP P 1 rs1 1 1 0.9148060 2 rs2 1 2 0.9370754 3 rs3 1 3 0.2861395 4 rs4 1 4 0.8304476 5 rs5 1 5 0.6417455 6 rs6 1 6 0.5190959 我们知道Manhattan图实际就是点图,横坐标是chr,纵坐标是-log(Pvalue) ,原始P值越小,-log转化后的值越大,在图中就越高。 原始数据中重要的“元素”都有了 ,我们自己的数据也是只需要这四列就可以了。注意绘制前需要转化一下: 2

(转)matplotlib实战

删除回忆录丶 提交于 2021-01-24 13:04:45
原文: https://www.cnblogs.com/ws0751/p/8361330.html https://www.cnblogs.com/ws0751/p/8313017.html --- matplotlib常用操作2 https://www.cnblogs.com/ws0751/p/8312980.html --- matplotlib 常用操作 https://blog.csdn.net/u014453898/article/details/73395522 ----python3 的 matplotlib绘图库的使用 plt.imshow(face_image.mean(axis=2),cmap='gray') 图片灰度处理 ¶ size = (m,n,3) 图片的一般形式就是这样的 rgb 0-255 jpg图片 166,255,89 0.0-1.0 png图片 0.1,0.2,0.6 灰度处理以后 rgb---->gray 166,255,89 ---> 190 0.1,0.2,0.6 -- > 0.4 size = (m,n) import scipy.misc as misc import numpy as np import pandas as pd from pandas import Series,DataFrame import

Python数据结构大结局:DataFrame

廉价感情. 提交于 2021-01-20 09:08:32
前一篇文章提到了 序列 ,可以理解为Excel里没有列名的一列数据,那么Excel里的由行列组成的表数据是如何对应到Python中的呢? 就是今天要说的数据框: DataFrame 。 它是由一组数据和一对索引(行索引和列索引)组成的二维数据结构,可以看成Excel里的表格,与Series不同的是,DataFrame可以有多行/列数据。 1.建 首先要导入pandas模块,简写为pd。 In [ 1 ]: import pandas as pd 从列表中创建DataFrame # 从列表中创建 list1 = [2,5,8,10] df_l = pd.DataFrame(list1) df_l 结果: image 这里传入的是一个单一的列表,得到的是带有行列索引的一列数据, 行索引用index 表示,就是这里最前面竖着的那一列[0,1,2,3],相当于Excel里的第一列, 列索引用columns 表示,相当于Excel里的第一行,由于没有指定索引,因此都是默认从0开始递增的索引,这里横排第一行就是列索引,除去行列索引,中间的区域为 values:值区域 。 image 从字典中创建 # 从字典中创建 dict1 = { "name" :[ "Tony" , "Nancy" , "Judy" , "Cindy" ], "age" :[16,17,18,15], "sex" :[