numpy

pandas必杀技能完结篇: 专治各种小白

百般思念 提交于 2021-02-14 23:21:38
(转载作者请注明出处) 废话不多说,直接上货.... 思想和方法才是灵魂 前期提要: Python | Pandas 快速处理文本数据 2020年数据分析必知必会(八):使用pandas查询数据和统计分析的应用(短小但强大) 2020年数据分析必知必会(七):pandas入门与数据结构基础 Pandas 是强大的开源数据分析和处理工具,建立在Python编程语言的基础上。 在本文中,我将展示有关 Pandas DataFrame的 相关技巧,以使得某些编程小白在实践的时候更容易一些。 由于这段时间以来, COVID-19 Data 库API出 现链接或者可能 屏蔽的情况 ,因此建议在GitHub手动下载数据集 开 本文分析的数据集为2020/07/10的数据集: https://github.com/CSSEGISandData/COVID-19/blob/master/csse_covid_19_data/csse_covid_19_daily_reports/07-10-2020.csv 1、pandas测试打印数据 使用 分组函数groupby reset_index重置index sum内部求和 源码如下: 打印csv文件中的所有数据: 打印指定的分组数据内容 打印指定分组数据 2、输出数据行列 输出csv文件中的列 输出其中的元素 输出csv文件数据的第一行

15分钟入门蒙特卡洛 Monte Carlo

落爺英雄遲暮 提交于 2021-02-14 02:31:00
↑↑↑点击上方 蓝字 ,回复 资料 ,10个G的惊喜 来自 | 知乎 作者 | 薛定豆 编辑 | 深度学习这件小事公众号 链接 | https://zhuanlan.zhihu.com/p/223042372 20世纪40年代,蒙特卡洛(Monte Carlo, 位于摩纳哥的赌城,如上图)方法由John von Neumann,Stanislaw Ulam和 Nicholas Metropolis 在 Los Alamos National Lab (LANL) 曼哈顿计划中,为模拟中子扩散发展出的一种统计方法。正如名字反映出的,蒙特卡洛方法本质上是跟赌博一样具有随机特性。 一、估计圆周率 的值 如果(x,y)是独立地从0到1之间均匀分布抽样出的一系列的数对number pair, 那么这些随机的位置坐标(x,y)落在1为半径圆弧内的概率应该是:四分之一圆的面积➗整个正方形的面积: 而因为(x,y) 是0到1的均匀分布,所以这个概率当抽样足够多的时候就等于红色的点数除以总共点数: 这样一来,只要采样足够多,就可以得到无限趋近于 的值。这个例子很好的体现了Monte Carlo(MC)方法的精神:利用随机分布的特性,大数次抽样得到准确的估计。换句话说,就是我猜,我猜地又多又均匀就基本上成功了! 二、估计定积分的值 微积分里我们学到,定积分(也就是曲线下的面积

自己动手写一个印钞机 第六章

纵然是瞬间 提交于 2021-02-13 16:40:06
作者:阿布🐶 未经本人允许禁止转载 ipython notebook git版本 目录章节地址: 自己动手写一个印钞机 第一章 自己动手写一个印钞机 第二章 自己动手写一个印钞机 第三章 自己动手写一个印钞机 第四章 自己动手写一个印钞机 第五章 自己动手写一个印钞机 第六章 自己动手写一个印钞机 第七章 简书目录章节地址: 自己动手写一个印钞机 第一章 自己动手写一个印钞机 第二章 自己动手写一个印钞机 第三章 自己动手写一个印钞机 第四章 自己动手写一个印钞机 第五章 自己动手写一个印钞机 第六章 自己动手写一个印钞机 第七章 自己动手写一个印钞机 附录章 股票量化专题地址,请关注,谢谢! 非均衡胜负收益带来的必然非均衡胜负比例,目标由因子的能力解决一部分,模式识别提升关键的一部分 上一章构造了 3个主裁和一个辅助裁判,这一章开始构建边裁及裁判的最优参数选择 fn = ZEnv.g_project_root + '/data/cache/orders_pd_ump_hit_predict_abu' key = 'orders_pd_ump_hit_predict_abu' orders_pd_ump = ZCommonUtil.load_hdf5(fn, key) orders_pd_ump.shape # out (47374, 39) UmpEdge 边裁 import

自己动手写一个印钞机 第二章

房东的猫 提交于 2021-02-13 16:39:34
作者:阿布🐶 未经本人允许禁止转载 ipython notebook git版本 目录章节地址: 自己动手写一个印钞机 第一章 自己动手写一个印钞机 第二章 自己动手写一个印钞机 第三章 自己动手写一个印钞机 第四章 自己动手写一个印钞机 第五章 自己动手写一个印钞机 第六章 自己动手写一个印钞机 第七章 简书目录章节地址: 自己动手写一个印钞机 第一章 自己动手写一个印钞机 第二章 自己动手写一个印钞机 第三章 自己动手写一个印钞机 第四章 自己动手写一个印钞机 第五章 自己动手写一个印钞机 第六章 自己动手写一个印钞机 第七章 自己动手写一个印钞机 附录章 股票量化专题地址,请关注,谢谢! 非均衡胜负收益带来的必然非均衡胜负比例,目标由因子的能力解决一部分,模式识别提升关键的一部分 本章开始说文章的核心了, 模式识别提升关键的一部分 本章的内容主要是通过机器学习如svm,随机森林等对stock模式识别的初步探索,俗称罪恶的第一步,但还是要坚定的卖出,毕竟目标是印钞机 下面运行因子对多年数据进行回测,模式识别中基本的需求就是生成训练集数据与测试集数据,对训练集的数据抽取特质,总结规律,在测试集上指导交易,与没有指导交易的测试集进行比对,查看效果。 BuyGoldenFactor.g_enable_filter_ml = True # 回测因子的历史且结果集加入机器学习需要的数据

自己动手写一个印钞机 第四章

送分小仙女□ 提交于 2021-02-13 16:16:57
作者:阿布🐶 未经本人允许禁止转载 ipython notebook git版本 目录章节地址: 自己动手写一个印钞机 第一章 自己动手写一个印钞机 第二章 自己动手写一个印钞机 第三章 自己动手写一个印钞机 第四章 自己动手写一个印钞机 第五章 自己动手写一个印钞机 第六章 自己动手写一个印钞机 第七章 简书目录章节地址: 自己动手写一个印钞机 第一章 自己动手写一个印钞机 第二章 自己动手写一个印钞机 第三章 自己动手写一个印钞机 第四章 自己动手写一个印钞机 第五章 自己动手写一个印钞机 第六章 自己动手写一个印钞机 第七章 自己动手写一个印钞机 附录章 股票量化专题地址,请关注,谢谢! 非均衡胜负收益带来的必然非均衡胜负比例,目标由因子的能力解决一部分,模式识别提升关键的一部分 上一章使用 深度学习卷积神经网络对印钞机之路进行了可行性分析,主要是基于tensorflow的alex_net模型和基于caffe使用google_lenet进行训练学习, 这一章我们将从另一个方向发展印钞机之路,这条路是我最推荐的做法,因为使用深度学习特别是卷积神经网络, 它最后学习到的特征权重等等对我们都是一个黑盒,我们并不知道它到底学习到了什么特征,这些特征有什么特点,为什么它能指导我们的交易 ,而且训练时间与判定效率都不高,对密集型交易系不适用, 下面我们开始! 这章开始的主角就是gmm

python数据预处理for knn

三世轮回 提交于 2021-02-13 08:46:45
机器学习实战 一书中第20页数据预处理,从文本中解析数据的程序。 1 import numpy as np 2 def dataPreProcessing(fileName): 3 with open(fileName) as op: 4 lines= op.readlines() 5 # 返回值是list 6 lineNumer= len(lines) 7 # list长度即文件中的行数 8 dataMatrix=np.zeros((lineNumer,3 )) 9 # 初始化lineNumer行,3列的全0矩阵,注意双层括号 10 labelVector= [] 11 # 标记向量初始化,它在目前是一个空的list 12 index= 0 13 # 索引,为了后面给数据矩阵和标记向量初始化用的 14 for line in lines: 15 line= line.strip() 16 # 去空格 17 temp=line.split( ' \t ' ) 18 # 按换行符分割数据,返回list 19 dataMatrix[index,:]=temp[0:3 ] 20 # 切片操作,dataMatrix[a,b:c]后的方括号中第一个值表示矩阵行号(从0开始) 21 # 第二、三个参数代表从b开始,c结束,前开后闭,包含b不包含c的元素 22 # temp中的两个参数同理 23

NLP任务中的文本预处理步骤、工具和示例

佐手、 提交于 2021-02-12 19:34:34
数据是新的石油,文本是我们需要更深入钻探的油井。 文本数据无处不在, 在实际使用之前,我们必须对其进行预处理,以使其适合我们的需求。对于数据也是如此,我们必须清理和预处理数据以符合我们的目的。这篇文章将包括一些简单的方法来清洗和预处理文本数据以进行文本分析任务。 我们将在Covid-19 Twitter数据集上对该方法进行建模。这种方法有3个主要组成部分: 首先,我们要清理和过滤所有非英语的推文/文本,因为我们希望数据保持一致。 其次,我们为复杂的文本数据创建一个简化的版本。 最后,我们将文本向量化并保存其嵌入以供将来分析。 第1部分:清理和过滤文本 首先,为了简化文本,我们要将文本标准化为仅为英文字符。此函数将删除所有非英语字符。 def clean_non_english(txt): txt = re.sub(r'\W+', ' ', txt) txt = txt.lower() txt = txt.replace("[^a-zA-Z]", " ") word_tokens = word_tokenize(txt) filtered_word = [w for w in word_tokens if all(ord(c) < 128 for c in w)] filtered_word = [w + " " for w in filtered_word] return ""

Python中数据的保存和读取

喜欢而已 提交于 2021-02-12 19:06:02
参考文献: https://www.cnblogs.com/Yiutto/p/5827775.html 在科学计算的过程中,往往需要保存一些数据,也经常需要把保存的这些数据加载到程序中,在 Matlab 中我们可以用 save 和 lood 函数很方便的实现。类似的在 Python 中,我们可以用 numpy.save() 和 numpy.load() 函数达到类似的效果,并且还可以用 scipy.io.savemat() 将数据保存为 .mat 格式,用scipy.io.loadmat() 读取 .mat 格式的数据,达到可以和 Matlab 或者Octave 进行数据互动的效果. 下面分别介绍之: numpy.save() 和 numpy.load() numpy.save(arg_1,arg_2) 需要两个参数,arg_1 是文件名,arg_2 是要保存的数组. 如: import numpy as np a=np.mat('1,2,3;4,5,6') b=np.array([[1,2,3],[4,5,6]]) np.save('a.npy',a) np.save('b.npy',b) 这个时候 Python 的当前工作路径下就会多出 a.npy 和 b.npy 两个文件,当然我们也可以给出具体的路径,如 np.save('D:/PythonWork/a.npy',a)

python实现KNN算法

百般思念 提交于 2021-02-12 11:52:17
from numpy import * import operator import numpy as np a = np.array([1,2,3,4,5,6]) print(a.shape) def knn(k,testdata,traindata,labels):#traindata训练数据集 labels标签 k代表取多少个 traindatasize = traindata.shape[0]#shape函数查看数组有多少行列 [0]查看的是行数 dif = tile(testdata,(traindatasize,1))-traindata#计算差值 tile将训练集与测试集转换成相同维度 sqdif = dif**2 #差值平方 sumsqdif = sqdif.sum(axis=1)#axis = 各行差值求和 distance = sumsqdif**0.5#开方求出距离 sortidstance = distance.argsort()#排序 count = {} for i in range(0,k):#经过k次循环 vote = labels[sortdistance[i]]#投票 每次取距离最小的 count[vote] = count.get(vote,0)+1 #计算最小值出现了多少次 sortcount = sorted(count.items()

kNN算法基本原理与Python代码实践

。_饼干妹妹 提交于 2021-02-12 11:29:34
 kNN是一种常见的监督学习方法。工作机制简单:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k各训练样本,然后基于这k个“邻居”的信息来进行预测,通常,在分类任务中可使用“投票法”,即选择这k个样本中出现最多的类别标记作为预测结果;在回归任务中可以使用“平均法”,即将这k个样本的实值输出标记的平均值作为预测结果;还可以基于距离远近进行加权平均或加权投票,距离越近的样本权重越大。[1]      kNN的伪代码如下:[2]          对未知类别属性的数据集中的每个点依次执行以下操作:          (1)计算已知类别数据集中的点与当前点之间的距离;          (2)按照距离递增次序排序;          (3)选取与当前点距离最小的k个点;          (4)确定前k个点所在类别的出现频率;           (5)返回前k个点出现频率最高的类别作为当前点的预测分类。      以下通过图来进一步解释:   假定要对紫色的点进行分类,现有红绿蓝三个类别。此处以k为7举例,即找出到紫色距离最近的7个点。 分别找出到紫色距离最近的7个点后,我们将这七个点分别称为1、2、3、4、5、6、7号小球。其中红色的有1、3两个小球,绿色有2、4、5、6四个小球,蓝色有7这一个小球。 显然,绿色小球的个数最多,则紫色小球应当归为绿色小球一类。