scikit-learn

02-14 scikit-learn库之逻辑回归

蓝咒 提交于 2021-02-15 00:02:13
[TOC] 更新、更全的《机器学习》的更新网站,更有python、go、数据结构与算法、爬虫、人工智能教学等着你:<a target="_blank" href="https://www.cnblogs.com/nickchen121/p/11686958.html"> https://www.cnblogs.com/nickchen121/p/11686958.html </a> scikit-learn库之逻辑回归 相比较线性回归,由于逻辑回归的变种较少,因此scikit-learn库中的逻辑回归类就比较少,只有 LogisticRegression 、 LogisticRegressionCV 和 logistic_regression_path 。 接下来将会讨论这三者的区别,由于是从官方文档翻译而来,翻译会略有偏颇,有兴趣的也可以去scikit-learn官方文档查看 https://scikit-learn.org/stable/modules/classes.html#module-sklearn.linear_model ,需要注意逻辑回归和线性回归都在 sklearn.linear_model 包中。 一、LogisticRegression 1.1 使用场景 逻辑回归一般使用于分类场景,可以使用参数让普通的二元分类问题变成多分类问题。 1.2 代码 from

python sklearn2pmml

本秂侑毒 提交于 2021-02-14 15:38:01
问题导读 1.scikit-learn已经成为Python重要的机器学习库,那么如何将scikit-learn训练好的模型直接导出为PMML呢? 2.如何将原有pickle格式的模型文件转换为PMML? 综述 自2007年发布以来,scikit-learn已经成为Python重要的机器学习库了。scikit-learn简称sklearn,支持包括分类、回归、降维和聚类四大机器学习算法。还包含了特征提取、数据处理和模型评估三大模块。 sklearn拥有着完善的文档,上手容易,具有着丰富的API,在学术界颇受欢迎。sklearn已经封装了大量的机器学习算法,包括LIBSVM和LIBINEAR。同时sklearn内置了大量数据集,节省了获取和整理数据集的时间。 本文介绍了如何将sklearn中的模型导出为PMML文件,方便后续的工程上线操作,内容包括涉及环境的搭建和中间遇到的坑。 前置知识 Python 基本操作,会使用pip 或者Anaconda进行依赖库管理 Maven 基本操作 Java 命令基本操作 sklearn2pmml 使用sklearn2pmml 可以在python中,训练完模型之后,直接将模型导出为PMML文件。 软件版本 Python 2.7,3.4 或者更新。 scikit-learn 0.16.0 或者更新。 sklearn-pandas 0.0.10 或者更新。

自己动手写一个印钞机 第六章

纵然是瞬间 提交于 2021-02-13 16:40:06
作者:阿布🐶 未经本人允许禁止转载 ipython notebook git版本 目录章节地址: 自己动手写一个印钞机 第一章 自己动手写一个印钞机 第二章 自己动手写一个印钞机 第三章 自己动手写一个印钞机 第四章 自己动手写一个印钞机 第五章 自己动手写一个印钞机 第六章 自己动手写一个印钞机 第七章 简书目录章节地址: 自己动手写一个印钞机 第一章 自己动手写一个印钞机 第二章 自己动手写一个印钞机 第三章 自己动手写一个印钞机 第四章 自己动手写一个印钞机 第五章 自己动手写一个印钞机 第六章 自己动手写一个印钞机 第七章 自己动手写一个印钞机 附录章 股票量化专题地址,请关注,谢谢! 非均衡胜负收益带来的必然非均衡胜负比例,目标由因子的能力解决一部分,模式识别提升关键的一部分 上一章构造了 3个主裁和一个辅助裁判,这一章开始构建边裁及裁判的最优参数选择 fn = ZEnv.g_project_root + '/data/cache/orders_pd_ump_hit_predict_abu' key = 'orders_pd_ump_hit_predict_abu' orders_pd_ump = ZCommonUtil.load_hdf5(fn, key) orders_pd_ump.shape # out (47374, 39) UmpEdge 边裁 import

自己动手写一个印钞机 第三章

那年仲夏 提交于 2021-02-13 16:39:51
作者:阿布🐶 未经本人允许禁止转载 ipython notebook git版本 目录章节地址: 自己动手写一个印钞机 第一章 自己动手写一个印钞机 第二章 自己动手写一个印钞机 第三章 自己动手写一个印钞机 第四章 自己动手写一个印钞机 第五章 自己动手写一个印钞机 第六章 自己动手写一个印钞机 第七章 简书目录章节地址: 自己动手写一个印钞机 第一章 自己动手写一个印钞机 第二章 自己动手写一个印钞机 第三章 自己动手写一个印钞机 第四章 自己动手写一个印钞机 第五章 自己动手写一个印钞机 第六章 自己动手写一个印钞机 第七章 自己动手写一个印钞机 附录章 股票量化专题地址,请关注,谢谢! 非均衡胜负收益带来的必然非均衡胜负比例,目标由因子的能力解决一部分,模式识别提升关键的一部分 上一章使用机器学习的方法,想要提取特征,指导交易,提高胜率,但是发现,除了最后那种把交易结果分成100份的方式外,其它机器学习方法基本都是瞎猜,是不是使用深度学习就能解决问题呢?本章主要通过使用卷积神经网络模型alex_net, 与google_lenet对stock进行模式识别 加载缓存交易数据 # 从之前跑的结果hdf5中加载缓存 from MlFiterDegPd import MlFiterDegPdClass orders_pd_train_snap = ZCommonUtil.load

自己动手写一个印钞机 第四章

送分小仙女□ 提交于 2021-02-13 16:16:57
作者:阿布🐶 未经本人允许禁止转载 ipython notebook git版本 目录章节地址: 自己动手写一个印钞机 第一章 自己动手写一个印钞机 第二章 自己动手写一个印钞机 第三章 自己动手写一个印钞机 第四章 自己动手写一个印钞机 第五章 自己动手写一个印钞机 第六章 自己动手写一个印钞机 第七章 简书目录章节地址: 自己动手写一个印钞机 第一章 自己动手写一个印钞机 第二章 自己动手写一个印钞机 第三章 自己动手写一个印钞机 第四章 自己动手写一个印钞机 第五章 自己动手写一个印钞机 第六章 自己动手写一个印钞机 第七章 自己动手写一个印钞机 附录章 股票量化专题地址,请关注,谢谢! 非均衡胜负收益带来的必然非均衡胜负比例,目标由因子的能力解决一部分,模式识别提升关键的一部分 上一章使用 深度学习卷积神经网络对印钞机之路进行了可行性分析,主要是基于tensorflow的alex_net模型和基于caffe使用google_lenet进行训练学习, 这一章我们将从另一个方向发展印钞机之路,这条路是我最推荐的做法,因为使用深度学习特别是卷积神经网络, 它最后学习到的特征权重等等对我们都是一个黑盒,我们并不知道它到底学习到了什么特征,这些特征有什么特点,为什么它能指导我们的交易 ,而且训练时间与判定效率都不高,对密集型交易系不适用, 下面我们开始! 这章开始的主角就是gmm

Python之ML--数据预处理

丶灬走出姿态 提交于 2021-02-13 09:27:06
Python之ML–数据预处理 机器学习算法最终学习结果的优劣取决于两个主要因素:数据的质量和数据中蕴含的有用信息的数量.因此,在将数据集应用于学习算法之前,对其进行检验及预处理是至关重要的 主要知识点如下: 数据集中缺少数据的删除和填充 数据格式化 模型格式化 模型构建中的特征选择 一.缺少数据的处理 from IPython . display import Image 我们见到的缺失值是数据表中的空值,或者是类似于NaN(Not A Number,非数字)的占位符 我们通过一个CSV(comma-separed values)以逗号为分隔符的数值)文件构造一个简单的例子 import numpy as np import pandas as pd from io import StringIO csv_data = ''' A,B,C,D 1.0,2.0,3.0,4.0 5.0,6.0,,8.0 0.0,11.0,12.0, ''' df = pd . read_csv ( StringIO ( csv_data ) ) print ( df ) A B C D 0 1.0 2.0 3.0 4.0 1 5.0 6.0 NaN 8.0 2 0.0 11.0 12.0 NaN 有两个缺失值由NaN替代,StringIO函数在此仅起到演示作用

Python之数据分析工具包介绍以及安装【入门必学】

≯℡__Kan透↙ 提交于 2021-02-12 04:32:08
前言 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。 首先我们来看 Mac版 按照需求大家依次安装,如果你还没学到数据分析,建议你先学好Pytho基础和爬虫再来。可以去小编的Python交流.裙 :一久武其而而流一思(数字的谐音)转换下可以找到了,里面有最新Python教程项目 python3 -m pip install numpy python3 -m pip install --upgrade pip //依次安装 python3 -m pip install pandas python3 -m pip install wordcloud python3 -m pip install matplotlib python3 -m pip install scipy python3 -m pip install -U scikit-learn Matplotlib Matplotlib是Python的一个可视化模块,他能方便的只做线条图、饼图、柱状图以及其他专业图形。 如果看不懂,说明你基础还没学好后。可以去小编的Python交流.裙 :一久武其而而流一思(数字的谐音)转换下可以找到了,里面有最新Python教程项目,学好在看这篇 使用Matplotlib,可以定制所做图表的任一方面

How to write a scikit-learn estimator in PyTorch

若如初见. 提交于 2021-02-11 15:41:15
问题 I had developed an estimator in Scikit-learn but because of performance issues (both speed and memory usage) I am thinking of making the estimator to run using GPU. One way I can think of to do this is to write the estimator in PyTorch (so I can use GPU processing) and then use Google Colab to leverage on their cloud GPUs and memory capacity. What would be the best way to write an estimator which is already scikit-learn compatible in PyTorch? Any pointers or hints pointing to the right

How to write a scikit-learn estimator in PyTorch

我是研究僧i 提交于 2021-02-11 15:38:59
问题 I had developed an estimator in Scikit-learn but because of performance issues (both speed and memory usage) I am thinking of making the estimator to run using GPU. One way I can think of to do this is to write the estimator in PyTorch (so I can use GPU processing) and then use Google Colab to leverage on their cloud GPUs and memory capacity. What would be the best way to write an estimator which is already scikit-learn compatible in PyTorch? Any pointers or hints pointing to the right

confusion matrix and classification report of StratifiedKFold

折月煮酒 提交于 2021-02-11 15:33:03
问题 I am using StratifiedKFold to checking the performance of my classifier. I have two classes and I trying to build Logistic Regression classier. Here is my code skf = StratifiedKFold(n_splits=10, shuffle=True, random_state=0) for train_index, test_index in skf.split(x, y): x_train, x_test = x[train_index], x[test_index] y_train, y_test = y[train_index], y[test_index] tfidf = TfidfVectorizer() x_train = tfidf.fit_transform(x_train) x_test = tfidf.transform(x_test) clf = LogisticRegression(class