python机器学习

SQL Server 机器学习服务-概述与实战

烈酒焚心 提交于 2020-01-11 02:25:44
(本文2020年1月4日首发于 D-BI ) 前述 新年第一篇,去旧迎新。本文内容,既旧也新。旧之处在于, SQL Server 机器学习服务 是微软在SQL Server 2016 中就引入的新功能,但当时只支持R语言,所以也称为"R Server",在SQL Server 2017及后续版本中,提供了对Python的支持,因此,现称为"Machine Learning Services(机器学习服务)"的功能自发布至今为止已有两年多的时间,故而这并不算一个新功能。而新的地方在于,此功能自发布起国内资料极少,一方面使用较旧版本SQL Server的用户依然很多,另一方面是很多人对该功能缺乏了解,然而,机器学习算法可以对数据进行深度挖掘,这对企业BI智能化的意义非常大,将AI融入BI也是企业未来实现商业智能的大方向。 本文将首先讲述机器学习服务(以Python为例)的概念,意义以及其基本应用原理,简单讲讲它的安装和部署方面的相关问题,最后会提供一个教程讲解其具体的应用方法。 本文目录: 前述 什么是机器学习服务 为何要使用机器学习服务? 机器学习服务的运行原理 关于安装与部署 如何使用机器学习服务训练预测模型(Python) 总结 什么是机器学习服务? 机器学习服务是SQL Server中提供的一项新特性,它允许用户可以在SQL Server中

Python机器学习:泰坦尼克号获救预测一

让人想犯罪 __ 提交于 2020-01-10 09:50:59
数据集下载地址: https://github.com/fayduan/Kaggle_Titanic/blob/master/train.csv 视频地址: http://study.163.com/course/courseLearn.htm?courseId=1003551009#/learn/video?lessonId=1004052093&courseId=1003551009 一、项目概要 1、应用   模式识别、数据挖掘(核心)、统计学习、计算机视觉、语言识别、自然语言处理 2、模式、流程   训练样本 --> 特征提取 --> 学习函数 --> 预测 二、Python实践 1、应用的模块   Numpy:科学计算库   pandas:数据分析处理库   Matplotlib:数据可视化库   Scikit-learn:机器学习库 2、数据源处理 ① 导入数据:    1 #coding: utf-8 2 import pandas 3 titanic = pandas.read_csv('train.csv') ② 对缺失数据的列进行填充: 1 #对于缺失的数据进行补充 median 填充中位数 2 titanic['Age'] = titanic['Age'].fillna(titanic['Age'].median()) ③ 属性转换

机器学习(1)

感情迁移 提交于 2020-01-10 08:56:45
机器学习是人工智能中不可或缺的一部分,这篇随笔将记录这段时间学习机器学习的几点感悟,希望对以后的学习有所帮助。参考了以下几本书: 《机器学习》-周志华 《机器学习实践》-Peter Harrington 在这里我也发现了一篇很不错的文章 《从机器学习谈起》 ,生动有趣,可以加深大家对机器学习的认识。 第一章 机器学习基础 1.什么是机器学习? 机器学习就是把无序的数据转换成有用的信息。 机器学习方法是计算机利用已有的数据(经验),得出了某种模型,并利用此模型预测未来的一种方法。 一般来说,数据越多,最后机器学习生成的模型预测的效果越好。 机器学习的过程与人类对历史经验归纳的过程做个比对,如下图: 2.关键术语 特征: 下图测量的四个属性为特征,也可以成为属性。它们通常是训练样本集的列,他们是独立测量得到的结果,逗哥特征联系在一起共同组成一个训练样本。 分类: 机器学习的主要任务。这部分工作可以看成: 知识表示。 算法训练: 学习如何分类。通常为算法输入大量已分类数据作为算法的 训练集 。 通常建立两套独立的样本集: 训练数据和测试数据。 3.机器学习的主要任务 (1)监督学习(知道预测什么): 分类(将数据分到合适的分类) 回归 (用于测试数值型数据)eg:数据拟合曲线 (2)无监督学习(没有类别信息,也不会给定目标值): 聚类 密度估计(寻找描述数据统计值的过程) 4

01-机器学习基础

天涯浪子 提交于 2020-01-08 09:26:05
第1章 机器学习基础 机器学习 概述 机器学习(Machine Learning,ML) 是使用计算机来彰显数据背后的真实含义,它为了把无序的数据转换成有用的信息。是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。 海量的数据 获取有用的信息 机器学习 研究意义 机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。 “机器学习是对能通过经验自动改进的计算机算法的研究”。 “机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。” 一种经常引用的英文定义是:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

第一章:机器学习基础

∥☆過路亽.° 提交于 2020-01-08 04:23:38
第一部分:分类 本书前两部分主要探讨监督学习(supervisedieaming)。在监督学习的过程中,我们只需要给定 输入样本集 ,机器就可以从中推演出指定 目标变量 的可能结果。监督学习相对比较简单,机器只需从输入数据中 预测合适的模型 ,并从中 计算出目标变量的结果 。 监督学习一般使用两种类型的目标变量:标称型和数值型。标称型目标变量的结果只在有限目标集中取值,如真与假、动物分类集合{爬行类、鱼类、哺乳类、两栖类、植物、真菌};数值型目标变量则可以从无限的数值集合中取值,如0.100、42.001、000.743等。 数值型目标变量主要用于回归分析 ,将在本书的第二部分研究, 第一部分主要介绍分类 。 本书的前七章主要研究分类算法,第2 章讲述最简单的分类算法:k-近邻算法,它使用距离矩阵进行分类;第3 章引入了决策树,它比较直观,容易理解,但是相对难于实现;第4 章将讨论如何使用概率论建立分类器;第5 章将讨论Logistic 回归,如何使用最优参数正确地分类原始数据,在搜索最优参数的过程中,将使用几个经常用到的优化算法;第6 章介绍了非常流行的支持向量机;第一部分最后的第7 章将介绍元算法— AdaBoost, 它由若干个分类器构成,此外还总结了第一部分探讨的分类算法在实际使用中可能面对的非均衡分类问题,一旦训练样本某个分类的数据多于其他分类的数据

快速读懂机器学习(附送详细学习资源)

巧了我就是萌 提交于 2020-01-08 00:17:13
前言:   机器学习作为人工智能中的伟大分支,让我们先来聊聊人工智能把。现在人工智能已经非常普遍了,从之前的阿尔法狗到现在中国人工智能机器人解答北京高考数学卷 考了105分。以及2017.6.6的苹果WWDC大会上宣布开发机器学习API,苹果想通过借此之举,让更过苹果开发者用户开发出更过用户体验好的应用,人工智能的例子真是数不胜数,已经渗透到我们生活的各方各面,比较常见的比如金融以及医疗,而且之前看了一篇文章这样评价金融业:随着人工智能的发展与普遍,以后金融业对求职者的要求需要掌握人工智能相关知识来通过测试。好言归正传,我们来聊聊机器学习吧! 1. 什么是机器学习?   机器学习是人工智能的一个分支。人工智能的研究是从以“推理”为重点到以“知识”为重点,再到以“学习”为重点,一条自然、清晰的脉络。显然,机器学习是实现人工智能的一个途径,即以机器学习为手段解决人工智能中的问题. 简单来说就是机器通过分析大量数据来进行学习。 比如说,不需要通过编程来识别猫或人脸,它们可以通过使用图片来进行训练,从而归纳和识别特定的目标。 2. 机器学习主要涉及知识以及应用范围   机器学习在近30多年已发展为一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律

Python机器学习书-奠基之路

安稳与你 提交于 2020-01-07 08:42:49
来自百度百科: https://baike.baidu.com/item/Python%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/20499731?fr=aladdin 该书涵盖内容全面是一本很好的入门级图书。 《Python机器学习》是2017年 机械工业出版社 出版的图书,作者是塞巴斯蒂安·拉施卡(Sebastian Raschka) 作者:[美] 塞巴斯蒂安·拉施卡(Sebastian Raschka) 著 ISBN(书号):978-7-111-55880-4 丛书名:数据科学与工程技术丛书 出版日期:2017-03 版次:1/1 开本:16 定价:¥79.00 内容简介 本书将机器学习背后的基本理论与应用实践联系起来,通过这种方式让读者聚焦于如何正确地提出问题、解决问题。书中讲解了如何使用Python的核心元素以及强大的机器学习库,同时还展示了如何正确使用一系列统计模型。不管你是学习数据科学的初学者,还是想进一步拓展对数据科学领域的认知,本书都是一个重要且不可错过的资源,它能帮助你了解如何使用Python解决数据中的关键问题。 使用Python在深度学习、数据转换与数据可视化领域功能强大的开源库 学习关于提高机器学习系统与算法效率以及优化方面的有效策略和最佳实践 提出(并解决)数据方面的棘手问题,在大规模数据集基础上构建稳定的统计模型

python机器学习—语音性别识别代码详解(调参,预测)

随声附和 提交于 2020-01-07 03:15:40
本人机器学习的一个小作业,挺简单的。希望可以帮到一些入门的小伙伴,当个练手啦! 项目介绍,根据给定的特征来预测是女生还是男生 模型选择的是随机森林,训练集上准确率百分之百,验证集上百分之97.9。 代码分为训练模型(调参和训练)和使用模型进行预测,训练好模型后对新的数据进行的预测,并将预测的结果保存在了result.txt文件中。 软件:anaconda3—jupyter Notebook 用到的数据集 链接: https://pan.baidu.com/s/10LoGDcHDCnjNz4PQpli_Gg 提取码: s3eh 一.数据集介绍 首先介绍一下我所使用的数据集: 每条数据可视作一个长度为21的一维数组。 其中前20个数值是这条语音的20个特征值,这些特征值包括了语音信号的长度、基频、标准差等;最后一个数值是性别标记。用0表示男性、1表示女性。(如下图所示) train.csv 训练集2300条(用于模型训练,有标签) test.csv 测试集包含 800条(无标签) 二.代码 模型参数选择 随机森林的基评估器是决策树,单棵决策树的准确率越高,随机森林的准确 率也会越高,因为装袋法是依赖于平均值或者少数服从多数的原则来决定集成结 果的。但决策树很容易过拟合。所以根据参数对模型的影响大小,进行调参。 (1)调参,决策树个数的选取(画学习曲线) 结果

Python-机器学习小项目

守給你的承諾、 提交于 2020-01-06 10:05:43
原文地址: https://segmentfault.com/a/1190000017067753?utm_source=tag-newest 学习机器学习相关技术的最好方式就是先自己设计和完成一些小项目。 Python 是一种非常流行和强大的解释性编程语言。不像 R 语言,Python 是个很完整的语言和平台,你既可以用来做研发,也可以用来开发产品体系。 而且,Python 还有很多模块和程序库供我们选择,从而针对一个任务能有很多个解决方案。怎么样,听起来还是很厉害的吧? 如果用 Python 执行机器学习,刚开始时最好方式就是先完成一个小项目,为什么这么说呢? 因为这会让你先懂得如何安装和启动 Python 解释器(这是最起码的要求吧)。 因为这会让你从总体上知道怎样一步步完成一个项目。 因为这会增加你的信心,或许能让你开始创建自己的小项目。 新手很需要一个完整的小项目练手 教材书还有课程这些东西还是比较烦人的,虽然给你讲解的很细,讲的也很多,但都太零碎,你单靠这些很难领会这些知识点如何综合运用到一起。 将机器学习运用到自己的数据集上时,就算是开始一个项目了。 一个机器学习项目可能并不是直线式的,但是很多步骤都是耳熟能详: 定义问题。 准备数据。 评估算法。 优化结果。 呈现结果。 真正掌握一个新平台新工具的最好方法,就是用它一步步完成一个完整的机器学习项目

快速读懂机器学习(附送详细学习资源)

主宰稳场 提交于 2020-01-04 09:19:14
前言:   机器学习作为人工智能中的伟大分支,让我们先来聊聊人工智能把。现在人工智能已经非常普遍了,从之前的阿尔法狗到现在中国人工智能机器人解答北京高考数学卷 考了105分。以及2017.6.6的苹果WWDC大会上宣布开发机器学习API,苹果想通过借此之举,让更过苹果开发者用户开发出更过用户体验好的应用,人工智能的例子真是数不胜数,已经渗透到我们生活的各方各面,比较常见的比如金融以及医疗,而且之前看了一篇文章这样评价金融业:随着人工智能的发展与普遍,以后金融业对求职者的要求需要掌握人工智能相关知识来通过测试。好言归正传,我们来聊聊机器学习吧! 1. 什么是机器学习?   机器学习是人工智能的一个分支。人工智能的研究是从以“推理”为重点到以“知识”为重点,再到以“学习”为重点,一条自然、清晰的脉络。显然,机器学习是实现人工智能的一个途径,即以机器学习为手段解决人工智能中的问题. 简单来说就是机器通过分析大量数据来进行学习。 比如说,不需要通过编程来识别猫或人脸,它们可以通过使用图片来进行训练,从而归纳和识别特定的目标。 2. 机器学习主要涉及知识以及应用范围   机器学习在近30多年已发展为一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律