python机器学习

2020.3.30 机器学习概述

亡梦爱人 提交于 2020-04-01 11:30:24
1)贴上Python环境及pip list截图,了解一下大家的准备情况。暂不具备开发条件的请说明原因及打算。 2)贴上视频学习笔记,要求真实,不要抄袭,可以手写拍照。 3)什么是机器学习,有哪些分类?结合案例,写出你的理解。 1)python环境为:python3.7 pip list: 2) (1)机器学习概论: ①机器学习的基础需要数学分析和概率论基础。 ②机器学习是人工智能的一个分支。我们使用一个计算机设计出来的系统,通过训练数据并按照一定训练的方法,不断学习以及优化,达到一个能够预测信息的一个过程。 ③机器学习分类:有监督学习和无监督学习。 P1.33 预测推理方法。 ④通过模型得到预测,我们需要学习建模的过程,当然预测也重要。 ⑤机器学习的流程:数据收集,数据清洗,特征工程,数据建模 P1.47模型选择:决策数,回归,随机森林,SVM,聚类,高斯分布,EM算法。 ⑥高数知识: 微积分应用,泰勒公式,方向导数,梯度, F函数(伽马函数),凸函数(跟高数不一样的理解),(一阶可微函数,二阶可微函数,指数函数,幂函数,负对数函数,负熵函数) ⑦概率论知识:累计分布函数,概率密度函数,古典概型, (2)Python基础: Numpy库,数组的使用技巧: arange函数:指定起始值、终止值和步长来创建数组。 reahpe:可转为几行几列。 Ndarray函数

第一次作业 机器学习概述

 ̄綄美尐妖づ 提交于 2020-03-30 14:59:36
1) 贴上 Python环境及pip list截图,了解一下大家的准备情况。暂不具备开发条件的请说明原因及打算。 Python环境: pip list截图: 2) 贴上视频学习笔记,要求真实,不要抄袭,可以手写拍照。 P 1机器学习概论: 1 机器学习概念 2 学习分类 3 流程 4 示例 5 算法 P4python基础: 认真学习视频,学习绘图,画出高斯分布函数,损失函数。。。。下面是绘图的示例。 (1) 高斯分布函数 (2)损失函数 ( 3 ) x^x (4) 胸型线 (5)Bar (6) 心型线 (7) (8) 其他分布的中心极限定理 (9)三维 (10)暴力模拟,直接计算,严格计算。 还有很多的知识,在后续的学习中,再来回顾。 3)什么是机器学习,有哪些分类?结合案例,写出你的理解。 机器学习是人工智能的分支。我们使用的计算机计算机设计 -一个系统,使它能够根据提供的训练数据桉照一定的方式来学习;随着训练次数的增加,该系统可以在性能上不断学习和改进;通过参数优化的学习模型,能够用于预测相关问题的输出。和人类的学习方式差不多,只不过比人类学的量更多更快,机器学习不是仅输入规则和数据,它能够再规则的条件下再判断,再学习强化的。 目前机器学习主流分为: 监督学习 , 无监督学习 , 增强学习 。前面说了,机器学习和人类学习差不多,我们可以通过人类的学习来比拟机器学习。 监督学习:

机器学习/梯度下降算法

扶醉桌前 提交于 2020-03-29 12:34:31
当在现实生活中的遇到问题时,我们总是希望找到最佳的解决方案。制造软件产品也是一样的道理,最优化的程序才是最理想的产品。 最优化意味着获得最佳输出。它既是一个数学的重要分支,也在现实生活中有着重要的作用。现代的计算机科学和人工智能科学把最优化作为一个重要的领域来研究。我们也认为人工智能的一些算法,就是模拟了人类寻求实际问题最优解的过程。例如,利用人工智能算法设计软件,配合外部的电子设备例如摄像头识别人脸;利用数据挖掘和神经网络算法来寻找投资的最佳时机等等,都是利用了最优化的原理。 机器学习中的最优化和其他学科的应用比起来有轻微的差异。一般来说,在优化的同时,我们确切地知道数据的外观以及我们想要改进的地方。 但是在机器学习中,我们不知道“新数据”是怎么样的,更别提对其进行优化了。为了解决这个问题,在机器学习中,我们对训练数据(training data)执行优化,并检查由此新创造出的验证数据(validation data)。 最优化的广泛应用 机械学:设计航空航天产品的表面; 经济学:成本最小化; 物理学:量子计算中的优化时间; 决定最佳运输路线,货架空间优化等等。 许多流行的机器算法都依赖于线性回归,k最近邻,神经网络等技术。优化的应用是无限的,因此它成为了学术界和工业界广泛研究的课题。在本文中,我们将介绍一种称为梯度下降(Gradient Descent)的优化技术。

Python机器学习之TensorFlow

瘦欲@ 提交于 2020-03-26 17:23:01
(一)准备 TensorFlow官方网址:www.tensorflow.org GitHub网址:github.com/tensorflow/tensorflow 模型仓库网址:github.com/tensorflow/models 支持此语言:python,C++,Go, Java, 后端使用C++、CUDA 安装:pip install --upgrade tensorflow==1.14.0 (二)核心:  TensorFlow中的计算可以表示为一个有向图(Directed Graph),其中RNN是DAG  或者称计算图(Computation Graph)  其中每一个运算操作(operation)将作为一个节点(node)  计算图描述了数据的计算流程,也负责维护和更新状态  用户通过python,c++,go,Java语言设计这个这个数据计算的有向图  计算图中每一个节点可以有任意多个输入和任意多个输出  每一个节点描述了一种运算操作,节点可以算是运算操作的实例化(instance)  计算图中的边里面流动(flow)的数据被称为张量(tensor),故得名TensorFlow (三)代码流程 Import tensorflow as tf b = tf.Variable(tf.zeros([100])) #b为w0是一个向量 W = tf

人工智能、机器学习与实现框架 (python、tensorflow、

≯℡__Kan透↙ 提交于 2020-03-24 19:34:15
培训目标: 了解人工智能与机器学习知识体系 学习机器学习基础算法 学习 机器学习进阶算法 Python数据分析框架概览 演练 机器学习实战项目 了解深度学习基础 学习深度学习基本原理 进行深度学习模型原理解析 学习深度学习框架实践Tensorflow 学习使用 Keras 进行深度学习 人工智能初览 人工智能基本概念 人工智能的核心技术 人工智能的应用领域介绍 初探机器学习 1. 机器学习要解决的问题 有监督无监督问题 机器学习能做什么 机器学习算法概览 机器学习应用案例分析 特征提取 预处理,归一化 分类解决方案 聚类解决方案 机器学习实现与执行 结果分析 Python数据分析框架概览 1. NumPy数据结构与处理 Pandas数据组织与计算 Matplotlib数据可视化 机器学习案例实战与算法解析 线性回归实现销售数据预测 1. 线性回归介绍与公式推导 多变量线性归回与梯度下降 数据归一化与模型优化 线性回归预测销售数据 保存模型,欠拟合与过拟合 朴素贝叶斯实现文档分类 1. 概率基础 (联合概率、条件概率) 贝叶斯定律、分类算法 特征工程、TF-IDF与文档分类 多项分布与高斯分布 贝叶斯算法根据文档关键字实现分类 深度学习框架实践Tensorflow 1、 深度学习与机器学习区别介绍 2、 环境搭建、第一个案例 3、 张量、变量、操作 4、 会话与优化器 5、

机器学习:Python实现聚类算法(二)之AP算法

吃可爱长大的小学妹 提交于 2020-03-24 18:42:52
1.算法简介 AP(Affinity Propagation)通常被翻译为近邻传播算法或者亲和力传播算法,是在2007年的Science杂志上提出的一种新的聚类算法。AP算法的基本思想是将全部数据点都当作潜在的聚类中心(称之为exemplar),然后数据点两两之间连线构成一个网络(相似度矩阵),再通过网络中各条边的消息(responsibility和availability)传递计算出各样本的聚类中心。 2.相关概念(假如有数据点i和数据点j) (图1) (图2) (图3) 1)相似度: 点j作为点i的聚类中心的能力,记为S(i,j)。一般使用负的欧式距离,所以S(i,j)越大,表示两个点距离越近,相似度也就越高。使用负的欧式距离,相似度是对称的,如果采用其他算法,相似度可能就不是对称的。 2)相似度矩阵:N个点之间两两计算相似度,这些相似度就组成了相似度矩阵。如图1所示的黄色区域,就是一个5*5的相似度矩阵(N=5) 3) preference:指点i作为聚类中心的参考度(不能为0),取值为S对角线的值(图1红色标注部分),此值越大,最为聚类中心的可能性就越大。但是对角线的值为0,所以需要重新设置对角线的值,既可以根据实际情况设置不同的值,也可以设置成同一值。一般设置为S相似度值的中值。(有的说设置成S的最小值产生的聚类最少,但是在下面的算法中设置成中值产生的聚类是最少的) 4

python大战机器学习——模型评估、选择与验证

删除回忆录丶 提交于 2020-03-22 02:05:32
python大战机器学习——模型评估、选择与验证 1、损失函数和风险函数 (1)损失函数:常见的有 0-1损失函数 绝对损失函数 平方损失函数 对数损失函数 (2)风险函数:损失函数的期望 经验风险:模型在数据集T上的平均损失   根据大数定律,当N趋向于∞时,经验风险趋向于风险函数 2、模型评估方法 (1)训练误差与测试误差   训练误差:关于训练集的平均损失   测试误差:定义模型关于测试集的平均损失。其反映了学习方法对未知测试数据集的预测能力 (2)泛化误差:学到的模型对未知数据的预测能力。其越小,该模型越有效。泛化误差定义为所学习模型的期望风险 (3)过拟合:对已知数据预测得很好,对未知数据预测得很差的现象。原因是将训练样本本身的一些特点当做了所有潜在样本都具有的一般性质,这会造成泛化能力的下降。常用的防止过拟合的办法为正则化。正则化是基于结构化风险最小化策略的实现。 3、模型评估 (1)留出法:直接将数据划分为三个互斥的部分,然后在训练集上训练模型,在验证集上选择模型,最后用测试集上的误差作为泛化误差的估计。 (2)交叉验证法(S折交叉验证法):数据随机划分为S个互不相交且大小相同的子集,利用S-1个子集数据训练模型,利用余下的一个子集测试模型。对S种组合依次重复进行,获取测试误差的均值。 (3)留一法:留出一个样例作为测试集。其缺点就是当数据集比较大时计算量太大 (4

python机器学习工具包scikit-learn

不问归期 提交于 2020-03-21 23:43:12
scikit-learn 这个非常强大的python机器学习工具包 http://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html S1. 导入数据 大多数数据的格式都是M个N维向量,分为训练集和测试集。所以,知道如何导入向量(矩阵)数据是最为关键的一点。这里要用到numpy来协助。假设数据格式是: Stock prices indicator1 indicator2 2.0 123 1252 1.0 .. .. .. . . . 导入代码参考: import numpy as np f = open("filename.txt") f.readline() # skip the header data = np.loadtxt(f) X = data[:, 1:] # select columns 1 through end y = data[:, 0] # select column 0, the stock price libsvm格式的数据导入: >>> from sklearn.datasets import load_svmlight_file >>> X_train, y_train = load_svmlight_file("/path/to/train_dataset.txt") ...

资源 | 机器学习

泪湿孤枕 提交于 2020-03-21 10:09:17
目录 教程 课程 代码/项目 博客 教程 基础理论 Learning from data ,Yaser S. Abu-Mostafa, Malik Magdon-Ismail, and Hsuan-Tien Lin,中文译名《机器学习基石》,作者之一林轩田有公开课讲述此书内容; 机器学习 ,周志华,清华大学出版社;勘误信息见http://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/MLbook2016.htm 统计学习方法 ,李航,清华大学出版社,2019年5月出第二版了,加上了无监督学习的部分。Python代码实现https://github.com/fengdu78/lihang-code; 数据挖掘导论 ,Pang-Ning Tan等,人民邮电出版社; An Introduction to Statistical Learning ,PDF版本可以在 官网 下载, Elements of Statistical Learning , 中文翻译版 Pattern Recognition and Machine Learning (Information Science and Statistics), Christopher M. Bishop 凸优化 ,Stephen Boyd & Lieven Vandenberghe

python机器学习之KNN算法

跟風遠走 提交于 2020-03-20 23:30:22
K邻近算法(kNeighbrClassifier/KNN):原理为 欧几里得距离+最近+投票(权重)+概率    根据距离的远近进行分类   欧几里得距离:多维空间中各点之间的距离       缺点: 时间复杂度和空间 复杂度较大    注 意:当训练样本数据少的时候,样本比例一定要相同   KNN算法分类电影 import numpy import pandas #导入Excel文件 from sklearn.neighbors import KNeighborsClassifier #机器学习算法库,没有深度学习算法 movie=pandas.read_excel(r"D:\Python\代码\Machine-Learn\1-KNN\data\movie.xlsx",sheet_name=0) movie 电影名称 武打镜头 接吻镜头 分类情况 0 大话西游 36 1 动作片 1 杀破狼 43 2 动作片 2 前任3 0 10 爱情片 3 战狼2 59 1 动作片 4 泰坦尼克号 1 15 爱情片 5 新余心愿 2 19 爱情片 movie=pandas.read_excel(r"D:\Python\代码\Machine-Learn\1-KNN\data\movie.xlsx",sheet_name=0) x=movie[["武打镜头","接吻镜头"]]