机器学习

MySQL 查询结果保存为CSV文件

馋奶兔 提交于 2021-02-12 09:16:31
点击上方“ IT共享之家 ”,进行关注 回复“ 资料 ”可获赠IT学习福利 MySQL支持将查询结果直接导出为文本格式,格式如下: into outfile ‘导出的目录和文件名’ 指定导出的目录和文件名 fields terminated by ‘字段间分隔符’ 定义字段间的分隔符 optionally enclosed by ‘字段包围符’ 定义包围字段的字符(数值型字段无效) lines terminated by ‘行间分隔符’ 定义每行的分隔符 举个栗子: select * from [表名] where [字段名] = '条件' into outfile 'c:/test.csv' fields terminated by ',' optionally enclosed by '"' lines terminated by '\r\n' ; 执行后,会把指定表中记录数据导出到c:/test.csv文件中。每个字段以,(逗号)分隔,字段内容是字符串的以”(双引号)包围,每条记录使用\r\n换行。如图所示 如果导出的过程中出现: the MySQL server is running with the -- secure - file - priv option so it cannot execute this statement 首先了解一下secure-file

李宏毅老师机器学习课程笔记_ML Lecture 2: Where does the error come from?

混江龙づ霸主 提交于 2021-02-12 04:39:45
####引言: 最近开始学习“机器学习”,早就听说祖国宝岛的李宏毅老师的大名,一直没有时间看他的系列课程。今天听了一课,感觉非常棒,通俗易懂,而又能够抓住重点,中间还能加上一些很有趣的例子加深学生的印象。 视频链接(bilibili): 李宏毅机器学习(2017) 另外已经有有心的同学做了速记并更新在github上: 李宏毅机器学习笔记(LeeML-Notes) 所以,接下来我的笔记只记录一些我自己的总结和听课当时的困惑,如果有能够帮我解答的朋友也请多多指教。 ###一、误差来自哪里?该如何处理这些误差? 从第一课可以知道,越复杂的模型并不一定会带来越低的误差(error)。误差来自两方面: 偏差(bias) 方差(variance) 如果可以诊断误差的来源,就可以选择适当的方法来改进自己的模型。 看到这里我有一些困惑,误差、偏差、方差听起来太像了,到底有什么区别呢? 【此处与机器学习无关:图1真的挺难得,不知不觉有一种管理方面感触的代入感,左上角图表示好的领导(战略决策层)与好的员工(战术执行层)的配合,右上角图表示好的领导(战略决策层)与差的员工(战术执行层)的配合,左下角图表示差的领导(战略决策层)与好的员工(战术执行层)的配合,右下角图表示差的领导(战略决策层)与差的员工(战术执行层)的配合。从这方面可以看出,一个好的战略决策有多么重要!】 简单的模型(如一次方程

机器学习小白必知必会

依然范特西╮ 提交于 2021-02-12 04:22:41
机器学习是一门多领域交叉学科,需要很多知识储备。 对于机器学习,很多人也只是一知半解,想要知其然、究其实,但是面对各种各样的书籍、文章却无从下手,摸不清门路。 小白该具备哪些知识点呢? 01 概念初识 机器学习领域内有很多专业术语,如繁星一般,穿插在各种技术文档、文献、书籍等资料中。学习机器学习的第一步就是了解这些专业术语,能够“读懂”各类文档。下面是一些比较常见的概念和定义: 实例: 表示具体的一件事物,可以是一本书,一只鸟等等,实例具有诸多属性,比如鸟的羽毛颜色、翅膀长度、鸟喙形状等等,我们可以凭借这些属性来判断鸟属于什么种类。 标签: 标签表示我们所关注的实例的“结果”或者“类型”,它是机器学习系统中预测的结果,或者是训练数据中所标识的正确答案。比如一本书可能是中文图书,也可能是外文图书,这就是这本书的标签或者说分类。 属性: 属性表示实例本身所具有的特性,实例与属性密不可分。实例往往具有很多属性,而在机器学习过程中,我们只关注对实例打标签有意义的属性。比如在判断书属于什么种类时,很明显出版时间这一属性对我们做决策并没有太大意义。 样本: 样本代表实例和实例标签的结合,用于模型训练和效果测试。在模型训练过程中,我们用大量实例的属性值(或特征)以及标签去调节模型中的参数,在测试阶段,使用训练好的模型输入实例的属性值,将模型的预测结果与对应实例的标签做对比。 大数据:

特征工程系列:特征预处理(下)

这一生的挚爱 提交于 2021-02-11 19:21:51
特征工程系列:特征预处理(下) 本文为数据茶水间群友原创,经授权在本公众号发表。 关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问、动手达人,期待与大家一起交流探讨机器学习相关内容~ 0x00 前言 数据预处理包含数据探索、数据清洗和特征预处理三部分,《 特征工程系列:特征预处理(上) 》介绍了无量纲化和特征分桶相关的处理方法,本章将继续介绍特征预处理中的统计变换和类别特征编码相关内容。 0x01 统计变换 数据分布的倾斜有很多负面的影响。我们可以使用特征工程技巧,利用统计或数学变换来减轻数据分布倾斜的影响。使原本密集的区间的值尽可能的分散,原本分散的区间的值尽量的聚合。 这些变换函数都属于幂变换函数簇,通常用来创建单调的数据变换。它们的主要作用在于它能帮助稳定方差,始终保持分布接近于正态分布并使得数据与分布的平均值无关。 1.Log变换 1)定义 Log变换通常用来创建单调的数据变换。它的主要作用在于帮助稳定方差,始终保持分布接近于正态分布并使得数据与分布的平均值无关。 Log 变换属于幂变换函数簇。该函数用数学表达式表示为 自然对数使用 b=e,e=2.71828,通常叫作欧拉常数。你可以使用通常在十进制系统中使用的 b=10 作为底数。 当应用于倾斜分布时 Log 变换是很有用的,因为Log变换倾向于拉伸那些落在较低的幅度范围内自变量值的范围

基于Faster R-CNN的安全帽目标检测

独自空忆成欢 提交于 2021-02-11 19:19:58
向AI转型的程序员都关注了这个号 👇👇👇 机器学习AI算法工程 公众号:datayx 训练模型前的准备 A.数据准备 数据的标注仍然采用VOC格式的数据标注形式,如果是其他的标注形式比如COCO请自行实现相关代码。将数据最终转化为如下形式: path_filename, x1, y1, x2, y2, class_name 格式说明 代码及运行教程,数据集 获取: 关注微信公众号 datayx 然后回复 安全帽 即可获取。 AI项目体验地址 https://loveai.tech 可以运行如下代码实现数据集的准备工作: python3 ./data/data_pro.py 将在 ./data 文件夹下生成 annotation.txt 文件,这样训练数据的准备工作即完成。 B.配置文件准备 根据自己的训练集和训练任务修改 ./keras_frcnn/config.py 的配置文件,相关参数的解释和配置如下: 训练模型 预训练模型的下载地址:https://github.com/fchollet/deep-learning-models Shell下运行: python3 train_frcnn.py --path="./data/annotation.txt" --network="vgg" --input_weight_path="./pre_train/vgg16

32篇深度学习与遥感论文推荐

血红的双手。 提交于 2021-02-11 17:26:03
深度学习与遥感论文推荐 期刊论文推荐 1. Yuan, Q., Shen, H., Li, T., Li, Z., Li, S., Jiang, Y., … Zhang, L. ( 2020 ). Deep learning in environmental remote sensing: Achievements and challenges. Remote Sensing of Environment , 241, 111716. 2. Cunha, R. L. F. and Silva, B.: ESTIMATING CROP YIELDS WITH REMOTE SENSING AND DEEP LEARNING, ( 2020 ), ISPRS Ann. Photogramm. Remote Sens. Spatial Inf. Sci ., IV-3/W2-2020, 59–64. 3. Mohan, A., Singh, A. K., Kumar, B., & Dwivedi, R. ( 2020 ). Review on remote sensing methods for landslide detection using machine and deep learning. Transactions on Emerging Telecommunications

机器学习-贝叶斯数据集

隐身守侯 提交于 2021-02-11 15:24:24
#朴素贝叶斯定力 import numpy as np import pandas as pd import matplotlib from matplotlib import pyplot as plt %matplotlib inline matplotlib.rcParams['font.sans-serif'] = ['SimHei'] data = pd.read_csv('./010-data_multivar.csv',header=None) #拆分数据 dataset_X,dataset_y = data.iloc[:,:-1],data.iloc[:,-1] # print(dataset_X.head()) dataset_X = dataset_X.values dataset_y = dataset_y.values # print(dataset_y) #将标签去重 classes = list(set(dataset_y)) print(classes) #数据集可视化 def visual_2D_dataset(dataset_X,dataset_y): '''将二维数据集dataset_X和对应的类别dataset_y显示在散点图中''' assert dataset_X.shape[1]==2,'only support dataset with

Factorization Machine模型的各种变式

江枫思渺然 提交于 2021-02-11 13:56:15
关注“ AI科技时讯 ” 设为星标,第一时间获取更多干货 FM模型最早由Steffen Rendle在2010年提出,解决了稀疏数据场景下的特征组合问题,在广告、推荐等领域被广泛使用。FM模型简单而且效果好,可以作为业务初期快速取得收益,为后续持续迭代提供一个较强的baseline。FM模型从首次提出到现在已经过去七八年时间,这期间的研究进展如何呢?比如: FM类模型有哪些改进? 哪些模型或者应用引入了FM思想? 近期的顶会针对FM有哪些改进工作? 工业界大规模数据场景下如何分布式训练FM模型? 这一连串的问题代表了学术界和工业界对FM模型关于如何优化和实际应用的深入思考。带着这些问题,下文中笔者根据自己的理解将从不同方面对FM模型的演进进行介绍。文中涉及到的公式进行统一表示来方便读者理解,并为读者提供了参考文献的链接。 一、区别特征交互作用 这部分模型的演进思路就是根据假设来增加参数量(即模型复杂度)来提高模型表达能力。FFM模型参数量太大,一则容易过拟合,二则不利于线上大规模部署(内存压力)。笔者更倾向于Field-weighted FM,简单有效,在效果和实际应用上做了很好的tradeoff。 FM 文章链接:csie.ntu.edu.tw/~b97053 Field-aware FM 文章链接:csie.ntu.edu.tw/~r01922 FM中一个特征只对应一个向量

李宏毅机器学习笔记6:Why deep、Semi-supervised

我与影子孤独终老i 提交于 2021-02-11 13:38:47
李宏毅老师的机器学习课程和吴恩达老师的机器学习课程都是都是ML和DL非常好的入门资料,在YouTube、网易云课堂、B站都能观看到相应的课程视频,接下来这一系列的博客我都将记录老师上课的笔记以及自己对这些知识内容的理解与补充。(本笔记配合李宏毅老师的视频一起使用效果更佳!) Lecture 8:Why deep? 1.Shallow network VS Deep network 在比较浅层网络与深层网络时,要让“矮胖”的网络和“高瘦”的网络的参数数目相等,这样比较才公平,如下图所示 比较结果如下图所示: 从上图可以看出:即便是在深层网络参数较少的情况下,深层网络也会比浅层网络表现好。 这是因为 “深层”其实相当于“模组化” ,第一个隐层是最基本的分类器,第二个隐层是用第一个隐层建造的分类器,以此类推。 2.模组化(Modularization) (1)举个图像识别的例子,识别长发男生、长发女生、短发男生和短发女生,如下,由于长发男生样本少,所以模型训练出来的效果对测试集上的长发男生效果会比较差(样本不平衡) 因此接下来让我们使用模组化的思想解决这一问题,我们先考虑识别基础类别(男女、长发短发),即我们先input一张图片,识别这是长发还是短发,这是男还是女,此时样本比例是相当的,由此训练的效果不会变差,且由两个基础类别的组合可以得到最终的四个类别。

论文速览|有论文开始关注你的取消关注行为了(清华AAAI20)

做~自己de王妃 提交于 2021-02-11 13:38:28
Title: Mining Unfollow Behavior in Large-Scale Online Social Networks via Spatial-Temporal Interaction Paper: https://www.aaai.org/ojs/index.php/AAAI/article/view/5358 GitHub: https://github.com/wuhaozhe/Unfollow-Prediction 来源: AAAI 20 机构: 清华大学 在线社交网络(OSN)通过两种普遍的行为来发展:关注和取消关注,分别表示建立关系和解除关系。社会网络演化研究主要着重于关注行为,而取消关注行为在很大程度上被忽略了。挖掘取消关注行为具有挑战性,因为用户对取消关注行为的决定不仅受到用户属性(例如信息和互惠)的简单组合的影响,但也受他们之间复杂的交互作用的影响。同时,先前的数据集很少包含足够的记录来推断这种复杂的相互作用。为了解决这些问题,我们首先构建一个大规模的真实世界的微博数据集,记录了180万中国用户的详细帖子内容和关系动态。 接下来,我们将用户的属性定义为两类:空间属性(例如,用户的社会角色)和时间属性(例如,用户的帖子内容)。利用构建的数据集,我们系统地研究了用户的空间和时间属性之间的交互作用如何导致取消关注行为。之后,我们提出了UMHI