分类数据

使用机器学习做文本分类知识点总结

孤街浪徒 提交于 2020-01-01 02:04:02
文本分类主要流程 获取数据集 使用爬虫从网上获取。 下载某些网站整理好的数据集。 公司内部数据资源。 数据预处理 数据预处理是按照需求将数据整理出不同的分类,分类预测的源头是经过预处理的数据,所以数据预处理非常重要,会影响到后期文本分类的好坏。 预处理主要分为以下几个步骤: 将数据集按类别做好不同分类 将分类好的数据集分为训练集和测试集 去除数据集中的空字段或对空字段添加标识 对文本进行分词 1. 加载自己需要的分词词典和停用词(使后期模型更加简单、准确) 2. 去除无用的字符符号 3. 进行分词 特征提取 对于文本分类的特征提取目前主要有Bag of Words(词袋法)、TfIdf、Word2Vec、Doc2Vec。 词袋法介绍 对于每一个训练文本,它只考虑每种词汇在该训练文本中出现的频率。没有考虑到单词的顺序,忽略了单词的语义信息。 TfIdf算法介绍 除了考量某词汇在文本出现的频率,还关注包含这个词汇的所有文本的数量,能够削减高频没有意义的词汇出现带来的影响,挖掘更有意义的特征,相对词袋法来说,文本条目越多,Tfidf的效果会越显著。缺点也是没有考虑到单词的顺序。 Word2Vec算法介绍 Word2Vec的优点就是考虑了一个句子中词与词之间的关系,关于两个词的关系亲疏,word2vec从两个角度去考虑。第一,如果两个词意思比较相近,那么他们的向量夹角或者距离

数据挖掘试题(150道)

a 夏天 提交于 2020-01-01 00:29:43
单选题 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 以下两种描述分别对应哪两种对分类算法的评价标准? (A) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision, Recall B. Recall, Precision A. Precision, ROC D. Recall, ROC 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?© A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 什么是KDD? (A) A. 数据挖掘与知识发现 B. 领域知识发现 C. 文档知识发现 D. 动态知识发现 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则

微信扫物上线,全面揭秘扫一扫背后的识物技术!

孤街浪徒 提交于 2019-12-30 16:21:17
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 导语| 12月23 日,微信扫物 iOS 版本正式上线。从识别特定编码形态的图片,到精准识别自然场景中商品图片,有哪些难点需要去克服? 扫物以图片作为媒介,聚合微信内部有价值的生态内容如电商,百科,资讯进行展示, 会催生哪些新的落地场景?本文将细细道来。 作者| breezecheng,腾讯 WXG 应用研究员 编辑| sukeli、尾尾 微信长期招收计算机视觉和OCR方向的人才, 欢迎简历breezecheng@tencent.com ​一. 扫一扫识物概述 1.1 扫一扫识物是做什么的? 扫一扫识物是指以图片或者视频(商品图:鞋子/箱包/美妆/服装/家电/玩具/图书/食品/珠宝/家具/其他商品)作为输入媒介来挖掘微信内容生态中有价值的信息(电商+百科+资讯,如图 1 所示),并展示给用户。这里我们基本覆盖了微信全量优质小程序电商涵盖上亿商品 SKU,可以支持用户货比 N 家并直接下单购买,百科和资讯则是聚合了微信内的搜一搜、搜狗、百度等头部媒体,向用户展示和分享与该拍摄商品相关的资讯内容。 图1 扫一扫识物功能示意图 百闻不如一试,欢迎大家更新 iOS 新版本微信 → 扫一扫 → 识物自行体验,也欢迎大家通过识物界面中的反馈按键向我们提交体验反馈。图 2 即为扫物实拍展示。 扫一扫识物实拍展示 1.2

NoSQL概述

耗尽温柔 提交于 2019-12-30 01:38:19
NoSql数据库四大分类 键值存储 列存储 文档数据库 图形数据库 NoSQL的特点 易扩展 灵活的数据模型 大数据量,高性能 高可用 Redis 读10w/s 写8w/s Redis的应用场景 缓存 任务队列 网站访问统计 应用排行榜 数据过期处理 分布式集群架构中的session分离 来源: https://www.cnblogs.com/Roni-i/p/10802222.html

SAP财务凭证概念

风格不统一 提交于 2019-12-29 02:01:22
Accounting Documents会计凭证 SAP系统在数据处理,无论是业务处理,还是财务处理都会产生大量的凭证,无论是什么凭证,最终的反映形式就是会计凭证。 1.凭证原则Code 每笔记账都一直以凭证形式存储,每一凭证都作为前后一致的单位保留在系统中,直至将它归档。唯有完整凭证可以计入SAP系统;“完整”是指借贷余额为零。 其近一步的条件是完整、准确输入系统配置时定义为“必输(Required)”的字段。保存凭证或者进入不同凭证项目时,系统自动根据配置检查必输项目是 否已经输入或者是否按照标准输入,并发出适当的提示信息,拒绝进行下一步动作,如果输入错误的话。 2.凭证结构Structures 每张凭证都有一个凭证抬头(Document Header)和两个以上的行项目(Document Items)组成。 凭证抬头——对整个凭证有效的信息,例如四个日期、文本摘要、凭证类型等等。 行项目(Line Items)——仅仅包含特定项目的信息,如记账码、科目编码、金额、税码、成本对象等有科目、记账码等配置综合决定的信息。 3.凭证特征Features 凭证的基本特征包括子分类帐/总分类帐一体化、自动记账、跨公司代码业务(Across Company Code)。 子分类帐/总分类账一体化 FI-AR应收帐款和FI总分类帐、FI-AP应付账款和FI总分类帐、FI

从负无穷学习机器学习(三)朴素贝叶斯

别来无恙 提交于 2019-12-28 19:46:20
一、朴素贝叶斯介绍 朴素贝叶斯是一种基于贝叶斯理论的有效监督学习算法,之所以称之为”朴素“,是因为它是基于样本特征之间互相独立的”朴素”假设。 正因如此,不需要考虑样本特征之间的关系,贝叶斯分类器的效率非常高。 朴素贝叶斯有三种方法: 伯努利朴素贝叶斯(Bernoulli Naive Bayes) 高斯贝叶斯(Gaussian Naive Bayes) 多项式贝叶斯(Multinomial Naive Bayes) # 导入numpy import numpy as np # 将X,y赋值为np数组 导入数据 X = np . array ( [ [ 0 , 1 , 0 , 1 ] , [ 1 , 1 , 1 , 0 ] , [ 0 , 1 , 1 , 0 ] , [ 0 , 0 , 0 , 1 ] , [ 0 , 1 , 1 , 0 ] , [ 0 , 1 , 0 , 1 ] , [ 1 , 0 , 0 , 1 ] ] ) y = np . array ( [ 0 , 1 , 1 , 0 , 1 , 0 , 0 ] ) # 对不同分类计算每个特征为1的数量 counts = { } for label in np . unique ( y ) : counts [ label ] = X [ y == label ] . sum ( axis = 0 ) # 打印计数结果

深度学习-最优化笔记

徘徊边缘 提交于 2019-12-27 17:29:29
作者:杜客 链接:https://zhuanlan.zhihu.com/p/21360434 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 译者注:本文 智能单元 首发,译自斯坦福CS231n课程笔记 Optimization Note ,课程教师 Andrej Karpathy 授权翻译。本篇教程由 杜客 翻译完成, 堃堃 和 李艺颖 进行校对修改。译文含公式和代码,建议PC端阅读。 原文如下 内容列表: 简介 损失函数可视化 最优化 策略#1:随机搜索 策略#2:随机局部搜索 策略#3:跟随梯度 译者注:上篇截止处 梯度计算 使用有限差值进行数值计算 微分计算梯度 梯度下降 小结 简介 在上一节中,我们介绍了图像分类任务中的两个关键部分: 基于参数的 评分函数。 该函数将原始图像像素映射为分类评分值(例如:一个线性函数)。 损失函数 。该函数能够根据分类评分和训练集图像数据实际分类的一致性,衡量某个具体参数集的质量好坏。损失函数有多种版本和不同的实现方式(例如:Softmax或SVM)。 上节中,线性函数的形式是 ,而SVM实现的公式是: 对于图像数据 ,如果基于参数集 做出的分类预测与真实情况比较一致,那么计算出来的损失值 就很低。现在介绍第三个,也是最后一个关键部分: 最优化Optimization

人工智能基础知识总结

旧城冷巷雨未停 提交于 2019-12-26 22:50:12
目录 本文是对人工智能基础的期末复习知识总结。 一、绪论 什么是人工智能? 从模拟人的角度来说,可以通过 认知建模 的过程让机器学会像人一样思考,可以以 通过图灵测试 为目标让机器具有和人一样的行为;而让机器模拟人并不是我们的目的,这里学习人工智能的是让机器具备理性(rationality),指的是通过 思维法则 的途径让机器学汇理性的思考,通过 理性Agent 的构造让机器具有理性的行为。这是四个维度不同层面的解释。 发展历史就不谈了,整体上是以十年为一个周期的发展态势,没意思。 什么是图灵测试? 图灵测试由Alan Turing在1950年提出,内容可以简单描述为,由一个人类询问者提出一些 书面问题 之后,无法判断 书面回答 是来自计算机还是人类,就说这台计算机通过了图灵测试。图灵测试是一个至今仍合适的测试,人工智能的研究者并没有一直致力于让计算机通过图灵测试,研究智能的基本原理比复制人类智能或让计算机模拟人更加重要。 人工智能的研究范围有哪些? 知识表示(语义网络等)、搜索技术(博弈树搜索等)、非经典逻辑&非经典推理(时序逻辑等&类比推理等)、机器学习(统计学习等)、自然语言理解(语法学等)、知识工程(专家系统等)、定理机器证明(归纳法等)、人工生命(细胞自动机等)、机器人(传感器数据融合等)、AI语言(Lisp/Prolog等)。 二、Agent 什么是Agent?

【机器学习】(二)模型评估与选择

↘锁芯ラ 提交于 2019-12-26 09:30:05
误差与过拟合 误差 假设m个样本中有a个样本分类错误 错误率(error rate):分类错误的样本数占样本总数的比例,E=a/m 精度(accuracy):分类正确的样本数占样本总数的比例,1-a/m 精度=1-错误率 误差(error):学习器的实际预测输出与样本的真实输出之间的差异 学习器在训练集上的误差称为 训练误差 (training error)/ 经验误差 (empirical error) 学习器在新样本上的误差称为 泛化误差 (generalization error) 机器学习的目标是得到泛化误差小的学习器,但是实际能做的是努力使经验误差最小化 过拟合与欠拟合 当学习器把训练样本学得太好的时候,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降。这种现象在机器学习中称为 过拟合 (overfitting)。与过拟合相对的是 欠拟合 (underfitting),这是指对训练样本的一般性质尚未学好。 过拟合是机器学习中的 关键障碍 评估方法 通常,通过实验测试来对学习器的泛化误差进行评估。为此,需使用一个 测试集 (testing set)来测试学习器对新样本的判别能力,然后以测试集上的 测试误差 (testing error)作为泛化误差的近似。 通常我们假设测试样本也是从样本真实分布中独立同分布采样而得

使用JDBC完成分类表CRUD的操作

本秂侑毒 提交于 2019-12-26 05:31:30
工具类 通过之前的案例回顾,不难发现,有很多的代码操作是重复的,比如“获取链接”和“释放资源”等,将来在增删改查中经常遇到,开发中遇到这种情况,将采用工具类的方法进行抽取,从而达到代码的重复利用。 此处使用V1版本,之后还有替他版本。 获取链接 /** * 获取连接方法 * * @return */ public static Connection getConnection() { Connection conn = null; try { Class.forName("com.mysql.jdbc.Driver"); conn = DriverManager.getConnection("jdbc:mysql://localhost:3306/web08", "root", "root"); } catch (Exception e) { e.printStackTrace(); } return conn; } View Code 释放资源 public static void release(Connection conn, PreparedStatement pstmt, ResultSet rs) { if (rs != null) { try { rs.close(); } catch (SQLException e) { e.printStackTrace(); }