特征向量

基于CNN的电影推荐系统

末鹿安然 提交于 2021-02-19 07:49:51
从深度学习卷积神经网络入手,基于 Github 的开源项目来完成 MovieLens 数据集的电影推荐系统。 什么是推荐系统呢? 什么是推荐系统呢?首先我们来看看几个常见的推荐场景。 如果你经常通过豆瓣电影评分来找电影,你会发现下图所示的推荐: 如果你喜欢购物,根据你的选择和购物行为,平台会给你推荐相似商品: 在互联网的很多场景下都可以看到推荐的影子。因为推荐可以帮助用户和商家满足不同的需求: 对用户而言:找到感兴趣的东西,帮助发现新鲜、有趣的事物。 对商家而言:提供个性化服务,提高信任度和粘性,增加营收。 常见的推荐系统主要包含两个方面的内容,基于用户的推荐系统(UserCF)和基于物品的推荐系统(ItemCF)。两者的区别在于,UserCF 给用户推荐那些和他有共同兴趣爱好的用户喜欢的商品,而 ItemCF 给用户推荐那些和他之前喜欢的商品类似的商品。这两种方式都会遭遇冷启动问题。 下面是 UserCF 和 ItemCF 的对比: CNN 是如何应用在文本处理上的? 提到卷积神经网络(CNN),相信大部分人首先想到的是图像分类,比如 MNIST 手写体识别,CAFRI10 图像分类。CNN 已经在图像识别方面取得了较大的成果,随着近几年的不断发展,在文本处理领域,基于文本挖掘的文本卷积神经网络被证明是有效的。 首先,来看看 CNN 是如何应用到 NLP 中的

使用PyTorch对音频进行分类

百般思念 提交于 2021-02-18 05:18:21
作者 | Aakash 来源 | Medium 编辑 | 代码医生团队 什么是分类问题? 对对象进行分类就是将其分配给特定的类别。这本质上是一个分类问题是什么,即将输入数据从一组这样的类别,也称为类分配到预定义的类别。 机器学习中的分类问题示例包括:识别手写数字,区分垃圾邮件和非垃圾邮件或 识别核中的不同蛋白质 。 https://www.kaggle.com/c/jovian-pytorch-z2g 使用的数据集 为了演示分类问题的工作原理,将使用 UrbanSound8K数据集 。该数据集包括 10 种类别的城市声音:空调,汽车喇叭,儿童游戏,狗吠,钻探, enginge_idling , gun_shot ,手提钻,警笛和 street_music 。 https://urbansounddataset.weebly.com/urbansound8k.html 目的是将数据提供给模型(目前可以将其视为黑匣子),并确定模型预测的准确性。 数据集的结构 该数据集可以作为压缩包使用,大小约为 5.6GB 。与某些机器学习数据集不同,此特定数据集中的音频数据与元数据文件夹一起存在于 10 个不同的文件夹中,元数据文件夹包含名为“ UrbanSound8K.csv ”的文件。 D:\DL\ZEROTOGANS\06-URBAN8K-CLASSIFICATION\DATA

机器学习-矩阵和线性代数-笔记

 ̄綄美尐妖づ 提交于 2021-02-18 01:53:23
关于奇异值分解具体的可以看看这篇博文 SVD   奇异值分解(Singular Value Decomposition)是一种重要的矩阵分解方法,可以看做对称方阵在任意矩阵上的推广。 假设A是一个m×n阶实矩阵,则存在一个分解使得:      通常将奇异值由大而小排列。这样,Σ便能由A唯一确定了。 与特征值、特征向量的概念相对应:   Σ对角线上的元素称为矩阵A的奇异值;   U的第i列称为A的关于σi的左奇异向量;   V的第i列称为A的关于σi的右奇异向量。 线性代数 定义:方阵的行列式   1 阶方阵的行列式为该元素本身   n 阶方阵的行列式等于它的任一行 或列 的各元素与其对应的代数余子式乘积之和。   1×1的方阵,其行列式等于该元素本身。        2×2的方阵,其行列式用主对角线元素乘积减去次对角线元素的乘积。             3×3的方阵:        根据“主对角线元素乘积减去次对角线元素的乘积”的原则,得:   在一个n阶行列式A中,把(i,j)元素aij所在的第i行和第j列划去后,留下的n-1阶方阵的行列式叫做元素a ij 的余子式,记作M ij 。   代数余子式:A ij =(-1) i+j M ij    伴随矩阵 对于n×n方阵的任意元素a ij 都有各自的代数余子式A ij =(-1) i+j M ij ,构造n×n的方阵A * :

Extracting, transforming and selecting features

让人想犯罪 __ 提交于 2021-02-17 17:59:38
This section covers algorithms for working with features, roughly divided into these groups 本节介绍使用功能的算法,大致分为以下几组: 提取: 从数据中抽取特征。 转变: Scaling, converting, or modifying features 选择: 在多个特征中挑选比较重要的特征。 局部敏感哈希(LSH): 这类算法将特征变换的各个方面与其他算法结合起来。 Table of Contents Feature Extractors 特征提取 TF-IDF Word2Vec CountVectorizer Feature Transformers 特征变换 Tokenizer 分词器 StopWordsRemover 停用字清除 n n -gram Binarizer 二元化方法 PCA 主成成分分析 PolynomialExpansion 多项式扩展 Discrete Cosine Transform (DCT-离散余弦变换) StringIndexer 字符串-索引变换 IndexToString 索引-字符串变换 OneHotEncoder 独热编码 VectorIndexer 向量类型索引化 Interaction Normalizer 范数p-norm规范化

目标检测之R-CNN系列

可紊 提交于 2021-02-11 20:39:54
Object Detection,在给定的图像中,找到目标图像的位置,并标注出来。 或者是,图像中有那些目标,目标的位置在那。这个目标,是限定在数据集中包含的目标种类,比如数据集中有两种目标:狗,猫。 就在图像找出来猫,狗的位置,并标注出来 是狗还是猫。 这就涉及到两个问题: 目标识别,识别出来目标是猫还是狗,Image Classification解决了图像的识别问题。 定位,找出来猫狗的位置。 R-CNN 2012年AlexNet在ImageNet举办的ILSVRC中大放异彩,R-CNN作者受此启发,尝试将AlexNet在图像分类上的能力迁移到PASCAL VOC的目标检测上。这就要解决两个问题: 如何利用卷积网络去目标定位 如何在小规模的数据集上训练出较好的网络模型。 对于问题,R-CNN利用候选区域的方法(Region Proposal),这也是该网络被称为R-CNN的原因:Regions with CNN features。对于小规模数据集的问题,R-CNN使用了微调的方法,利用AlexNet在ImageNet上预训练好的模型。 R-CNN目标检测的思路: 给定一张图片,从图片中选出2000个独立的候选区域(Region Proposal) 将每个候选区域输入到预训练好的AlexNet中,提取一个固定长度(4096)的特征向量 对每个目标(类别)训练一SVM分类器

matlab矩阵的操作

南楼画角 提交于 2021-02-10 20:52:56
特殊矩阵 通用型的特殊矩阵 zeros函数:产生全0矩阵,即零矩阵 ones函数:产生全1矩阵,即幺矩阵 eye函数: 产生对角线为1的矩阵。当矩阵是方阵时,得到一个单位矩阵。 rand函数:产生(0,1)区间均匀分布的随机矩阵 randn函数:产生均值为0,方差为1的标准正态分布随机矩阵。 以上函数三种调用格式 例: 产生m x m 零矩阵 :zeros(m) 产生m x n 零矩阵 :zeros(m,n) 产生与矩阵A同型的零矩阵 :zeros(sizeof(A)) 面向专门学科的特殊矩阵 1、 魔方矩阵:n阶魔方阵由1..n 2 共n 2 个整数组成,其每行每列及主、副对角线元素 之和都相等。当n>=2时,有多个不同的n阶魔方阵。 magic(n):产生一个特定(不是所有的)n阶的魔方阵 2、 范德蒙(Vandermonde的)矩阵(常用与通信编码纠错): vander(v)函数:生成以向量V为基础的范德蒙矩阵 3、 希尔伯特(Hilbert)矩阵:H( i , j )= 1/ (i+j-) Hilb(n)函数:生成n阶希尔伯特矩阵 4、 伴随矩阵(??): Compan(p)函数:求矩阵P的伴随矩阵 5、 帕斯卡矩阵:P( i , j )=p(i , j-1) + p(i-1,j) 且 p(i , 1)= p(1,j)=1 Pascal(n)函数:生成帕斯卡矩阵 矩阵变换

matlab考试重点详解

给你一囗甜甜゛ 提交于 2021-02-10 17:47:32
  此帖是根据期末考试复习重点补充完成, 由于使用word编辑引用图片和链接略有不便, 所以开此贴供复习及学习使用。侵删 复习要点 第一章 Matlab的基本概念,名称的来源,基本功能,帮助的使用方法 1.基本概念和名称来源: MATLAB [1] 是美国 MathWorks 公司出品的商业 数学软件 , 用于算法开发、数据可视化、数据分析以及 数值计算 的高级技术计算语言和交互式环境,主要包括MATLAB和Simulink两大部分。 MATLAB是matrix&laboratory两个词的 组合 ,意为矩阵工厂(矩阵实验室) 2.基本功能:   2.1数值计算和符号计算功能   MATLAB以矩阵作为数据操作的基本单位,还提供了十分丰富的数值计算函数。   2.2绘图功能,matlab提供了两个层次的绘图操作。一种是对图形句柄,进行底层绘图操作。另一种是建立在低层绘图操作之上的高层绘图操作。   2.3编程语言   MATLAB具有程序结构控制、函数调用、数据结构、输入输出、面向对象等程序语言特征,而且简单易学、编程效率高   2.4MATLAB工具箱   MATLAB包含两部分内容:基本部分和各种可选的工具箱。   MATLAB工具箱分为两大类:功能性工具箱和学科性工具箱。 3.帮助的使用方法   3.1 帮助命令   MATLAB帮助命令包括help命令和lookfor命令。

Paper Reading: Dynamic Routing Between Capsules (NIPS 2017)

允我心安 提交于 2021-02-10 07:29:02
capsule -> a group of neurons whose activity vector represents something. length of the activity vector represent the probability and orientation represent the instantiation parameters 可以把capsule里的特征理解成特征空间中的特征向量,长度代表显著性,方向代表各种特征 Active capsules at one level make predictions, via transformation matrices, for the instantiation parameters of higher-level capsules. 可以理解W权重,是从一个低维特征空间到高维特征空间的变换矩阵,通过这个矩阵,低层的特征可以对下一层的特征进行预测。 同时结合上一层低维特征的预测结果进行聚类,从而可以引起高维特征的激活。 Introduction capsule 的出发点还是基于人类的视觉系统,通常而言,人在看到一幅图像的时候是有着类似于 attention 机制的存在的,即只对部分区域仔细地观察,而对其他区域相对简略的获取信息。 但CNN明显不满足这样的机制,CNN 本身 权值共享

机器学习中的类别不均衡问题

北慕城南 提交于 2021-02-07 06:36:38
<br/> ##基础概念 类别不均衡是指在分类学习算法中,不同类别样本的比例相差悬殊,它会对算法的学习过程造成重大的干扰。比如在一个二分类的问题上,有1000个样本,其中5个正样本,995个负样本,在这种情况下,算法只需将所有的样本预测为负样本,那么它的精度也可以达到99.5%,虽然结果的精度很高,但它依然没有价值,因为这样的学习算法不能预测出正样本。这里我们可以知道不均衡问题会导致样本较少那一类的高错分率,即较少一类的样本会有较大的比例会被预测成样本数量较多的那一类。 <br/> ##解决方法 1、欠采样,减少数量较多那一类样本的数量,使得正负样本比例均衡。 2、过采样,增加数量较少那一类样本的数量,使得正负样本比例均衡。 3、不处理样本,样本分类阈值移动。 <br/> ##欠采样 <br/> ###随机欠采样 随机欠采样是指随机从多数类样本中抽取一部分数据进行删除,随机欠采样有一个很大的缺点是未考虑样本的分布情况,而采样过程又具有很大的随机性,可能会误删多数类样本中一些重要的信息。 <br/> ###EasyEnsemble 和 BalanceCascade EasyEnsemble是通过多次从多数类样本有放回的随机抽取一部分样本生成多个子数据集,将每个子集与少数类数据联合起来进行训练生成多个模型,然后集合多个模型的结果进行判断。这种方法看起来和随机森林的原理很相似。

同济版《线性代数》引发激烈争议

北战南征 提交于 2021-02-05 10:01:00
点击上方 SQL数据库开发 ,关注获取 SQL视频教程 SQL专栏 SQL基础知识汇总 SQL高级知识汇总 你的线性代数,过了没? 不论是结构力学还是人脸识别,理工类型的科研,深究之后就会发现到处都是线性代数的身影。这样一门课程,要是在大一的时候学不好,可是会要命的。 在国内上过大学的理科同学应该都见过《线性代数》(同济版),就算没有学过,也是听过它的大名。作为一名过来人,只能说,晦涩难懂,章节混杂... 即使不少 985、211 走过高考独木桥的学生,每到期末考试,也要默默祈祷不要挂科。现在想起一些内容:相似矩阵、线性变换、特征值、特征向量…… 真是一个头两个大。 作为一本大学教材,让学习者如此后怕,是该考虑一下教材问题了。如今已经毕业多年,没想到最近在知乎上看到一篇文章《《线性代数》(同济版)——教科书中的耻辱柱》,点赞量快突破五千。对于这篇文章,大家有时间可以读一下,看看是不是同意作者的观点。 线性代数真的很重要,这是很多工程技术人员走上工作岗位的最大感受。好多算法都用到线性代数的知识,就比如现在非常热门的深度学习,它的底层实现方式用到好多线性代数方面的知识。如果底层基础打不好,不明白其中的原理,算法实现方式真的很难理解,更不可能去创新了。好的教材才能起到事半功倍的效果。 目前这本教材已更新了好几版,每次更新的内容看起来也是无关紧要,如果有下次版本更新