因子分析

支持向量机SVM

泄露秘密 提交于 2019-12-04 09:02:35
svm简介 支持向量机(support vector machines)是一种二分类模型,它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,最终转化为一个凸二次规划问题来求解。由简至繁的模型包括: 当训练样本线性可分时,通过硬间隔最大化,学习一个线性可分支持向量机; 当训练样本近似线性可分时,通过软间隔最大化,学习一个线性支持向量机; 当训练样本线性不可分时,通过核技巧和软间隔最大化,学习一个非线性支持向量机; 1、间隔最大化和支持向量 如果一个线性函数能够将样本分开,称这些数据样本是线性可分的。那么什么是线性函数呢?其实很简单,在二维空间中就是一条直线,在三维空间中就是一个平面,以此类推,如果不考虑空间维数, 这样的线性函数统称为超平面。我们看一个简单的二维空间的例子,O代表正类,X代表负类,样本是线性可分的,但是很显然不只有这一条直线可以将样本分开,而是有无数条, 我们所说的线性可分支持向量机就对应着能将数据正确划分并且间隔最大的直线。 这篇博客的第一层便介绍了SVM的基础 简单的SVM程序实现 1 from sklearn import svm 2 x = [[3, 3], [4, 3], [1, 1]] 3 y = [1, 1, -1] 4 5 model = svm.SVC(kernel='linear') 6 model.fit(x,y) 7 print

网络权重初始化方法总结(上):梯度消失、梯度爆炸与不良的初始化

杀马特。学长 韩版系。学妹 提交于 2019-12-03 22:41:27
目录 前向传播与反向传播回顾 梯度消失与梯度爆炸 激活函数的影响 权重矩阵的影响 不良初始化 参考 博客: blog.shinelee.me | 博客园 | CSDN 前向传播与反向传播回顾 神经网络的训练过程可以简化成以下步骤, 输入预处理(feature scaling等) 初始化网络weight和bias 前向传播,得到网络输出 计算损失函数,得到当前损失 反向传播,根据链式法则,逐层回传得到损失函数对当前参数的偏导,根据梯度下降算法对当前参数进行更新 重复步骤3 4 5,直到损失不再减小,即收敛 一个简单的前向传播和反向传播的示意图如下,线性组合和非线性激活交替进行,线性组合层可以为全连接层或卷积层等,图片来自 链接 , 梯度下降算法的参数更新公式为, \[ W(t+1)=W(t)-\eta \frac{d C}{d W} \] 其中 \(C=J(W)\) 为损失函数,即通过参数的偏导对参数进行更新。反向传播时,由链式法则,偏导反向回传,逐层计算损失函数对当前参数的偏导。对某个参数的偏导为一串因子的乘积,因子依次为损失函数对网络输出的偏导、激活函数的偏导、线性组合的偏导、激活函数的偏导、线性组合的偏导……如下面所示(来自 链接 ),这里,损失为二分之LMS,用 \(C\) 表示, \(z\) 为线性组合的输出(激活层的输入), \(a\) 为激活层的输出(线性组合的输入),

R语言函数总结

匿名 (未验证) 提交于 2019-12-03 00:32:02
R语言与 数据挖掘:公式;数据;方法 R语言特征 对大小写敏感 通常,数字,字母,. 和 _都是允许的(在一些国家还包括重音字母)。不过,一个命名必须以 . 或者字母开头,并且如果以 . 开头,第二个字符不允许是数字。 基本命令要么是表达式(expressions)要么就是 赋值(assignments)。 命令可以被 (;)隔开,或者另起一行。 基本命令可以通过大括弧({和}) 放在一起构成一个复合表达式(compound expression)。 一行中,从井号(#)开始到句子收尾之间的语句就是是注释。 R是动态类型、强类型的语言。 R的基本数据类型有数值型(numeric)、字符型(character)、复数型(complex)和逻辑型(logical),对象类型有向量、因子、数组、矩阵、数据框、列表、时间序列。 基础指令 程序辅助性操作: 运行 q()――退出R程序 tab――自动补全 ctrl+L――清空console ESC――中断当前计算 调试查错 browser() 和 debug()―― 设置断点进行,运行到此可以进行浏览查看(具体调试看browser()帮助文档(c,n,Q)) stop('your message here.')――输入参数不正确时,停止程序执行 cat()――查看变量? 帮助 help(solve) 和 ?solve 等同 ??solve―

多项式求导--设计思路

匿名 (未验证) 提交于 2019-12-02 23:47:01
需要完成的任务为包含简单幂函数和简单正余弦函数的导函数的求解。 本次多项式求导具体包括以下 因子 : 常数因子:包含一个带符号整数,-002; 幂函数因子: x 、 x^-3; 表达式因子: (表达式); 三角函数因子:sin(因子) 、cos(因子) ^2. 因子组合成 项 :因子[*因子]; 项组合成为 表达式 :项[±项]; 要对输入的表达式进行解析,输出对应的导函数。 采用递归下降进行语法分析的思路,按照“表达式――>项――>因子”的顺序,将表达式分解到可以直接求得导数的因子,再逐层将因子的导数返回并组合成项和表达式的导数。 流程图如下: 将输入作为第一个表达式: 并输出该表达式的导函数作为最终结果。 表达式类进行解析拆分出项,项拆分出因子: 因子对象中进行语法分析,提取出第一个因子并返回解析进度给项对象。 特别地,在 表达式因子 解析时会新建一个表达式对象以分析括号内的内容: 与之相似,解析 三角函数因子 时括号内的因子部分也会新建一个因子对象进行解析: 当一个项对其下的因子解析完成时,会得到该项的导函数: 运用该求导公式结合各因子的内容和导函数即可: 当一个表达式中的项都解析完成,表达式的导函数也将可求得: 将各项的导函数与其前面的'+'或'-'号连接即可。

sSD

ε祈祈猫儿з 提交于 2019-12-02 06:50:41
论文笔记—Linguistic Features Identify Alzheimer's Disease in Narrative Speech 作者:Kathleen C. Fraser, Jed A. Meltzer and Frank Rudzicz 单位:University of Toronto 出版时间:2015 出版刊物:Journal of Alzheimer’s Disease 1. Introduction (1)人口老龄化社会,AD的发生率不断增加; (2)口语代表着一个人的认知状态,对口语进行手工量化分析很费时间,且受到人的主观影响; (3)计算语言学的发展使自动分析口语和书面语来区分AD患者和正常人成为可能,甚至疾病的具体种类; (4)内侧颞叶导致的记忆损伤是AD患者的独有特征,但语言问题也是另一大特征; (5)AD患者经常表现出命名障碍,随着疾病的发展,语言的所有方面都会受到影响,从语义到语法,再到音韵学; (6)目标一:使用机器学习方法测试口语样本的分类精度; (7)目标二:使用探索性因子分析法分析AD患者语言损伤的异质性; (8)与前人工作的不同之处:使用了更大的样本;使用了更多的特征;使用因子分析法刻画异质性的模式; 2. Materials and Methods 2.1 Materails (1)数据集:pitt corpus (2

潜在因子算法-网易云音乐

家住魔仙堡 提交于 2019-12-01 13:24:43
《数学之美》(书籍推荐) 网易云音乐的歌单推荐算法(自认为是灵魂之处,其他不觉得),在此本书中说到类似问题, 书中提到矩阵运算和文本处理中的分类问题(后文复制处)。 网易云音乐的歌单推荐算法(转自知乎): 潜在因子(Latent Factor)算法。这种算法是在NetFlix(没错,就是用大数据捧火《纸牌屋》的那家公司)的推荐算法竞赛中获奖的算法,最早被应用于电影推荐中。这种算法在实际应用中比现在排名第一的 @邰原朗 所介绍的算法误差(RMSE)会小不少,效率更高。我下面仅利用基础的矩阵知识来介绍下这种算法。 这种算法的思想是这样:每个用户( user )都有自己的偏好,比如A喜欢带有 小清新的 、 吉他伴奏的 、 王菲 等元素( latent factor ),如果一首歌( item )带有这些元素,那么就将这首歌推荐给该用户,也就是用元素去连接用户和音乐。每个人对不同的元素偏好不同,而每首歌包含的元素也不一样。我们希望能找到这样两个矩阵: 一, 用户-潜在因子矩阵Q ,表示不同的用户对于不用元素的偏好程度,1代表很喜欢,0代表不喜欢。比如下面这样: 二, 潜在因子-音乐矩阵P ,表示每种音乐含有各种元素的成分,比如下表中,音乐A是一个偏小清新的音乐,含有小清新这个Latent Factor的成分是0.9,重口味的成分是0.1,优雅的成分是0.2…… 利用这两个矩阵

AVL树详解与总结

那年仲夏 提交于 2019-11-29 21:10:49
前言: 什么叫做AVL树? AVL树的定义: 1、AVL的左右子树高度之差的绝对值不超过1; 2、树中的左右子树都为AVL树 3、平衡因子只能是(-1、0、1) AVL树的效率 AVL树的总共节点为N个,他的高度能搞保持在logN,插入、删除、查找等操作的时间复杂度也是logN。 AVL树的实现: 1、AVL树的插入: 思路分析:1> 既然是插入就需要先找到插入的位置,使用while循环遍历找到插入位置 2> 找到插入位置以后直接插入,然后向上遍历修改父节点的平衡因子,当修改完以后的平衡因子有等于2或者-2的挑出来,进行树的旋转,并且调整平衡因子,使满足AVL树的定义。 3> 旋转过程中需要考虑是左旋转、右旋转、左右旋转、还是右左旋转。左右旋转简单,直接调用自己编写的左右旋转函数即可,只要传过来的节点记得加上引用就行了,这样能够直接连接到旋转后的子树。重点在于左右和右左旋转,我们是否能直接调用左旋转函数和右旋转函数各一次?答案是否定的,因为在旋转的过程中,不是在插入的那个位置进行旋转,而是在中间进行旋转,这是后父亲节点和祖父节点的平衡因子BF就需要自己手动来定义了。以右左旋转来分析: 如果当前节点的平衡因子为-1,那么他的parent应该为1,pparent应该为0; 如果当前节点的平衡因子为1,那么他的parent应该为0,pparent应该为-1; 如果当前节点的平衡因子为0

实现有序排列的多空均衡权益策略

本秂侑毒 提交于 2019-11-29 19:03:22
在上一篇文章中(https://www.fmz.com/digest-topic/4187),我们介绍了配对交易策略,并演示了如何利用数据和数学分析来创建和自动化交易策略。多空均衡权益策略是适用于一篮子交易标的的配对交易策略的自然延伸。其特别适用于品种众多且有相互关联性的交易市场,比如数字货币市场和商品期货市场。 基本原则 多空均衡权益策略是同时做多和做空一篮子交易标的。就像配对交易一样,确定哪种投资标的价格便宜,哪种投资标的价格昂贵.不同的是,多空均衡权益策略会将所有投资标的排在一个选股池中,以确定哪些投资标的相对便宜或者昂贵。然后,它将基于排名做多头部前n个投资标的,并且以等金额做空底部n个投资标的(多头头寸的总值=空头头寸的总值)。 还记得我们之前说配对交易是一个市场中立的策略吗?多空均衡权益策略也是如此,因为多头和空头头寸等额确保策略将保持市场中性(不受市场波动影响)。该策略在统计上也很稳健;通过对投资标的进行排名并持有多个头寸,你可以对你的排名模型进行多次开仓,而不仅仅是一次性风险开仓。你纯粹押注的只有你排名方案的质量。 什么是排名方案? 排名方案是可以根据预期的表现为每个投资标的分配优先级的模型。其中的因子可以是价值因子,技术指标,定价模型或上述所有因子的组合。例如,你可以使用动量指标对一系列趋势跟踪投资标的进行排名

从模型到应用,一文读懂因子分解机

拈花ヽ惹草 提交于 2019-11-29 07:49:19
作者丨gongyouliu 编辑丨Zandy 来源 | 大数据与人工智能(ID: ai-big-data) 作者在上篇文章中讲解了《 矩阵分解推荐算法 》,我们知道了矩阵分解是一类高效的嵌入算法,通过将用户和标的物嵌入低维空间,再利用用户和标的物嵌入向量的内积来预测用户对标的物的偏好得分。本篇文章我们会讲解一类新的算法: 因子分解机 ( Factorization Machine ,简称 FM ,为了后面书写简单起见,中文简称为 分解机 ),该算法的核心思路来源于矩阵分解算法,矩阵分解算法可以看成是分解机的特例 (我们在第三节1中会详细说明) 。分解机自从2010年被提出后,由于易于整合交叉特征、可以处理高度稀疏数据,并且效果不错,在推荐系统及广告CTR预估等领域得到了大规模使用,国内很多大厂(如美团、头条等)都用它来做推荐及CTR预估。 本篇文章我们会从 分解机简单介绍、分解机的参数估计与模型价值、分解机与其他模型的关系、分解机的工程实现、分解机的拓展、近实时分解机、分解机在推荐上的应用、分解机的优势 等8个方面来讲解分解机相关的知识点。期望本文的梳理可以让读者更好地了解分解机的原理和应用价值,并且尝试将分解机算法应用到自己的业务中。 一、分解机简单介绍 分解机 最早由Steffen Rendle于2010年在ICDM会议(Industrial Conference on

方法论 | 多因子策略的五大讨论(思维导图收藏版)

一个人想着一个人 提交于 2019-11-28 07:18:59
本文来自新全球资产配置,作者:徐杨,编译:家瑜,梦梅。 自从各种因子不断被学者挖掘出来后,时间和市场表现都证实了因子投资(Factor Investing)的价值,但是因子投资的表现不是免费的午餐,比如价值、动量、质量等因子都有长期跑不赢大盘的时候。我也曾用实证数据验证过因子投资对增强资产配置总体回报的作用,写了几篇关于因子投资的文章。 因子投资在国外已经有了较为广泛的使用,特别是以AQR、Research Affiliates为首的学术派资产管理人,在因子投资这个战场打了几十年的攻坚战。在大中华区,我们也惊喜的看到一些基金公司相继发行了因子类的产品。但由于因子投资确实具有相当的复杂度,很多投资人对此类产品还是不甚了解。 其中最大的误区,也是我想着重的说一个点:因子投资,不是单纯的使用某些指标进行选股的方式。比如,如果单纯的用低P/E来选价值被低估的股票,就叫价值因子投资的话,是非常不严谨的。 Factor Investing is the concept of grouping securities together by commonly shared characteristics that are related to expected returns and risks --- AQR 20 for Twenty 因子投资,是通过与预期收益和风险相关的共同特征