风险模型 | 易学教程

python大战机器学习——模型评估、选择与验证

阅读更多关于 python大战机器学习——模型评估、选择与验证

python大战机器学习——模型评估、选择与验证 1、损失函数和风险函数 (1)损失函数：常见的有 0-1损失函数绝对损失函数平方损失函数对数损失函数 (2)风险函数：损失函数的期望经验风险：模型在数据集T上的平均损失　根据大数定律，当N趋向于∞时，经验风险趋向于风险函数 2、模型评估方法 (1)训练误差与测试误差　　训练误差：关于训练集的平均损失　　测试误差：定义模型关于测试集的平均损失。其反映了学习方法对未知测试数据集的预测能力 (2)泛化误差：学到的模型对未知数据的预测能力。其越小，该模型越有效。泛化误差定义为所学习模型的期望风险 (3)过拟合：对已知数据预测得很好，对未知数据预测得很差的现象。原因是将训练样本本身的一些特点当做了所有潜在样本都具有的一般性质，这会造成泛化能力的下降。常用的防止过拟合的办法为正则化。正则化是基于结构化风险最小化策略的实现。 3、模型评估 (1)留出法：直接将数据划分为三个互斥的部分，然后在训练集上训练模型，在验证集上选择模型，最后用测试集上的误差作为泛化误差的估计。 (2)交叉验证法(S折交叉验证法)：数据随机划分为S个互不相交且大小相同的子集，利用S-1个子集数据训练模型，利用余下的一个子集测试模型。对S种组合依次重复进行，获取测试误差的均值。 (3)留一法：留出一个样例作为测试集。其缺点就是当数据集比较大时计算量太大 (4

Coding and Paper Letter（七十七）

阅读更多关于 Coding and Paper Letter（七十七）

新一期资源整理。 1 Coding: 1.用于无服务器计算的安全快速微处理器。 firecracker 2.R语言包ggthemeassist，一个RStudio的Add-in插件用于调整ggplot2主题里的一些绘图细节（文字，边框，颜色）。 ggthemeassist 3.数据框概念的Matlab实现。 DataFrame 4.数据科学访谈的问题与回答。 data science interviews 5.SARS-CoV-2病毒下一代菌株构建。 ncov 6.R语言包tibble，一个现代化的数据框重构包，实现不同的数据库构建方式。 tibble 7.大规模对话前训练。问答系统构建的相关内容。 DialGPT 8.一篇即将出版论文的代码。核心是用Landsat影像和Google Earth Engine绘制奥卡万戈三角洲的逐年洪水地图。 OkavangoDelta flooding 9.R语言包poorman，仅使用基础的R语言函数实现的dplyr复刻版。 poorman 10.R语言包gganonymize，匿名化ggplot2中的标签和文本。 gganonymize 11.CGA 3D 计算几何算法库。 xtorcga 12.成为Google Earth Engine的专家。西班牙语的GEE使用课程。 EarthEngineMasterGIS 13

软件工程复习-开发模型（1）

阅读更多关于软件工程复习-开发模型（1）

瀑布模型特点：线性结构，由前至后，互相连接，逐级下落。优点：易于理解，阶段清晰，便于管理跟踪控制。不足：早期阶段要求用户需求明确完整，开发过程可逆性差，开发过程中的问题容易累积扩散。各个阶段的划分是完全固定的，因此需要大量的文档（也有一种说法，该模型是由文档来驱动的），工作量大。适用范围：开发过程中需求变化小或者无变化。开发环境稳定。低风险项目。快速原型模型特点：快速构建可执行版本，实现用户部分需求，在用户进行试用后，根据该版本来提出修改意见或者变更需求，根据新的需求再进行开发。优点：容易适应需求的变化，降低开发风险。不足：在该模型中，每次开发的版本一旦确定了用户需求，该版本往往会被抛弃不用，因此快速开发原型软件是开发的重点。适用范围：需求不明确。用户容易变更需求。增量模型特点：以线性开发的方式完成第一构件（增量），在第一增量中，完成软件最核心的功能，并进行测试交付，完成第一构件后，再在原软件基础上，根据需求进行改进开发，交付下一版本（下一增量）。在该模型的开发过程中，要特别注意接口的定义，以便后续版本对此进行更改拓展。优点：短时间内可以向客户交付具有核心功能的产品。在后续增量中可以逐步增加功能来完善产品交付客户，降低了开发风险。开放性的结构可维护性更好。不足 : 容易退化为边做边改模型，软件控制过程失去整体性。

阿里资深Leader：组建技术团队的一些思考

阅读更多关于阿里资深Leader：组建技术团队的一些思考

转自 51CTO技术栈背景本文是我从 2019 年 1 月底接手 CRO 线 NLP 算法团队以来，在团队组建、能力建设、以及管理上的一些思考，全部是没有科学论证的主观判断，不过都进行了实践。我没有任何管理学背景知识，把拙见没羞没臊地写出来，是为了抛砖引玉，和同学们交流讨论。团队的定位是什么？——做正确的事定位团队的定位是重要的事情之一，有了偏差，后续做得越多错得越多。确定团队的定位花了我很长时间，中间还发生了一次组织变化，和两任主管有多次讨论。首先，这个团队配置在 CRO 线，肯定要为风险管理业务服务；同时，这又是一支能力团队，还要考虑和业务团队的协同关系。最终，我确定了三点：能力建设为主，同时也需要有业务抓手。不做业务团队已经做得好的事情。立志高远，勇攀高峰，要做就做到最好。壁垒与价值不夸张地说，现在是 NLP 领域的大航海时代，新算法层出不穷，日新月异，后浪各种把前浪碾死在沙滩上。尤其是 BERT 横空出世之后，整个 NLP 的研究范式都发生了变化，从原来的 task-specific 的模型结构设计转变到语言模型 pretrain+ 下游任务 finetuning 的模式，预训练模型是含金量高的工作。研究一下预训练模型，你会发现这是个需要海量金钱+数据+技术才能玩的游戏。这就陷入两难：如果搞预训练模型，没那么多资源；如果不搞

李航《统计学习方法》学习笔记——ch1统计学习概论

阅读更多关于李航《统计学习方法》学习笔记——ch1统计学习概论

1. 统计学习概论 1.1. 概念定义统计学习假设数据存在一定统计规律，计算机基于数据构建概率统计模型，并运用模型对数据进行预测与分析一门学科。主要内容监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)、强化学习(reinforcement learnin)等。三要素模型（model） : 模型的假设空间策略（strategy） : 模型选择的准则，即确定使用什么样的损失函数算法（algorithm） : 模型学习的算法，即在最小化损失函数时求解模型参数的算法，如随机梯度下降算法。术语输入空间（input space） : 输入所有可能取值的集合输出空间（output space） : 输出所有可能取值的集合特征向量（feature vector） : 每一个具体输入的实例（instance），通常由特征向量表示特征空间（feature space）：所有特征向量存在的空间，特征空间的每一维对应一个特征。样本（sample）：输入与输出对，又称样本点。假设空间（hypothesis space）：输入空间到输出空间的映射的集合，模型假设空间的确定意味着学习范围的确定。注：（1）有时假设输入空间与特征空间为相同的空间；（2

金融风控信用卡评分建模

阅读更多关于金融风控信用卡评分建模

一、引言如何利用机器学习以及大数据技术来降低风险呢？如何建立信用评分的模型呢？本文将针对这些问题简单介绍互金行业中授信产品的风控建模过程，内容主要如下： ·信用风险定义 ·信用风险评分卡类型 ·信用评分模型建立的基本流程 1.信用风险定义 ①风险管理的概念风险管理最早起源于美国。1930年由美国管理协会保险部最先倡导风险管理，后面在全球流行开来，随着互联网的迅猛发展，大数据、数据挖掘和机器学习等新兴技术开始出现，让风险管理更为精准。他们通过收集银行系统本身的征信数据以及用户在互联网上的的各种数据，包括人际关系、历史消费行为、身份特征等，通过大数据“画像”技术，对用户进行全面的定位，由此来预测用户的履约能力、降低信贷风险。 ②什么是信用风险？信用风险又称违约风险，是指借款人、证券发行人或交易对方因种种原因，不愿或无力履行合同条件而构成违约，致使银行、投资者或交易对方遭受损失的可能性。即受信人不能履行还本付息的责任而使授信人的预期收益与实际收益发生偏离的可能性，它是金融风险的主要类型。万事都有风险，但对于金融行业来讲，风险控制尤为重要。对于海量的用户数据处理，传统的人工授信方式显然是很乏力的，因此现在大多互联网金融P2P公司都采用机器学习、大数据等技术对风险进行自动化评估，来最大程度的降低风险。当然，这些技术的应用并不能百分百的保证零风险，因为有很多人为因素是不可控的

软件开发模型

阅读更多关于软件开发模型

百科名片软件开发模型软件开发模型 (Software Development Model)是指软件开发全部过程、活动和任务的结构框架。软件开发包括需求、设计、编码和测试等阶段，有时也包括维护阶段。软件开发模型能清晰、直观地表达软件开发全过程，明确规定了要完成的主要活动和任务，用来作为软件项目工作的基础。对于不同的软件系统，可以采用不同的开发方法、使用不同的程序设计语言以及各种不同技能的人员参与工作、运用不同的管理方法和手段等，以及允许采用不同的软件工具和不同的软件工程环境。目录类型简介典型的开发模型展开编辑本段类型简介瀑布模型　　最早出现的软件开发模型是1970年W·Royce提出的瀑布模型。该模型给出了固定的顺序，将生存期活动从上一个阶段向下一个阶段逐级过渡，如同流水下泻，最终得到所开发的软件产品，投入使用。但计算拓广到统计分析、商业事务等领域时，大多数程序采用高级语言(如FORTRAN、COBOL等)编写。瀑布模式模型也存在着缺乏灵活性、无法通过并发活动澄清本来不够确切的需求等缺点。常见模型　　演化模型、螺旋模型、喷泉模型、智能模型等。编辑本段典型的开发模型综述　　典型的开发模型有：1. 边做边改模型（Build-and-Fix Model）；2. 瀑布模型（Waterfall Model）；3. 快速原型模型

统计学习方法笔记

阅读更多关于统计学习方法笔记

统计学习方法概论 1.1 统计学习统计学习（statistics learning）：计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析。也称为统计机器学习（statistics machine learning）。统计学习的特点：以计算机及网络为平台，是建立在计算机及网络之上的；以数据为研究对象，是数据驱动的学科；目的是对数据进行预测与分析；统计学习以方法为中心，统计学习方法构建模型并应用模型进行预测与分析；是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科； // 现在我们所说的机器学习，往往是指统计机器学习。统计学习的对象数据（data）。首先呢，统计学习从数据出发，提取数据的特征，抽象出数据中的模型，发现数据中的知识，最终又回到对数据的分析预测中去。其次，作为统计学习的对象，数据是多样的，它包括存在于计算机及网络上的各种数字、文字、图像、视频、音频数据以及它们的组合。关于数据的基本假设：同类数据具有一定的统计规律性。（什么叫“同类数据”：具有某种共同性质的数据，比如英文文章，互联网网页，数据库中的数据等，它们具有统计规律性，所以可以用概率统计方法来进行处理。比如，可以用随机变量描述数据中的特征

软件生存周期模型之迭代模型

阅读更多关于软件生存周期模型之迭代模型

什么是迭代模型迭代式模型是是RUP（Rational Unified Process，统一软件开发过程，统一软件过程)推荐的周期模型。在RUP中，迭代被定义为：迭代包括产生产品发布（稳定、可执行的产品版本）的全部开发活动和要使用该发布必需的所有其他外围元素。所以，在某种程度上，开发迭代是一次完整地经过所有工作流程的过程：（至少包括）需求工作流程、分析设计工作流程、实施工作流程和测试工作流程。实质上，它类似小型的瀑布式项目。RUP认为，所有的阶段（需求及其它）都可以细分为迭代。每一次的迭代都会产生一个可以发布的产品，这个产品是最终产品的一个子集。迭代的思想如图所示：迭代和瀑布的区别迭代模型同瀑布模型一样，项目也会遵循需求->分析->设计->开发->测试->发布的流程，但不同的是，在前期需求分析阶段，会将所有的需求按照核心功能点-模块-关联模块进行拆分并分期实现，然后以迭代的形式逐步完善功能，在每一次迭代完成后系统都是可以交付的原型，往往第一次迭代都是产品最核心的功能。迭代和瀑布的最大的差别就在于风险的暴露时间上。“任何项目都会涉及到一定的风险。如果能在生命周期中尽早确保避免了风险，那么您的计划自然会更趋精确。有许多风险直到已准备集成系统时才被发现。不管开发团队经验如何，都绝不可能预知所有的风险。” 　由于瀑布模型的特点（文档是主体），很多的问题在最后才会暴露出来

资产配置研究框架（附代码）

阅读更多关于资产配置研究框架（附代码）

资产配置研究框架（附代码）大类资产配置是全球化视野下投资组合管理的重要议题之一。风险和收益是衡量投资组合管理绩效的天枰两边的两个筹码，如何有效均衡风险和收益的关系一直是学界和业界探讨的问题。本文旨在将目标风险函数和收益风险函数这两大类目标函数引入资产配置研究框架中，同时对比分析综合宏观观点的Black Litterman模型，并在中国市场上进行实证分析。资产配置理论介绍广义风险平价模型（风险类目标函数）风险类目标函数即广义的风险平价模型，就是构造不同风险指标的等风险投资组合。最典型的风险类目标函数是传统的或者说是狭义的风险平价模型，即波动率平价。我们定义投资组合的波动率为： σ ( ω ) = ω ′ Σ ω ′ \sigma(\omega)=\sqrt{\omega^{'}\Sigma\omega^{'} } σ ( ω ) = ω ′ Σ ω ′ 我们的目标是令标的资产i对投资组合波动率的风险贡献度为投资组合总风险的的1/N： σ ( ω i ) = ω i ∗ ∂ σ ( ω ) ∂ ω i = ω i ( Σ ω ) i ω ′ Σ ω ′ = σ ( ω ) N \sigma(\omega_i)=\omega_i\ast \frac{\partial \sigma(\omega)}{\partial \omega_i} \\=\frac{\omega_{i

订阅风险模型