反欺诈

用机器学习构建模型,进行信用卡反欺诈预测

╄→гoц情女王★ 提交于 2021-02-09 20:04:35
本文通过利用信用卡的历史交易数据进行机器学习,构建信用卡反欺诈预测模型,提前发现客户信用卡被盗刷的事件。 1. 数据的下载和数据介绍 数据的下载地址为 https://www.kaggle.com/dalpozz/creditcardfraud/data 数据集是2013年9月使用信用卡进行交易的数据。此数据集显示两天内发生的交易,其中284,807笔交易中有492笔被盗刷。数据集非常不平衡,被盗刷占所有交易的0.172%。不幸的是,由于保密问题,我们无法提供原始数据。特征V1,V2,... V28是使用PCA获得的主要组件。特征Class是响应变量,如果发生被盗刷,则取值1,否则为0。 数据包含了Time,V1,V2,..V28,Amount,Class一共31列,其中Class是标签列,其中0代表没有被盗刷,1表示被盗刷。 2. 分析工具介绍 我们使用的工具是FEA-spk技术,它的底层基于最流行的大数据开发框架spark,对各种算子的操作都是基于DataFrame的,使用FEA-spk来做交互分析,不但非常简单易懂而且几乎和spark的功能一样强大,更重要的一点,它可以实现可视化,处理的数据规模更大,可以进行分布式的机器学习等 3. 案例的具体实现步骤如下 1. 数据预处理(Pre-processing Data) (1) 加载数据 查看一下数据的大小

【采用】如何搭建反欺诈策略与模型

一世执手 提交于 2020-01-22 08:27:32
信用风险与反欺诈哪个更加重要?为什么是先讲策略再谈模型?一个完整的反欺诈流程如何搭建?如何说服CEO接受模型测试成本?在一本财经商学院举办的第二期风控闭门课程上,天创信用首席科学家陈黎明一一做出解答。 以下是她现场分享的部分干货: 01基本概念 今天我讲的主要课题是“反欺诈策略和模型”。 为什么要把策略放前面呢?因为不管是拍脑袋决定,还是通过数据挖掘出来,反欺诈一般是先有策略,然后通过数据的积累,慢慢去构建模型。 首先讲一下常见的几种风险: 流动性风险,就是资产在上升时,你手上的现金流是不是足够。 市场风险,一般是指汇率、利率两个风险,这个在国内不是那么明显,在国外受市场风险是相当大的。 信用风险,就是客户的还款意愿和还款能力。 操作风险,比如意外事故等。 政策风险,比如贷款年化率不能超过36%,和近期的数据隐私的保护。 反欺诈和信用风险区别在哪? 欺诈是你想彻底铲除的,你建立了足够的壁垒、堡垒把欺诈挡在门外;但你并不希望信用风险为零,信用风险框定在一定范围之内,再去设计产品。 信用管理是进攻,反欺诈是防守。在不同场景中,反欺诈和信用管理重要程度不同。比如说航旅分期,欺诈风险比较小。Paydayloan本身是针对信用差的人群,欺诈风险往往更为重要。 欺诈原因主要有几点: 征信体系有待推广和完善。 欺诈成本很低。 没有信息保护意识。别人帮你买机票,你就把身份证号码透露了。

【转载】大数据风控---身份反欺诈信贷全流程常用指标及策略

走远了吗. 提交于 2019-12-23 13:22:04
前言 反欺诈的本质更多的是校验借款人的身份,也就是证明你就是你,我就是我。反欺诈也有很多金融术语(参见:https://zhuanlan.zhihu.com/p/26197949),也便于我们更清楚欺诈风险点。针对信贷业务,主要有两种风险,欺诈风险和信用风险,从造成的损失来看欺诈风险是公司损失的主要风险;当前网络的欺诈从业人数超过200万,网络诈骗的市场规模约1200亿,因为骗贷、套现等手段造成倒闭的机构超过2000家。 欺诈风险分类大致有两种: 第一方欺诈——相似地址伪装、本人手机号小号、高级欺诈..... 第三方欺诈——团伙欺诈、身份冒用、养资料(设备农场、猫池)... 我们常用的手段有:策略反欺诈,直接欺诈类用户通过策略拒绝掉;反欺诈评分,信用风险向欺诈风险转移的用户通过反欺诈评分卡模型来搞定,模型能解决策略的局限性。 反欺诈模型实施要点 1. 特征选择 个人欺诈特征:比如命中法院执行名单、三方黑名单、三方欺诈分;详单数据(通话次数、详单中授信人数占比,一度、二度联系人数占比) 团伙欺诈特征:比如设备关联了多少身份证;IP登录异常、通讯录数据(e.g:通讯录中名字涉及到“贷款”的个数、通讯录中命中黑名单的人数) 特征细分类 基础信息:如年龄、申请授信次数 设备信息:如借款人对应手机个数 时间相关:如授信申请时间在0-6点 运营商相关:近180天通话时长(通讯录

风控决策引擎系统的搭建设计指南(转载)

为君一笑 提交于 2019-11-27 09:20:24
归结而言,风控的本质是数据,探索数据与数据之间关联关系,根据其演变的规律,为业务所用。 消费金融的门槛核心在于风控系统,面向C端客群的线上产品线,如消费分期、现金贷及信用卡代偿等业务方向,其需实时支持大量业务的自动化处理,风控系统将承担贷前、贷中和贷后的风控评估、处理及预警的角色,极大地解放人工处理的瓶颈与效率。 一、优先级 风控决策引擎是一堆风控规则的集合,通过不同的分支、层层规则的递进关系进行运算。而既然是组合的概念,则在这些规则中,以什么样的顺序与优先级执行便额外重要。 风控系统的作用在于识别绝对风控与标识相对风险,如果是绝对风控,则整套风控的审核结果便将是“拒绝”。既然结果必然是“拒绝”,则没必要运行完所有的风控规则,而主要单条触发“拒绝”即可停止剩余规则的校验。因为所有规则的运行,是需要大量的时间、金钱与性能成本的。所以,整套风控决策引擎的搭建设计思路,基于规则优先级运算的注意要点如下: 自有规则优先于外部规则运行 举例说明:自有本地的黑名单库优先于外部的黑名单数据源运行,如果触发自有本地的黑名单则风控结果可直接终止及输出“拒绝”结论。 无成本或低成本的规则优先于高成本的规则运行 举例说明:借款用户的身份特定不符合风控要求的,诸如低于18岁的用户,则可优先运行。而一些通过对接外部三方征信的风控规则,需支出相关查询费用的,则靠后运行。此外,在外部三方征信的规则中

金融风控数据建模导论

巧了我就是萌 提交于 2019-11-27 09:20:00
文章转载自:https://www.cnblogs.com/shujufenxi/p/10128253.html (一)序言 (二)序言 金融风控具体在哪个环节才需要数据建模 贷前审核 贷后管理 反欺诈 1.2 金融机构信贷风控流程介绍 (1)客户申请 没啥可说的 (2)资料填写 具体个人信息填写错误,金融机构会要求客户重新填写,如何联系客户资料填写错误,会要求冻结几天才能重新申请 (3)要素验证 根据客户的资料填写,做三要素或做四要素验证,比如说客户的手机号、银行卡、身份证是否匹配 (4)合规性验证 客户所在的行业是否是金融机构限制放贷的行业 (5)规则验证 人行征信情况 (6)黑名单 各个金融公司自有数据维度的黑名单 (7)反欺诈 反欺诈规则 (8)信用评分 (9)放款 (10)贷后管理 金融风控流程图,如下: (三)金融分控建模岗需掌握的技能 (1)统计学 大学层次 (2)数学 大学层次 (3)数据库 Orale或者MySQL (4)编程语言 Python、R和SAS (5)机器学习 LR、决策树、随机森林、Xgboost等等主流算法 (四)金融风控模型的核心内容 风控模型 基于LR(逻辑回归)的统计模型 机器学习模型,如随机森林和xgboost 策略制定 反欺诈策略 业务规则 三方数据规则 额度策略 (五)金融风控模型介绍 金融风控模型就是评分卡模型