BERT

通过金融文档结构化实践,挖掘海量非结构化数据的应用落地潜力

微笑、不失礼 提交于 2020-11-23 05:19:30
本文内容整理自 PaperWeekly 和 biendata 在 B 站组织的直播回顾,点击文末 阅读原文 即可跳转至 B 站收看本次分享完整视频录像,如需嘉宾课件,请在 PaperWeekly 公众号回复关键词 课件下载 获取下载链接。 作者简介: 杨慧宇,现达观数据高级技术专家,负责 NLP,RPA 等技术在金融行业的实践应用。 随着技术的发展和社会的变革,金融行业在近些年逐渐暴露了各种危机。 第一点,金融行业虽然在大众印象中是暴利行业,但实际上行业年均复合增长率已经呈现出下降的趋势,并且面临着诸如即将上市的蚂蚁集团、微信支付以及像陆金所等互联网金融公司所带来的影响和竞争。 第二点是人力成本,中国的人口红利在逐渐消失,劳动力成本也在不断上升,尤其像新时代的 90 后员工不愿意天天进行重复性的工作,希望能够在工作中体现出自己独一无二的价值,这一点实际上也是很大的痛点。 第三点,金融行业领域监管越来越严格。证监会、交易所都在不断地发布新的监管规则,而金融企业内部的合规、风控这些机构就要随之进行更新,这些都离不开信息技术的支持。随着监管的越来越严格,企业内部所造成的文书工作的增加也会带来很多工作上的负担,比如要进行很多信息上的披露,上市公司要发布各种各样事件的曝光,这些都会给大家带来工作上的负担。但是因为文件越来越多,人工处理文本的能力,却无法得到相应的提升,这样就会造成工作上的疏忽

Datawhale 暑期组队学习计划

柔情痞子 提交于 2020-11-08 15:37:01
Datawhale暑期组队学习计划 马上就要开始啦 这次共组织15个组队学习 涵盖了AI领域从理论知识到动手实践的内容 按照下面给出的 最完备学习路线 分类 难度系数分为 低 、 中 、 高 三档 可以按照需要参加 学习路线 基础知识 1 Python基础 课程简介 **课程设计:**马晶敏,叶梁 **组队学习说明:**学习python基础知识,针对python小白的学习之路 **任务路线:**基础知识 → 函数 → 第三方模块 → 类和对象 → 基础爬虫 **组队学习周期:**10天 **定位人群:**python小白 难度系数低 **每个任务完成大概所需时间:**2~4h/天,根据个人学习接受能力强弱有所浮动 任务安排: Task1:环境搭建 + python初体验 + python基础讲解 + python数值基本知识 (2天) Task2:列表 + 元组 + string字符串 + 字符串格式化问题 (2天) Task3:数组 + 集合 + 判断语句 + 三目表达式 + 循环语句 (2天) Task4:数组 + 集合 + 判断语句 + 三目表达式 + 循环语句 (2天) Task5:函数 + file + os模块 + datetime模块 (2天) 2 LeetCode 课程简介 **课程设计:**老表、于鸿飞、杨皓博 **组队学习说明:**Leetcode刷题组队学习

基于Bert的NLG

孤人 提交于 2020-11-07 11:56:35
《 Unified Language Model Pre-training for Natural Language Understanding and Generation 》 《 MASS: Masked Sequence to Sequence Pre-training for Language Generation 》 《 BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension 》 来源: oschina 链接: https://my.oschina.net/u/4407543/blog/4707216

重磅盘点:过去8年中深度学习最重要的想法

好久不见. 提交于 2020-11-06 19:19:25
原文: Deep Learning’s Most Important Ideas[1] 作者 :Denny Britz(ML 研究员,Google Brain 前成员) 译者:REN 深度学习是一个瞬息万变的领域,层出不穷的论文和新思路可能会令人不知所措。即使是经验丰富的研究人员,也很难准确将研究成果传达给公司的公关部门,继而传达给大众。 对于初学者来说,理解和实现这些技术有利于打下坚实的理论基础,是入门的最佳方法。 在深度学习领域,很多技术都可以跨域多个应用领域,包括计算机视觉,自然语言,语音识别和强化学习等等。在计算机视觉领域使用过深度学习的人,可能很快就能将类似的技术应用到自然语言研究中,即使特定的网络结构有所不同,但其概念,实现方法和代码基本一致。 必须强调的是,本文侧重于计算机视觉,自然语言,语音识别和强化学习领域,但不会详细解释每种深度学习技术,用寥寥数百字解释清楚一篇几十页的论文是不现实的。另外还有一些不容易重现的重要研究,比如 DeepMind 的 AlphaGo 或 OpenAI 的 OpenAI Five(Dota 2 模型),涉及到巨大的工程和运算挑战,因此也不是讨论的重点。 这篇文章的目的,是回顾在深度学习领域影响深远的成果,概述每种技术及其历史背景,尽量引导深度学习新人接触多个领域的基础技术。它们是这个领域最值得信赖的基石,每一个技术都经过了无数次的引用

清华大学唐杰教授:人工智能的下个十年【附PPT下载】

半世苍凉 提交于 2020-11-01 22:01:49
来源:人工智能AI技术 作者:唐杰教授 编辑:AI数据派 本文 约 1850 字44图 ,建议阅读 9分钟 。 本文从人工智能发展的历史开始,深入分析人工智能近十年的发展,阐述了人工智能在感知方面取得的重要成果。 唐杰教授从人工智能发展的历史开始,深入分析 人工智能近十年的发展,阐述了人工智能在感知方面取得的重要成果 ,尤其提到 算法 是这个 感知时代 最重要、最具代表性的内容。 如需PPT下载,在订阅号后台回复 ai10 即可。 重点讲解了 BERT、ALBERT、MoCo2 等取得 快速进展的算法 。最后说到 下一波人工智能浪潮的兴起 ,就是实现 具有推理、可解释性、认知的人工智能。 人工智能对社会和经济影响的日益凸显,各国政府也先后出台了对人工智能发展的政策,并将其上升到国家战略的高度。截至目前,包括美国、中国和欧盟在内的多国和地区颁布了国家层面的人工智能发展政策。 在这个时代背景下, 我们需要考虑人工智能未来十年会怎样发展。 首先,我们需要从人工智能的发展历史中找到灵感。 我们再深入分析 AI 近十年的发展,会看到一个重要的标志: 人工智能在感知方面取得重要成果。人工智能在语音识别、文本识别、视频识别等方面已经超越了人类,我们可以说 AI 在感知方面已经逐渐接近人类的水平。 从未来的趋势来看,人工智能将会有一个从 感知到认知逐步发展 的基本趋势,如下图所示: 首先

语言模型GPT跨界CV,OpenAI揭示强算力Transformer具有通用性

岁酱吖の 提交于 2020-11-01 14:52:53
金磊 贾浩楠 发自 凹非寺 量子位 报道 | 公众号 QbitAI 生成文字的AI和生成图像的AI,竟然是同一个,人工智能要实现通用(AGI)了吗? 语言模型GPT,现在跨界了。 这一次,它要进军CV领域——以 Image GPT (简称iGPT) 的名义,处理「图像任务」。 那么,这位跨界选手的表现如何呢? 在主流的数据集上,与当前最高精度方法做PK,竟可以刷新纪录,达到SOTA! 简直惊掉了路人下巴:这太疯狂了,而我还在研究自然语言生成(它却已经能生成图像了)。 还有网友脑洞大开:GPT的下一步是不是要生成音乐了? 连名字都想好了——GPT-Music。 莫非,这是要通用人工智能 (AGI) 的节奏,琴棋书画样样精通? 从语言GPT,到图像GPT 像BERT、GPT-2这样的语言模型,在NLP任务上的成就不用多说,对一维序列的处理能力比较强悍。 但OpenAI的研究人员发现,将它应用到图像上,也就是在 像素序列 上进行训练,同样也可以得到连贯的完整图像。 举个例子,原始图像是一只小鸡,如下图所示。 当把它的下半部遮挡后作为输入,经过训练之后,生成的图像如下。 可以看到,在生成的一系列图像中,有逼近原始图像的结果。 再来看个猫的例子,原始图像如下。 同样是遮挡一半的图像,生成后得到的图像看起来也是比较完整。 虽然没有生成原始图像中「手」的那部分,但是我们人类看到被遮挡一半的图像

Hinton构思下一代神经网络:属于无监督对比学习

孤人 提交于 2020-10-31 15:04:23
本文由机器之心报道 Geoffrey Hinton 是谷歌副总裁、工程研究员,也是 Vector Institute 的首席科学顾问、多伦多大学 Emeritus 荣誉教授。2018 年,他与 Yoshua Bengio、Yann LeCun 因对深度学习领域做出的巨大贡献而共同获得图灵奖。 自 20 世纪 80 年代开始,Geoffrey Hinton 就开始提倡使用机器学习方法进行人工智能研究,他希望通过人脑运作方式探索机器学习系统。受人脑的启发,他和其他研究者提出了「人工神经网络」(artificial neural network),为机器学习研究奠定了基石。 那么,30 多年过去,神经网络的未来发展方向在哪里呢? Hinton 在此次报告中 回顾了神经网络的发展历程,并表示下一代神经网络将属于无监督对比学习。 Hinton 的报告主要内容如下: 人工神经网络最重要的待解难题是:如何像大脑一样高效执行无监督学习。 目前,无监督学习主要有两类方法。 第一类的典型代表是 BERT 和变分自编码器(VAE),它们使用深度神经网络重建输入。但这类方法无法很好地处理图像问题,因为网络最深层需要编码图像的细节。 另一类方法由 Becker 和 Hinton 于 1992 年提出,即对一个深度神经网络训练两个副本,这样在二者的输入是同一图像的两个不同剪裁版本时

算法在岗一年的经验总结

喜夏-厌秋 提交于 2020-10-31 06:35:52
说起来今天还是一个有意思的日子,去年在美团实习,离职的时间也是12月7日。 算起来,自己的算法在岗应该也有一年了,在美团担任算法工程师大概有7个月,OPPO加上实习,估计也一年多吧,时间过的好快,这周末给大家谈谈我的感想吧,相比各位大佬,我的经验尚属稚嫩,但是也希望能给一些准备入行的、刚入行的人一些经验和建议吧,相关文章其实我也聊得不少,这里有部分重点我可能还会聊到,但是不见得都会说到,所以可以看看我以前的文章: 我从研究生生活中得到的经验 NLP.TM | 我的NLP学习之路 懒人目录: 算法工作的一天都要干什么。 特别的经验。 有关学习。 写在最后。 算法工作一天都要干什么 很多人可能再想想着每天在研究模型,看论文,实现模型之类的,这方面虽然非常重要,但是实际上并非如此。 每天这些时间会花的更多: 和产品沟通,技术方案设计。 数据层面花费的时间最多。 需要什么样的数据。 写SQL。 检查数据质量,空的、错的、不合法的。 特征工程。 有监督学习,需要标注数据,怎么标,标注本身是否可靠。 模型选择与开发。这块可以这么说,随着工作经验提升,这块时间会越来越少。 模型选择的话,把问题抽象出来,其实都比较好选,第一版模型一般是业内基线或者最简单的模型,像我,二分类先搞LR(logistic regression),序列标注就是CRF。 模型开发也基本不耗时

NLP基础

淺唱寂寞╮ 提交于 2020-10-31 06:04:26
1 自然语言处理三大特征抽取器(CNN/RNN/TF)比较 白衣骑士Transformer:盖世英雄站上舞台 华山论剑:三大特征抽取器比较    综合排名情况 以上介绍内容是从几个不同角度来对RNN/CNN/Transformer进行对比,综合这几个方面的实验数据,我自己得出的结论是这样的: 单从任务综合效果方面来说,Transformer明显优于CNN,CNN略微优于RNN。速度方面Transformer和CNN明显占优,RNN在这方面劣势非常明显。这两者再综合起来,如果我给的排序结果是Transformer>CNN>RNN ,估计没有什么问题吧?那位吃亏…..爱挑刺的同学,你说呢? 从速度和效果折衷的角度看,对于工业界实用化应用,我的感觉在特征抽取器选择方面配置Transformer base是个较好的选择。 三者的合流:向Transformer靠拢    2 从Word Embedding 到bert模型(上下文预训练)-自然语言处理中的预训练技术发展史 A: NNLM B: Word2Vec CBOW (完形填空) C : ELMO ELMO本身是个根据当前上下文对Word Embedding动态调整的思路。 从W2V 到ELMO:基于上下文的embedding D: GPT 从W2V 到 GPT: Pretain + Finetune两阶段过程              

谷歌开源NLP模型可视化工具LIT,模型训练不再「黑箱」

徘徊边缘 提交于 2020-10-30 07:17:12
视学算法报道 编辑:陈萍、魔王 转载自公众号:机器之心 深度学习模型的训练就像是「黑箱操作」,知道输入是什么、输出是什么,但中间过程就像个黑匣子,这使得研究人员可能花费大量时间找出模型运行不正常的原因。 假如有一款可视化的工具,能够帮助研究人员更好地理解模型行为,这应该是件非常棒的事。 近日,Google 研究人员发布了一款语言可解释性工具 (Language Interpretability Tool, LIT),这是一个开源平台,用于可视化和理解自然语言处理模型。 论文地址:https://arxiv.org/pdf/2008.05122.pdf 项目地址:https://github.com/PAIR-code/lit LIT 重点关注模型行为的核心问题,包括:为什么模型做出这样的预测?什么时候性能不佳?在输入变化可控的情况下会发生什么?LIT 将局部解释、聚合分析和反事实生成集成到一个流线型的、基于浏览器的界面中,以实现快速探索和错误分析。 该研究支持多种自然语言处理任务,包括探索情感分析的反事实、度量共指系统中的性别偏见,以及探索文本生成中的局部行为。 此外 LIT 还支持多种模型,包括分类、seq2seq 和结构化预测模型。并且它具备高度可扩展性,可通过声明式、框架无关的 API 进行扩展。 相关 demo,参见视频: 可以针对新颖的工作流程进行重新配置