自然语言处理

岗位内推 | 阿里巴巴设备风控团队招聘高级数据挖掘工程师

空扰寡人 提交于 2021-01-23 13:18:17
PaperWeekly 致力于推荐最棒的工作机会,精准地为其找到最佳求职者,做连接优质企业和优质人才的桥梁。如果你需要我们帮助你发布实习或全职岗位,请添加微信号 「pwbot02」 。 阿里安全设备风控团队招人啦~ 团队站在黑灰产攻防技术前沿,服务于整个阿里数字经济体。是集团唯一一只专注于设备风控及设备指纹的团队。团队技术氛围浓厚、小伙伴专业靠谱,包括但不限于 frida-ios-dump 作者、GeekPwn 获奖选手、CTF 大佬。在这里,基于复杂业务场景的攻防对抗每天都在发生。数字技术正在构建前所未有的全新世界,身处变化的前沿,我们面对的是互联网企业中最为丰富的业态和风险。毫无疑问,这是对检验和提升自身能力最好的练兵场。 高级数据挖掘工程师 工作地点: 杭州 薪资: 提供业内有竞争力的薪资,具体视能力而定。 岗位描述: 1. 挖掘并分析设备行为序列,搭建异常检测模型; 2. 应用机器学习相关技术,挖掘异常数据; 3. 安全检测领域前沿技术跟踪,结合已有数据基础,进行原型系统的研发和验证。 岗位要求: 1. 良好的逻辑思考能力,可以从海量数据中挖掘出有价值的规律; 2. 熟悉至少一种常用深度学习框架(Tensorflow, PyTorch); 3. 熟悉异常检测常用算法及评价指标; 4. ASR、NLP 及时间序列信号分析相关领域经验优先; 5. 天池、Kaggle

如何防止我的模型过拟合?这篇文章给出了6大必备方法

好久不见. 提交于 2021-01-23 10:55:16
选自Medium 作者:Mahitha Singirikonda 机器之心编译 编辑:小舟 原文链接: https://mp.weixin.qq.com/s/RP9iFbyw-aNMKx-UAOe-aA ​ mp.weixin.qq.com 正如巴菲特所言:「近似的正确好过精确的错误。」 在机器学习中,过拟合(overfitting)会使模型的预测性能变差,通常发生在模型过于复杂的情况下,如参数过多等。本文对过拟合及其解决方法进行了归纳阐述。 在机器学习中,如果模型过于专注于特定的训练数据而错过了要点,那么该模型就被认为是过拟合。该模型提供的答案和正确答案相距甚远,即准确率降低。这类模型将无关数据中的噪声视为信号,对准确率造成负面影响。即使模型经过很好地训练使损失很小,也无济于事,它在新数据上的性能仍然很差。欠拟合是指模型未捕获数据的逻辑。因此,欠拟合模型具备较低的准确率和较高的损失。 如何确定模型是否过拟合? 构建模型时,数据会被分为 3 类:训练集、验证集和测试集。训练数据用来训练模型;验证集用于在每一步测试构建的模型;测试集用于最后评估模型。通常数据以 80:10:10 或 70:20:10 的比率分配。 在构建模型的过程中,在每个 epoch 中使用验证数据测试当前已构建的模型,得到模型的损失和准确率,以及每个 epoch 的验证损失和验证准确率。模型构建完成后

百万级文献分析,十万字深入解读:机器之心发布《全球AI技术发展趋势报告》

六月ゝ 毕业季﹏ 提交于 2021-01-23 09:34:36
2017 年,机器之心发布了《机器之心人工智能技术趋势报告》,系统介绍了人工智能领域(AI) 下不同的技术分支,并以定性分析的方法讨论了各分支技术当时所处的发展阶段、瓶颈以及未来发展方向,帮助AI产业从业者提供技术趋势参考,帮助AI技术应用方、初学者理解飞速发展中的 AI 领域内各项技术的概况和层出不穷的新鲜技术内涵。 在2017版报告发布至今的三年里,越来越多的 AI 技术实现了商业落地,但也有不少深度学习方法开始触碰到技术自身的天花板,亟需突破。在三年后的今天,机器之心在这个可能是 AI 技术发展的关键拐点发布《2020-2021 全球AI技术发展趋势报告》。 相比 2017 年版报告,2020-2021版报告在过往的定性分析方法之外增加了数据层面的挖掘、分析和探索,更加侧重对具体技术趋势的挖掘以及量化分析指标的形成。基于开源的论文与专利语料,结合机器之心自有的相关数据库,综合文献报告审阅与问卷访谈等形式,本报告分别从「顶会趋势(NeurIPS) 分析」、「专家问卷分析」以及「专业分析」三个不同角度呈现分析结果,辅助读者了解近年来 AI 领域的热门趋势技术。 你将从报告中获得什么? 人工智能技术发展七大趋势领域概览 一、(人类)自然语言技术 大规模预训练语言模型成为主流 语音识别技术应用普及度最高 问答系统、聊天机器人相关应用放缓 情感分析、文本分类增速不减 跨领域融合越来越多

如何成为一名合格的推荐系统工程师?

ぃ、小莉子 提交于 2021-01-22 15:10:57
由于近些年深度学习技术的飞速发展,大力加速推动了AI在互联网以及传统各个行业的商业化落地,其中, 推荐系统 、计算广告等领域彰显的尤为明显。由于推荐系统与提升用户量以及商业化变现有着密不可分的联系,各大公司都放出了众多推荐系统相关职位,且薪水不菲,目前发展势头很猛。 但是,这里存在几个问题,很多欲从事推荐系统的同学大多数学习的方式是自学,1、往往是学了很多的推荐算法模型,了解些推荐里常用的算法,如:协同过滤、FM、deepFM等, 但是却不清楚这些模型在工业界推荐系统中是如何串联、如何配合、有哪些坑,哪些trick的,导致无论面试还是真正去业界做推荐系统,都会被推荐领域的”老枪老炮“们一眼识别出小白属性 。2、对于算法原理理解不深刻,这就会导致实际应用时不能很好地将模型的性能发挥出来,另外面试时对于大厂面试官的刨根问底,只能是眼睁睁的丢掉offer。 CF、FM、DSSM、DeepFM等这些推荐业界明星模型,你真的清楚他们的内部运行原理以及使用场景吗?真的了解FM模型与SVM有什么相似之处吗?FM固然可以用作为打分模型,但它可以用来做matching吗,如果可以,如何做?item2Vec模型在业界是如何缓解冷启动的问题的?双塔模型优势在哪?深度模型到底是如何做matching的,是离线计算好结果还是实时的对网络进行前向计算?DeepFM具体实现时

抓取了1400家科技公司的招聘信息,我发现数据工程师比数据科学家更有市场

淺唱寂寞╮ 提交于 2021-01-22 10:21:36
「作为数据科学家,我还有机会吗?」不,你更应该成为数据工程师。 选自Medium,作者:Mihail Eric,机器之心编译,编辑:小舟。 数据无处不在,而且只会越来越多。在过去的 5-10 年内,数据科学已经吸引了越来越多的新人投身于此。 但如今数据科学的招聘状况如何?亚马逊 Alxea 团队的机器学习科学家 Mihail Eric 收集了多家公司的招聘信息后,在个人博客中撰写了一篇分析文章,阐述自己的思考。 数据胜于雄辩,他对自 2012 年以来 Y-Combinator 孵化的每家公司发布的数据领域职位进行了分析,研究问题包括: 在数据领域,公司最常招聘的职位是什么? 人们常讨论的数据科学家的需求究竟有多大? 公司看重的这些技能是引发当今数据革命的技能吗? 以下是博客文章的主要内容: 方法 我选择对 YC 风投公司进行分析,这些公司声称将某种数据作为其价值主张的一部分。 主要关注 YC 是因为其提供了易于搜索(可抓取)的公司目录。此外,作为一个特别有远见的孵化器,它已经为全球众多领域的公司提供投资长达十年之久,我觉得他们为本次分析研究提供了一个具有代表性的市场样本。但请注意,我没有分析超大型科技公司。 我抓取了自 2012 年以来每家 YC 公司的首页网址,建立起一个包含 1400 家公司的初始池。 为什么是从 2012 年开始呢? 2012 年,AlexNet 在

清华CoAI课题组新书《现代自然语言生成》正式发布!

若如初见. 提交于 2021-01-21 11:02:16
文末送10本签名书籍,包邮! 内容简介 本书总结了以神经网络为代表的现代自然语言生成的基本思想、模型和框架。本书共12章, 首先 介绍了自然语言生成的研究背景、从统计语言模型到神经网络语言建模的过程,以及自然语言建模的思想与技术演化过程; 其次 从基础模型角度介绍了基于循环神经网络、基于 Transformer 的语言生成模型,从优化方法角度介绍了基于变分自编码器、基于生成式对抗网络的语言生成模型,从生成方式角度介绍了非自回归语言生成的基本模型和框架; 然后 介绍了融合规划的自然语言生成、融合知识的自然语言生成、常见的自然语言生成任务和数据资源,以及自然语言生成的评价方法;最后总结了本书的写作思路及对自然语言生成领域未来发展趋势的展望。 本书可作为高等院校计算机科学与技术、人工智能、大数据等相关专业高年级本科生、研究生相关课程的教材,也适合从事自然语言处理研究、应用实践的科研人员和工程技术人员参考。 专家推荐 周明 原微软亚洲研究院副院长 国际计算语言学会(ACL)主席 创新工场首席科学家 在 AI 创作风起云涌的今天,故事、诗歌、散文,甚至代码,都可以由 AI 自动生成。《现代自然语言生成》无疑是非常及时和重要的一本书,它详细阐述了以神经网络为代表的现代自然语言生成的基本思想、模型和框架,全书由浅入深、浑然一体,强烈推荐读者们阅读和收藏。 李航 字节跳动AI Lab

四两拨千斤!深度主动学习综述2020

只愿长相守 提交于 2021-01-20 11:25:04
点击上方 “ 机器学习与生成对抗网络 ”,关注"星标" 获取有趣、好玩的前沿干货! 推荐阅读: 弱水三千,只取你标!AL(主动学习)结合GAN如何? 本文转载自知乎,为最近新出的论文 A Survey of Deep Active Learning 中文版介绍,原文作者调研了189 篇文献综述了深度主动学习的进展。文章较长,建议先收藏再阅读。 https://zhuanlan.zhihu.com/p/218011458 论文地址: https://arxiv.org/pdf/2009.00236.pdf A bstract 主动学习试图通过标记最少量的样本使得模型的性能收益最大化。而深度学习则对数据比较贪婪,需要大量的数据供给来优化海量的参数,从而使得模型学会如何提取高质量的特征。近年来,由于互联网技术的快速发展,使得我们处在一个信息洪流的时代,我们拥有海量的未标记数据。 借此,深度学习引起了研究人员的强烈兴趣,并且得到了快速的发展。和深度学习相比,研究人员对于主动学习的研究兴趣相对较低。这主要是由于在深度学习兴起之前,传统的机器学习所需要的标注样本相对较少。因此,早期的主动学习很难体现出应有的价值。尽管深度学习已经在各个领域取得了突破性进展,但是这绝大部分的成功都要归功于现有的大量标注数据集的公开。 然而,大量高质量的标注数据集的获取需要消耗大量的人力

ACL 2021投稿避坑指南

故事扮演 提交于 2021-01-19 12:32:33
本文转载自:哈工大讯飞联合实验室 原文链接: https://mp.weixin.qq.com/s/0cMM2MHUhsn0MKZGIMhyVw ​ mp.weixin.qq.com 注:文末附交流群,最近赶ACL,比较忙,很多同学加了没有回过期了,可以重新加一下,备注好的一定会回复,敬请谅解。 近日,ACL 2021大会官方发布了第二次征稿通知。距离ACL 2021的摘要截稿还有1周的时间,距离全文截稿还有2周的时间。HFL编辑部针对本届ACL 2021投稿的重要内容进行了细致讲解,希望能够帮助正在准备ACL 2021论文的读者。 ACL 2021征稿通知: https:// 2021.aclweb.org/calls/p apers/ 最最重要的:两段式投稿 今年的ACL是两段式投稿方法,即先进行“摘要投稿”,然后再进行“全文投稿”。一定要注意的是, 这两个阶段都是必须参与的 ,不可以忽略“摘要投稿”。另外,长短文的投稿时间是一样的,也需要注意一下。 摘要投稿截止:2021年1月25日 23:59(北京时间:1月26日 19:59) 全文投稿截止:2021年2月1日 23:59(北京时间:2月2日 19:59) 注:官方时间是UTC-12时区,北京时间是UTC+8时区。 温馨提示:不要都等到最后时刻再提交,按往年情况来看,最后一刻很可能会非常非常卡,到时候有可能提交不上去。

我,大学没毕业,在OpenAI搞AI,想教教你如何提升“研究品味”

Deadly 提交于 2021-01-18 09:39:28
作者 | 蒋宝尚 编辑 | 陈大鑫 原文链接: 我,大学没毕业,在OpenAI搞AI,想教教你如何提升“研究品味” ​ mp.weixin.qq.com 在AI圈里有这么一个人,虽然大学没有毕业,但却做过谷歌大脑研究员,担任过OpenAI团队的领导人。他被人称作“怪胎”,也被人称作神童。 他的名字叫做Chris Olah。在众人眼里,他的成长树在一开始似乎长“歪”:18岁那一年,进入多伦多大学读本科,随后辍学开始研究计算机。他运气不错,在刚刚开始进行AI研究的时候,他就得到了知名学者、量子物理学家 Michael Nielsen 的指导。 2013 年,图灵奖得主 Yoshua Bengio 曾邀请他去做自己的研究生,但Chris居然拒绝了Bengio的邀请,去谷歌大脑团队做了实习生,跟随Jeff Dean研究卷积神经网络、交互媒体相关的内容。 仍然是运气不错。2015年,在 Greg Corrado 的帮助下,他转为了谷歌的正式员工。在谷歌的那段日子,发过多篇论文,带过博士生,并和贾扬清、Ian Goodfellow等顶尖研究员一起合作过。 根据谷歌学术,其h指数甚至达到了19,总引用数达到了32616,远超拥有博士学位的研究者。其中,最高引用的一篇文章,TensorFlow: Large-scale machine learning on heterogeneous

NLP中的对抗样本

我与影子孤独终老i 提交于 2021-01-17 20:50:55
自然语言处理方面的研究在近几年取得了惊人的进步,深度神经网络模型已经取代了许多传统的方法。但是,当前提出的许多自然语言处理模型并不能够反映文本的多样特征。因此,许多研究者认为应该开辟新的研究方法,特别是利用近几年较为流行的对抗样本生成和防御的相关研究方法。 使用对抗样本生成和防御的自然语言处理研究可以基本概括为以下三种:1. 用未察觉的扰动迷惑模型,并评价模型在这种情况下的表现;2. 有意的改变深度神经网络的输出;3. 检测深度神经网络是否过于敏感或过于稳定,并寻找防御攻击的方法。 Jia 和 Liang 首先考虑在深度神经网络中采用对抗样本生成(或者「对抗攻击」,两者皆可)方法完成文本处理相关任务。他们的研究在自然语言处理社区很快获得了研究方面的关注。 然而,由于图片和文本数据内在的不同,用于图像的对抗攻击方法无法直接应用与文本数据上。首先, 图像数据(例如像素值)是连续的,但文本数据是离散的 。其次, 仅仅对像素值进行微小的改变就可以造成图像数据的扰动,而且这种扰动是很难被人眼察觉的 。但是 对于文本的对抗攻击中,小的扰动很容易被察觉,但人类同样能「猜出」本来表达的意义 。因此 NLP 模型需要对可辨识的特征鲁棒,而不像视觉只需要对「不太重要」的特征鲁棒。 DeepWordBug 的深度网络攻击示例。选自 arXiv:1902.07285 与图像领域一样,有进攻就会有防御