自然语言处理

冷启动问题的一点尝试LCE

核能气质少年 提交于 2020-12-09 06:36:31
各位大佬好,最近我又抑郁了。比上不足,我比上不足,Life is harder. For Recommendation in Deep learning QQ Group 277356808 For Visual in deep learning QQ Group 629530787 I'm here waiting for you 不接受这个网页的私聊/私信!!! 说了多少次不接受网页的私信与私聊还是有人这样私信,我看了也不回的,您继续就好了。评论一下会死?加群详聊会见光死?老子又不是和你相亲。 有些公号的文章骂我,翻译paper谁不会,老子其实不是秀,我翻译下至少当时“假装理解”了,是不是真的懂不知道,但过后还可以自己再看下啊,不然又要重头看,那样太累了。另外至少我翻译时不会想很多杂乱的破事,至少我可以静下来,别乱指责别人,总有你不了解的事。 写在前面—— 当你迷茫、困惑时,不妨想想来时的路,那么推荐到底是为了解决什么问题呢?在信息流APP中,有视频,文章,gif,小视频等内容,推荐的任务就是将这些分发给每个用户,如果item很少(比如1000以下),这时候其实用不上推荐,过不了两天用户都走了,用户为啥走,这时的主要原因是内容少或者内容很差(没有吸引力,这时候不能怪推荐算法),那么留住用户或者装逼的说法,留存率啥的,第一条关键因素不就是好的内容相当够吗?当item数量上来后

AI产品经理的入门必修课——案例篇(1)

筅森魡賤 提交于 2020-12-09 00:59:49
作者介绍 @毛毛 产品经理 集颜值和才华于一身。 对AI了解深入,经验丰富。 前面介绍了「AI产品经理需要具备的能力和对数据、算法需要理解的程度」、「机器学习的实际训练过程」,后面将围绕AI产品在当前环境下的热门应用来进行探讨,涵盖了语音识别、图像识别、NLP自然语言处理、知识图谱等产品化落地的场景。 1 人工智能与「人工」智能 人每天做的最多的事情就是看、听、说、思考、决策,这是人这个复杂系统需要具备的能力,那么如果要做像人一样的智能机器,最基础要解决的问题便是图像处理的能力、声音的处理能力、口语的处理能力、逻辑推理能力,具备了这些能力之后,人才能做更多的事情,同理机器也就能做更多的事情。 机器学习作为人工智能的实现手段之一,核心是用算法来解析数据、从数据中学习规律,再对现实世界中的事件做出决策和预测。由于强依赖数据,对于数据的处理和应用便显得极为重要。AI场景中需要面临大量的非结构化数据的处理,涉及了大量的人力工作在里面。在当前发展的阶段,我更愿意称它为「人工」智能。 2 如何构建AI产品 构建AI产品需要经历的几个核心阶段,简单概括为业务梳理阶段,准备数据阶段,设计产品研发方案阶段。 业务梳理 不同的行业有不同的行业背景,在设计产品方案之前需要了解自身所处行业的业务逻辑及面临的需求痛点,AI产品本质上解决的是效率问题,不管是提高信息生产的效率还是信息传递的效率

蚂蚁金服招人!机器学习算法/JAVA开发/产品

让人想犯罪 __ 提交于 2020-12-08 08:27:07
欢迎大家关注蚂蚁集团数字金融业务线的工作机会。在这里你将接触十亿级的平台型用户数据 以及 业界领先的金融科技算法和产品。你的每一个贡献都将影响大部分国人和世界各地的用户。本组目前开放的职位如下文所述(有数十HC)。无论你是否匹配以下岗位,都可以 加我的微信OwlLite 沟通关于 职业发展、我司岗位机会、组内业务情况、简历要求和修改、面试经验/改进和流程 等方面的问题。如果你自信已经达到了对应岗位的要求,可以将简历(包含 可联系到的 手机号)发送到 miaoqianwen.mqw@antgroup.com (本内容长期有效)。注意,岗位要求非硬性标准。 1.消费金融风控算法(杭州/上海) 职位描述 从花呗、借呗、互联网银行等金融信用业务出发,打造世界一流的信用风险控制、资金管理、产品转化等多种核心智能能力。 岗位要求 在以下一个或多个领域有扎实的理论技术基础和5年以上相关工作经验,是该领域的资深/高级专家,领域包括但不限于数据挖掘、机器学习(CV/NLP等)、搜索推荐、广告系统、自然语言处理、运筹优化等; 具有较强的业务敏感度和学习能力,对公司业务有全局理解和创新思考;同时具有横向协同整合资源,结合业务和技术创新,形成完整的解决方案能力。有互联网、金融领域等行业经验者优先; 具有结合大数据与人工智能技术支持业务创新的经验,主导重大项目或课题的立项并落地完整解法取得突出业务成果

知识图谱综述

元气小坏坏 提交于 2020-12-07 04:38:48
知识图谱简介 本文根据幕布上这篇思维导图总结而得 无需AI基础,小白也能看懂的知识图谱技术与应用 ##一、什么是知识图谱? ###定义 学术上:语义网络(Semantic Network)的知识库 应用中:多关系图(Multi-relational Graph) ###什么叫多关系图? 图:由节点和边构成,通常只包含一种类型的节点和边 多关系图:包含多种类型的节点和多种类型的边 ###知识图谱中的节点和边 节点 : 通常用实体(Entity)来表达 实体:现实世界中的事物 边 通常用关系(Relation)来表达 关系:不同实体之间的某种联系 ##二、知识图谱的表达 ###属性图(Property Graph) 运用前提:当知识图拥有属性时 运用场景:工业界 图片概述:李明李飞是父子关系,李明拥有138开头的电话号,开通时间是2018 电话号属性:2018年开通 李明属性:25岁、职位总经理 ###RDF(资源描述框架) 运用前提:不支持实体或关系拥有属性 运用场景:学术界 ##三、知识抽取 ###数据主要来自2种渠道 业务本身的数据 包含在公司内的数据库表 以结构化的方式存储 只需简单预处理即可输入后续AI系统 网络公开、抓取的数据 以网页形式存在 属于非结构化数据 需要借助自然语言处理等技术提取结构化信息 处理非结构化数据涉及的自然语言处理技术 实体命名识别(Name

详解Transformer (Attention Is All You Need)

蓝咒 提交于 2020-12-05 10:15:19
点击上方“ 迈微电子研发社 ”,选择“ 星标★ ”公众号 重磅干货,第一时间送达 前言 注意力(Attention)机制[2]由Bengio团队与2014年提出并在近年广泛的应用在深度学习中的各个领域,例如在计算机视觉方向用于捕捉图像上的感受野,或者NLP中用于定位关键token或者特征。谷歌团队近期提出的用于生成词向量的BERT[3]算法在NLP的11项任务中取得了效果的大幅提升,堪称2018年深度学习领域最振奋人心的消息。而BERT算法的最重要的部分便是本文中提出的Transformer的概念。 正如论文的题目所说的,Transformer中抛弃了传统的CNN和RNN,整个网络结构完全是由Attention机制组成。更准确地讲,Transformer由且仅由self-Attenion和Feed Forward Neural Network组成。一个基于Transformer的可训练的神经网络可以通过堆叠Transformer的形式进行搭建,作者的实验是通过搭建编码器和解码器各6层,总共12层的Encoder-Decoder,并在机器翻译中取得了BLEU值得新高。 作者采用Attention机制的原因是考虑到RNN(或者LSTM,GRU等)的计算限制为是顺序的,也就是说RNN相关算法只能从左向右依次计算或者从右向左依次计算,这种机制带来了两个问题: 时间片 的计算依赖

AAAI2021结果出炉&AAAI2021微信交流群

我的梦境 提交于 2020-12-03 11:12:53
AAAI2021官方今日发布接收论文列表,9034篇论文提交有1692篇论文接受,接受率21%! AAAI2021的结果已经在cmt系统可以看到,邮件也已经陆续在发,没有看到的同学可以查一下垃圾邮件。 建了一个AAAI2021交流群,群里基本确保都是投稿的同学,后面还会有相关上岸群,主要方便相关同学交流,沟通。有需要的直接可以添加微信yizhen-nlp,备注AAAI2021投稿+学校+姓名即可。 来源: oschina 链接: https://my.oschina.net/u/4275902/blog/4771427

文本分类六十年

徘徊边缘 提交于 2020-12-03 11:11:17
授权自AI科技大本营(ID:rgznai100) 本文 约4500字 ,建议阅读 9 分钟 本文介绍基于机器学习和深度学习的文本分类。 文本分类是自然语言处理中最基本而且非常有必要的任务,大部分自然语言处理任务都可以看作是个分类任务。近年来,深度学习所取得前所未有的成功,使得该领域的研究在过去十年中保持激增。这些文献中已经提出了许许多多的算法模型、基准数据集一集评测指标,因此需要一个对这个领域进行全面而且跟进趋势的调查。这里我们介绍基于机器学习和深度学习的文本分类,主要内容来自北航、伊利诺伊大学等学者联合发表论文 A Survey on Text Classification: From Shallow to Deep Learning。 本文通过回顾文本分类领域自1961年到2020年以来的历年SOTA模型来填补这类综述研究的空白,聚焦于从浅层学习到深度学习的各种模型。根据文本分类任务所涉及的文本数据来源、特征提取的方法以及分类模型的不同进行分类对比研究。随后,将讨论每一个类别的详细情况,其中涉及到给预测和测试提供可信支撑的技术变迁以及基准数据集。这项调查对不同模型之间的性能优劣进行了全面比较,而且指出了各种评测指标的优缺点。 最后,对各种算法模型的核心精髓、未来的研究趋势以及该研究领域面临的挑战进行了提炼总结。 1、文本分类 文本分类流程 在许多自然语言处理(NLP)下游任务中

人工智能中国专利技术分析报告发布,百度三年蝉联榜首

删除回忆录丶 提交于 2020-12-02 23:13:32
近日,国家工业信息安全发展研究中心、工信部电子知识产权中心发布《2020人工智能中国专利技术分析报告》,展示我国人工智能领域创新发展新态势。其中,在人工智能专利申请量和授权量方面,百度分别以9364件专利申请和2682件专利授权处于第一位,这也是百度连续三年在该人工智能领域专利分析报告中总申请量授权量蝉联第一,展现出中国AI“头雁”的实力。 报告中的人工智能专利申请排名显示,我国权利主体在人工智能领域技术创新活跃,前十名中,我国的企业、高校及科研院所占了8个名额。其中,百度人工智能领域专利申请成绩斐然,申请数量超过微软和三星两家国外权利主体数量之和。此外,百度在深度学习技术、自然语言处理、智能语音、自动驾驶、知识图谱、智能推荐、交通大数据多个领域位居专利申请量和授权量首位。 在深度学习领域,百度专利申请量和授权量均为第一名,体现出其在深度学习技术领域具有较强的技术优势。且百度深度学习专利申请量在近三年稳步增长,处于匀速上升的态势。随着百度深度学习技术的快速发展,专利的转化应用也迈入了快车道,百度飞桨深度学习平台是我国首个自主研发、开源开放、功能完备的产业级深度学习平台。 在自然语言处理领域,百度专利申请量以1383件稳居第一,与第三名微软公司申请数量647件相比,具有较大的领先优势。疫情期间百度自然语言处理技术作用巨大,百度灵医智惠基于自然语言处理技术推出的“智能咨询助手

知乎热议:科研有很水的idea应该发表出来吗?

生来就可爱ヽ(ⅴ<●) 提交于 2020-12-01 08:47:16
科研有很水的idea应该发表出来吗? - 来源:https://www.zhihu.com/question/372648294 小伙伴们,对于只能发EI,水会,OA SCI期刊那种,自己看到都觉得很垃圾的idea,你认为有发表的价值吗? 作者: Jeremy Zhou https://www.zhihu.com/question/372648294/answer/1030507968 我认为这个水的idea该不该发要看自身的情况。 情况1. 假如,马上毕业就缺那么一篇OA SCI或者EI之类的,那就发。 火烧眉毛了还不发那不是认不清形势么。 只要这个水的idea也是idea,而不是靠弄虚作假编造一片文章,我认为就无伤大雅。 情况2. 假如,不是那么着急毕业(可能刚博士第一年),那我认为完全没有必要。 你自己都认为idea水,为什么要发呢? 总发水文,很可能就形成路径依赖了,后期很可能只能发水文,idea质量也都不行。 “仓廪实而知礼节,衣食足而知荣辱”,私以为科研很多时候也是这样。 刚入门的研究生发一点水的idea也算是一种入门的过程。 但是如果发了好几篇,还在那只发水idea,那就没什么意思了。 再说说题主说的OA SCI期刊: 以我最近审稿的情况举例。 之前帮IEEE Access审过一篇文章,发现太水了。 后来再找我审稿,扫了一下abstract也都觉得太没意思

10条PyTorch避坑指南

和自甴很熟 提交于 2020-11-30 23:40:19
点击上方“ 视学算法 ”,选择加" 星标 " 重磅干货,第一时间送达 本文转载自:机器之心 | 作者:Eugene Khvedchenya 参与:小舟、蛋酱、魔王 高性能 PyTorch 的训练管道是什么样的?是产生最高准确率的模型?是最快的运行速度?是易于理解和扩展?还是容易并行化?答案是,包括以上提到的所有。 如何用最少的精力,完成最高效的 PyTorch 训练? 一位有着 PyTorch 两年使用经历的 Medium 博主最近分享了他在这方面的 10 个真诚建议 。 ‍ 在 Efficient PyTorch 这一部分中,作者提供了一些识别和消除 I/O 和 CPU 瓶颈的技巧。第二部分阐述了一些高效张量运算的技巧,第三部分是在高效模型上的 debug 技巧。 在阅读这篇文章之前,你需要对 PyTorch 有一定程度的了解。 好吧,从最明显的一个开始: 建议 0:了解你代码中的瓶颈在哪里 命令行工具比如 nvidia-smi、htop、iotop、nvtop、py-spy、strace 等,应该成为你最好的伙伴。你的训练管道是否受 CPU 约束?IO 约束?GPU 约束?这些工具将帮你找到答案。 这些工具你可能从未听过,即使听过也可能没用过。没关系。如果你不立即使用它们也可以。只需记住,其他人可能正在用它们来训练模型,速度可能会比你快 5%、10%、15%-……