自然语言处理

这是一条通往 AI 的路......

对着背影说爱祢 提交于 2020-11-22 10:08:42
图:stoica-ionela-530970-unsplash AI 趋势已是必然。如果想与世界同步,跟进 AI 或许是明智之举。这不是说一定要从事 AI 直接相关的工作,但是起码得具备这方面的思维和知识,因为 AI 很快或已经渗透到各行各业。一些用传统方法解决的问题,用机器学习算法会不会解决地更好呢?这或许是我们在以后的工作或学习中首先要问自己的。 这是好事,毕竟解决问题的方法更多了。如何才能找到步入这扇门的钥匙呢?我想很多人都有自己心中的答案,或者也有一些现在找不到答案。最近,和几个朋友交流过这个问题,与大家一起分享下。 大致来说,要想步入这一行,假定未接触过任何算法,需要先了解一些基础算法,最最基础的。通过这一环节,你便能知道算法到底是怎么一回事。很多从事软件开发的,习惯了调用API,用 intuition 去实现业务逻辑,毕竟都究竟敏捷开发吗,但长此以往,形成了一种靠直觉写代码的习惯,如果再不爱总结,最终你会发现自己完全变成了一个 tool,而没有自己的 idea. 最后,你发现,没有 special 、没有别人无法复制你的东西。这也就是,很多做纯开发多年的人,想转行做产品经理偏管理,或者算法工程师偏算法的原因。如果你想转到算法这块,并且之前对算法没有专门的研究,你需要首先开始去学习基础算法比如从做基础的算法题开始。这样做,不是题海战术,而是培养真正的算法思维

UC伯克利摘最佳论文、Hugging Face获最佳demo,EMNLP 2020奖项公布

不打扰是莪最后的温柔 提交于 2020-11-22 09:46:40
作者|魔王、杜伟、小舟 来源|机器之心 刚刚,正在进行中的 EMNLP 2020 大会公布了一系列奖项,其中最佳论文奖由加州大学伯克利分校的研究者获得,爱丁堡大学华人博士生 Yanpeng Zhao 为一作的论文获得了最佳论文荣誉提名奖(共 4 篇论文获此奖项)。另外,本届大会的最佳 Demo 奖由大家非常熟悉的 Hugging Face 团队摘得。 EMNLP 是国际语言学会(ACL)下属的 SIGDAT 小组主办的自然语言处理领域的顶级国际会议,每年举办一次。受疫情影响,今年的 EMNLP 会议以线上形式举行。 EMNLP 2020 共收到投稿 3677 篇,其中有效投稿为 3359 篇,接收论文数量为 752 篇,包括长论文 602 篇、短论文 150 篇。 从接收率看,EMNLP 2020 的论文接受率创下新低,为 22.4%。其中长论文接收率为 24.6%,短论文接收率为 16.6%。 根据大会公布信息,美国、中国、英国、德国、印度、加拿大、日本的论文投稿量最多,中美两国均有 1000 余篇论文投稿。而就各国论文接收率而言,英国、新加坡和丹麦的论文接收率名列前茅,中国的论文接收率仅有 13.2%,低于大会平均接收率。 另外,我们参考了 Aminer 平台对于 EMNLP 2020 会议的统计数据。从热门选题来看,EMNLP 2020 会议涉及了语言模型、神经机器翻译

【中文版 | 论文原文】BERT:语言理解的深度双向变换器预训练

大兔子大兔子 提交于 2020-11-22 04:32:12
BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding 谷歌AI语言组论文 《 BERT :语言理解的深度双向变换器预训练》 ,介绍一种新的语言表征模型BERT——来自变换器的双向编码器表征量。异于最新语言表征模型,BERT基于所有层的左、右语境来预训练深度双向表征量。BERT是首个大批句子层面和词块层面任务中取得当前最优性能的表征模型,性能超越许多使用任务特定架构的系统,刷新 11 项 NLP 任务 当前最优性能记录,堪称最强NLP预训练模型!未来可能成为新行业基础。本文参考网上各大文章,整理翻译了 BERT 论文,在自己学习的同时也分享给大家,欢迎交流指教。 论文地址 : https://arxiv.org/pdf/1810.04805.pdf 摘要   本文介绍一种称之为 BERT 的新 语言表征模型 ,意为来自变换器的双向编码器表征量(BidirectionalEncoder Representations from Transformers)。不同于最近的 语言表征模型 (Peters等,2018; Radford等,2018) ,BERT旨在基于所有层的左、右语境来预训练 深度双向表征 。因此,预训练的BERT表征可以仅用一个额外的输出层进行微调,进而为很多任务(如

响铃:偏安一隅的SaaS客服机会在哪,难点又在哪?

左心房为你撑大大i 提交于 2020-11-22 01:24:11
就在移动浪潮铺天盖地席卷了C端市场后,企业级软件市场也从传统PC时代装机卖软件模式过渡到SaaS模式,最近几年,中国SaaS市场以30%的年复合增长率保持着高速增长,企业级SaaS服务的风口正在积聚力量,快速渗透企业办公服务所涉及的市场、销售、客服、沟通、财务、采购、HR等各个层面,作为其中垂直细分市场,SaaS客服也已全面打开,但当巨头涌入行业竞争加剧进入短刀相拼时期,决胜力量又是什么? 在需求中进化,SaaS客服列队成三大阵营 我国SaaS智能客服市场的发展除了人力成本的上升、移动互联网技术的普及和移动社交场景的涌现以及自然语言处理与机器学习技术的进步外,更多的是由特殊的时期和国内环境共同影响带来的机会。 风向正好,SaaS客服迎来崭露头角的机会 首先, 企业客服市场潜力被释放。 客服一直是企业工作中不可或缺的组成部分,易观预测到2017年,中国SaaS客服市场交易规模将增长至680亿元人民币,这一方面是因为企业基数大,根据工商总局统计的数据显示,截止2015年底,国内注册有25万家大型企业、中型企业350万家、小型企业150万家以及微型企业1500万家,他们对客服的需求旺盛而迫切。另一方面是因为客服工作变得越来越重要。一份来自Zendesk的统计报告显示:78%的受访者将客户服务列为影响供应商信誉的第一要素;62%的B2B和42

推荐系统| 基于人口统计学| 基于内容

旧街凉风 提交于 2020-11-22 01:05:36
常用推荐算法分类 实时和离线; 是否个性化推荐;基于统计的推荐; 个性化推荐的原则:如可以基于相似度去划分、基于已有的知识去推荐、基于模型的推荐(去学习这个推荐的模型); 按数据源划分:用户、物品、用户行为数据即它们俩之间的关系; 基于人口统计学的推荐(基于用户)与用户画像 基于内容的推荐(基于物品)与特征工程 基于协同过滤的推荐(用户行为数据) 1. 基于人口统计学的推荐 根据用户特质找到他的邻居;用户基本的信息; 基于人口统计学的推荐机制(Demographic-based Recommendation)是一种最易于实现的推荐方法,它只是简单的根据系统用户的基本信息发现用户的相关程度,然后将相似用户喜爱的其他物品推荐给当前用户 对于没有明确含义的用户信息(比如登录时间、地域等上下文信息),可以通过聚类等手段,给用户打上分类标签 对于特定标签的用户,又可以根据预设的规则(知识)或者模型,推荐出对应的物品 用户信息标签化的过程一般又称为 用户画像(User Profiling) 用户画像 用户画像(User Profile)就是企业通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后,完美地抽象出一个用户的商业全貌作是企业应用大数据技术的基本方式; 用户信息不好收集,所以有时候可能不准确;可收集他的行为数据; 用户画像为企业提供了足够的信息基础

90 后美女独家秘籍:从小白到 AI 算法工程师

亡梦爱人 提交于 2020-11-21 13:35:43
这是一篇关于如何成为一名AI算法工程师的长文~ 经常有朋友私信问,如何学python呀,如何敲代码呀,如何进入AI行业呀? 正好回头看看自己这一年走过的路,进行一次经验总结。 来看看你距离成为一名AI工程师还有多远吧~ ⭐具体内容: 🔺 我是因为什么开始接触敲代码 🔺 人工智能/机器学习/深度学习 🔺 自学如何寻找学习资料 🔺 如何选择编程语言/框架 🔺 校招/社招/实习/面试经验 🔺 一碗鸡汤 ⭐声明: 🔼 本篇内容均属于个人观点,建议采纳对自己有用的经验,如有疏漏,欢迎指正,共同进步! 🔼 2017年5月开始第一份实习 / 2017年7月开始学敲代码 / 2017年11月硕士毕业 🔼 擅长的编程语言:R / Python 🔼 不花钱报班,全靠自学,最初是因为穷,后来发现“开源”的世界真是太美好了! ⚡我是因为什么开始接触敲代码? 我的第一个模型是什么 由于本科是数学,研究生是量化分析,第一份实习是一家金融科技公司,开始接触所谓的“Fintech”😝 第一个任务就是做客户的信用评分卡模型,目的给每个用户打一个信用分数,类似支付宝的芝麻信用分。这是银行标配的一个模型,最常见最传统的算法用的就是 逻辑回归 。 在课堂上使用的工具是SAS,SPSS,属于有操作界面的,菜单非常齐全,只需要鼠标点一点就能建模,很好上手。但是SAS这些要付钱的,年费还是相当的贵

ACL-IJCNLP 2021 第一次正式征稿通知

北战南征 提交于 2020-11-20 16:22:15
编者注:各位读者可多关注与上次征稿通知不同或新增的内容(高亮标注)。 计算语言学协会年会(ACL 2021) 将于2021年8月1日至6日在泰国曼谷举办。大会委员会持续关注全球疫情情况,并将适时更新办会方案(举行虚拟线上会议或混合形式的会议)。 ACL是计算语言学和自然语言处理领域最重要的顶级国际会议 ,由国际计算语言学协会组织,每年举办一次。据谷歌学术计算语言学刊物指标显示,ACL影响力位列第一,是CCF-A类推荐会议。 今年ACL的主题是“NLP for Social Good”。 ACL-IJCNLP 2021: https:// 2021.aclweb.org/ 重要时间 匿名期开始时间:2021年1月1日 投稿截止时间(长文、短文摘要):2021年1月25日 投稿截止时间(长文、短文正文):2021年2月1日 作者反馈时间:2021年3月25日至31日 录用通知时间:2021年5月5日 终稿提交时间:2021年6月1日 所有截止时间是11:59 pm UTC -12h(即地球上的任何地方)。 投稿方向 ACL-IJCNLP 2021欢迎各类投稿,包括但不限于以下方向(按首字母顺序): 社会计算与社交媒体 对话和交互系统 语篇和语用学 道德伦理与自然语言处理 语言生成 信息抽取 信息检索与文本挖掘 自然语言处理模型的可解释性和分析 计算机视觉、机器人学或其他Language

Vokenization:一种比GPT-3更有常识的视觉语言模型

ぃ、小莉子 提交于 2020-11-20 12:35:53
学习人工智能,最好的办法就是先考上大学,学好计算机和数学,其次就是生个孩子。 这可不是一个段子。有了孩子之后,你会能更好理解人工智能到底是如何发生的。 看着一个牙牙学语的小婴儿开始对这个世界发生好奇,终于有一天开始指着一个毛茸茸的东西叫出“猫咪”的时候,你可能就会理解教会一个孩子说话并不比教会人工智能认出一只猫更容易。 人工智能靠大量的算力和数据,而人类靠着五感,还有我们那个低功率的大脑。不过,很快你就会对小孩子的学习能力惊讶不已,他会指着各种他不认识的东西问你“这是什么”,直到你不胜其烦。等到再长大一些,小孩子就不会满足于仅仅知道这些东西的名字,开始想你发问“为什么会这样”,再次把你问到山穷水尽。 我们知道,现在人工智能领域,图像识别和自然语言处理(NLP)正处在如日中天的发展阶段。在众多单项上面,图像识别的能力要远远高于普通人,甚至比专家还好,NLP的翻译、听读、写作能力更是与专业人士不相上下,特别今年推出的GPT-3,更是以超大参数规模这种氪金方式来实现逆天的写作能力。 但这又怎样?尽管GPT-3可以编造出一大段看起来很真实的假新闻,但它仍然是靠着过去的文本经验来认知世界的,它会在很多常识性的问题上犯下低级错误,比如在回答“太阳有几只眼睛”的反常识问题上,GPT-3照样一本正经的给出“太阳有一只眼睛”的答案。 如果是一个人第一次碰到这种问题,它往往并不是从文本里找答案

UC伯克利摘最佳论文、Hugging Face获最佳demo,EMNLP 2020奖项公布

拥有回忆 提交于 2020-11-20 08:15:09
刚刚,正在进行中的 EMNLP 2020 大会公布了一系列奖项,其中最佳论文奖由加州大学伯克利分校的研究者获得,爱丁堡大学华人博士生 Yanpeng Zhao 为一作的论文获得了最佳论文荣誉提名奖(共 4 篇论文获此奖项)。另外,本届大会的最佳 Demo 奖由大家非常熟悉的 Hugging Face 团队摘得。 机器之心报道,编辑:魔王、杜伟、小舟。 EMNLP 是国际语言学会(ACL)下属的 SIGDAT 小组主办的自然语言处理领域的顶级国际会议,每年举办一次。受疫情影响,今年的 EMNLP 会议以线上形式举行。 EMNLP 2020 共收到投稿 3677 篇,其中有效投稿为 3359 篇,接收论文数量为 752 篇,包括长论文 602 篇、短论文 150 篇。 从接收率看,EMNLP 2020 的论文接受率创下新低,为 22.4%。其中长论文接收率为 24.6%,短论文接收率为 16.6%。 根据大会公布信息,美国、中国、英国、德国、印度、加拿大、日本的论文投稿量最多,中美两国均有 1000 余篇论文投稿。而就各国论文接收率而言,英国、新加坡和丹麦的论文接收率名列前茅,中国的论文接收率仅有 13.2%,低于大会平均接收率。 另外,我们参考了 Aminer 平台对于 EMNLP 2020 会议的统计数据。从热门选题来看,EMNLP 2020 会议涉及了语言模型、神经机器翻译

人工智能培训有哪些实战项目?

旧城冷巷雨未停 提交于 2020-11-20 05:20:00
  学习人工智能除了要构建自己的基础知识框架以外,还要注重实战项目的练习,这样才能达到灵活掌握人工智能技术的目的。因此,大家在选择人工智能培训机构的时候,一定要考察培训课程中有没有实战项目。以博学谷的人工智能培训课程为例,下面一起来看看相关的实战项目内容。   实战项目一:人脸识别打卡   随着人工智能时代的到来,各大厂纷纷投入大量的人力物力进军人工智能领域。学习掌握大厂AI技术,可以使我们更快捷的实现业务场景智能化。本次人工智能培训主要介绍了百度AI的三大平台:机器学习平台、深度学习平台、人工智能平台,并对人工智能平台包含的三大主流技术:图像、语音、自然语言处理进行了深入讲解,最后以“人脸识别打卡”案例,详细讲解了项目架构设计和开发流程。学完本课程,不仅可以掌握图像、语音和自然语言处理API的使用,而且可以利用API实现具体应用的开发。   实战项目二:商品物体检测   物体检测是计算机视觉中最常见应用之一,有极为广泛的用途。本课程从目标检测算法出发,对各个算法进行了全面细致的讲解,然后讲解了数据集标记与处理的相关内容,最后以一个实战项目“商品物体检测”为例,讲解了整个项目的架构设计,以及整个项目的开发流程。学完本课程不仅可以掌握目标检测算法的原理、模型训练工具的使用,而且可以掌握利用TensorFlow Serving完成模型部署以及客户端编写能力。   实战项目三:AI游戏