自然语言处理

2020年计算机视觉技术最新学习路线总结 (含时间分配建议)

最后都变了- 提交于 2021-01-07 08:12:12
介绍 如今有大量的资源可以用来学习计算机视觉技术,那我们如何从众多教程中进行选择呢?哪个值得我们去投入时间呢? 如果你也遇到这些问题,那么恭喜你来对地方了。我们通过理解数百种资源来选择值得你花费时间的资源-这就是我们首先推出本文的主要原因之一。 去年,我们广泛地专注于两个技术的学习方法——机器学习和深度学习,但是我们的社区需要更细化的学习路径—— 一个结构化的计算机视觉学习路径。 这是可以理解的,因为计算机视觉专家的需求和价值在业界遥遥领先。专门研究计算机视觉及其不同方面,你会看到大量招聘人员试图接近你。 我记得当我开始自己的计算机视觉之旅时,我同时参考了多种资源——书籍、文章(当时并不多)、YouTube视频等等。 因此,我很高兴有机会为你整理这种结构化的计算机视觉学习路径。在开始学习之前,让我们了解一下为简化你的学习过程而构建的框架。 我们的计算机视觉学习路径框架 每个月都要有其对应的学习结构,这是我们对每个月需要了解的不同方面进行分类的方式: 目标 :这个月你会学到什么?关键要点是什么?你的计算机视觉之旅将如何进行?我们会在每个月初提及此问题,以确保你知道该月底的立场以及所处的位置 建议时间 :你每周平均应在该部分上花费多少时间 学习资源 :该月你将学习的计算机视觉主题的顶级资源集合,其中包括文章,教程,视频,研究论文和其他类似资源 你可以在此处下载该学习路径的相应信息图。

大邓强力推荐-jupyter notebook使用小技巧

依然范特西╮ 提交于 2021-01-06 13:52:37
1. 快捷键 在jupyter notebook菜单栏有Help按钮,可以查看jupyter的快捷键 2. 将多个变量输出 一般jupyter notebook默认只打印最后一个变量的结果。比如 from pydataset import data quakes = data ( 'quakes' ) quakes . head ( 10 ) #前10行数据 quakes . tail ( 3 ) #后3行数据 通过设置InteractiveShell.ast node interactivity参数为all,就可以让所有的变量或者声明都能显示出来 from IPython . core . interactiveshell import InteractiveShell InteractiveShell . ast_node_interactivity = 'all' from pydataset import data quakes = data ( 'quakes' ) quakes . head ( 10 ) #前10行数据 quakes . tail ( 3 ) #后3行数据 3. 问号? 除了Help菜单能让我们快读查看numpy、pandas、scipy和matplotlib库,其实在cell中使用 ? 可以查看库、函数、方法和变量的信息。 #查看库的信息

2021年的第一盆冷水:有人说别太把图神经网络当回事儿

余生长醉 提交于 2021-01-06 09:11:02
图神经网络(GNN)是目前热门的研究方向,但我们是否应把注意力过多地放在这上面?数据科学家 Matt Ranger 从模型的本质、性能基准测试、实践应用等方面陈述了自己的观点。 选自 http:// singlelunch.com ,作者:Matt Ranger,机器之心编译,机器之心编辑部。 图神经网络(GNN)是机器学习中最热门的领域之一,在过去短短数月内就有多篇优秀的综述论文。但数据科学家 Matt Ranger 对 GNN 却并不感冒。他认为这方面的研究会取得进展,但其他研究方向或许更重要。 博客链接: https://www. singlelunch.com/2020/12 /28/why-im-lukewarm-on-graph-neural-networks/ 机器之心对这篇博客进行了编译整理,以下是博客内容。 模型的关键是压缩 图经常被认为是一种「非欧几里得」数据类型,但实际上并不是。正则图(regular graph)只是研究邻接矩阵的另一种方式: 如上图所示,充满实数的矩阵却被称为「非欧几里得」,这很奇怪。 其实这是出于实际原因。大多数图都相当稀疏,因此矩阵中会包含很多 0。从这个角度看,非零数值非常重要,这让问题接近于(计算上很难的)离散数学,而不是(容易的)连续、梯度友好的数学。 有了全矩阵,情况会变得容易 如果不考虑物理领域的内容,并假设存在全邻接矩阵

图解Reformer:一种高效的Transformer

拟墨画扇 提交于 2021-01-06 05:26:34
点击上方“AI公园”,关注公众号,选择加“星标“或“置顶” 作者: Alireza Dirafzoon 编译:ronghuaiyang 导读 在单GPU上就可以运行的Transformer模型,而且几乎不损失精度,了解一下? 如果你一直在开发机器学习算法用于处理连续数据 —— 例如语言处理中的文本,语音信号,或视频 —— 你可能听说过或使用过Transformer,你可能知道这和是推特中认为的不同于一个东西。 图1,打破僵局,摘自Chris Manning教授的推特 最近,谷歌推出了Reformer架构,Transformer模型旨在有效地处理处理很长的时间序列的数据(例如,在语言处理多达100万个单词)。Reformer的执行只需要更少的内存消耗,并且即使在单个GPU上运行也可以获得非常好的性能。论文 Reformer: The efficient Transformer 将在ICLR 2020上发表(并在评审中获得了近乎完美的分数)。Reformer模型有望通过超越语言应用(如音乐、语音、图像和视频生成)对该领域产生重大影响。 在这篇文章中,我们将努力深入Reformer模型并试着去理解一些可视化方面的指南。准备好了吗? 为什么是Transformer? 在NLP类的任务中,如机器翻译、文本生成、问答,可以被形式化为sequence-to-sequence的学习问题。长短期记忆

人工智能基准(Benchmarking)再思考

非 Y 不嫁゛ 提交于 2021-01-05 12:01:05
来源:专知 本文 多图 ,建议阅读 5 分钟 本文介绍我们在人工智能(特别是在自然语言处理)中进行基准测试的方式时所做的工作。 当前人工智能中的基准测试范式存在许多问题:基准很快饱和,容易过度拟合,包含可利用的注释器工件,评估指标不清晰或不完善,并且不能衡量我们真正关心的东西。我将谈谈我在尝试重新思考我们在人工智能(特别是在自然语言处理)中进行基准测试的方式时所做的工作,包括对抗性的NLI和模因数据集,以及最近推出的Dynabench平台。 https://nlp.stanford.edu/seminar/details/douwekiela.shtml 来源: oschina 链接: https://my.oschina.net/u/4323830/blog/4878328

突破2.4kstar!一个Seq2seq模型的Pytorch实现库

做~自己de王妃 提交于 2021-01-05 08:00:56
注:文末附【深度学习与自然语言处理】交流群 介绍一个Seq2seq模型的实现tutorial,使用pytorch和torchtext实现。目前已经有2400个start,质量应该不错。有代码参考比没有代码参考可好太多了,尤其对于新手! 还给出了一些其他Seq2seq的实现仓库: 机器学习算法-自然语言处理交流群 已建立机器学习算-自然语言处理微信交流群!想要进交流群进行学习的同学,可以直接加我的微信号: HIT_NLP 。加的时候备注一下: 知乎+学校+昵称 (不加备注不会接受同意,望谅解) ,即可。然后我们就可以拉你进群了。群里已经有非得多国内外高校同学,交流氛围非常好。 推荐阅读 156个参考文献!Visual Transformer 调研survey NLP生成任务痛点!58页generation评价综述 机器学习画图模板ML Visuals更新 谷歌最新28页高效 Transformer 模型综述 Papers with Code 2020 全年回顾 最新14页《图神经网络可解释性》综述论文 陶大程等人编写!最新41页深度学习理论综述 使用PyTorch时,最常见的4个错误 加拿大蒙特利尔大学助理教授刘邦招收2021/2022年博士生 【EMNLP2020】基于动态图交互网络的多意图口语语言理解框架 一文搞懂 PyTorch 内部机制 AAAI 2021论文接收列表放出!!

机器学习画图模板ML Visuals更新

元气小坏坏 提交于 2021-01-04 09:34:51
去年推荐的机器学习画图模板ML Visuals前几天已经更新,ML Visuals 现在包含了 100 多个可用的自定义图形,可以方便我们在任何论文、博客、PPT 中使用这些资源。伸手党福利好吧! 我们来看一下几个图,秀一下: 项目地址: https://github.com/dair-ai/ml-visuals ​ github.com 赶紧fork+star吧。 机器学习算法-自然语言处理交流群 已建立机器学习算-自然语言处理微信交流群!想要进交流群进行学习的同学,可以直接加我的微信号: HIT_NLP 。加的时候备注一下: 知乎+学校+昵称 (不加备注不会接受同意,望谅解) ,即可。然后我们就可以拉你进群了。群里已经有非得多国内外高校同学,交流氛围非常好。 推荐阅读 谷歌最新28页高效 Transformer 模型综述 30页少样本学习综述!Learning from Very Few Samples Papers with Code 2020 全年回顾 最新14页《图神经网络可解释性》综述论文 陶大程等人编写!最新41页深度学习理论综述 使用PyTorch时,最常见的4个错误 加拿大蒙特利尔大学助理教授刘邦招收2021/2022年博士生 【EMNLP2020】基于动态图交互网络的多意图口语语言理解框架 一文搞懂 PyTorch 内部机制 AAAI 2021论文接收列表放出!

NLP生成任务痛点!58页generation评价综述

主宰稳场 提交于 2021-01-04 09:34:34
作者单位:微软,华盛顿大学 (jianfeng gao等人) 论文 Evaluation of Text Generation: A Survey 注:文末附【深度学习与自然语言处理】交流群 NLP领域的生成问题一直就是一个非常火的topic,衍生出了各种细化的问题,如摘要,对话生成,标题生成,代码生成等,任何一个都是一堆研究者关注的问题,但是评价始终是阻挠该方向真正突破的痛点。到底是BLEU好,还是ROUGE好,到最后还是不如人工评价好,难顶啊! jianfeng gao等人对生成评价问题做了一个58页的详细综述,对这个问题的发展进程,未来趋势做了详细的看法,对这个方向感兴趣的可以了解,这个方向是一个可以出Best paper的方向,奥利给! 机器学习算法-自然语言处理交流群 已建立机器学习算-自然语言处理微信交流群!想要进交流群进行学习的同学,可以直接加我的微信号: HIT_NLP 。加的时候备注一下: 知乎+学校+昵称 (不加备注不会接受同意,望谅解) ,即可。然后我们就可以拉你进群了。群里已经有非得多国内外高校同学,交流氛围非常好。 推荐阅读 机器学习画图模板ML Visuals更新 谷歌最新28页高效 Transformer 模型综述 Papers with Code 2020 全年回顾 最新14页《图神经网络可解释性》综述论文 陶大程等人编写!最新41页深度学习理论综述

Python除了做ai,还能干啥?

巧了我就是萌 提交于 2021-01-02 08:47:59
先说个笑话,很多人一开始学习 Python 的时候,会感到无聊和枯燥,因为一开始都不知道那些循环语句呀、列表呀、元组等知识点的用武之地,所以慢慢的就没什么动力了,然后就去买滑板鞋,开始在地上摩擦,像魔鬼的步伐。逢人就说:“Python没用,这玩意不好找工作,就是拿来玩玩~” 最近有不少 b 友想知道 Python 除了爬虫之外,还能玩点啥呢?那么小帅b接下来就来说说我知道的可以使用 Python 做的事情,让你发现更多的方向。 1、爬虫 这玩意不用我多说了,我最近分享的大部分教程就是爬虫,如果你对爬虫感兴趣的话可以看看我之前写的那些文章,也可以看看这个: python如何赚钱?python爬虫如何进阶?python就业?如何快速入门python?..... 2、数据分析 现在的人们越来越不理智了,总是把自己的想法强加到别人的身上,“感觉”会欺骗人,但是“数据”不会,数据是相对来说比较真实的反应,打开你的手机,看看在哪个应用的用时最长,你说你每天学习,但是一看,挖槽,抖音用了 3 个小时,PornHub 看了 4 个小时,你说你在学习? 这就是数据分析最简单的解释,对我们比较重视的事情,通过数据进行可视化分析,Python 让你理智些,克制些。 3、机器学习 现在不是各种吹人工智能么,机器学习就是人工智能的一个分支,它的应用太广泛了,比如自然语言处理,搜索引擎,各种识别技术

凹凸技术揭秘 · Deco 智能代码 · 开启产研效率革命

浪子不回头ぞ 提交于 2021-01-01 07:55:07
1、背景介绍 近几年中台的兴起,团队围绕业务中台化这个场景,将我们已有的诸多能力进行解构、重组、积木化,希望能将拆解后的积木进行体系化地串联,从而达到降本增效的目的。 对于电商平台来说,每年都需要面临大量的大促活动页面需求,对于如何提高页面产出效率,大家都不约而同采用「页面可视化搭建」解决方案。对应的,我们也构建了「羚珑可视化页面搭建平台」。但近两年大促活动定制化需求井喷,平台有限的组件模块已无法满足产品运营需求,前端工程师也无法再用「复用」的思想简单地解决问题。当业务发展到一定程度,有限的人力以及冗长的开发流程更是无法满足蓬勃发展的业务需求。 我们需要「求变」,传统的人力密集型研发无法解决的问题,是否能用智能化的思想来解决呢?顺着这个方向,我们把目标瞄准了「前端智能化」,希望借助 AI 和机器学习的能力拓展前端能力圈,打通设计与研发的工作流程,实现规模化生产。 2、项目介绍 Deco 智能代码项目是团队在「前端智能化」方向上的探索,我们尝试从设计稿生成代码(DesignToCode)这个切入点入手,对现有的设计到研发这一环节进行能力补全,进而提升产研效率。 在一个日常需求开发流程中,往往需要遵循固定的一套工作流程,产品提交需求 PRD,交互设计师根据 PRD 输出交互稿,再由视觉设计师输出产品视觉稿,接着再进入前端开发工作流。对于前端工程师来说,输入源是视觉稿 + PRD