神经网络

百度算法提前批 面试复盘

浪尽此生 提交于 2021-02-09 15:35:18
作者 | liu_sy 来源 | 见文末『阅读原文』处 整理 | NewBeeNLP公众号 面试锦囊之面经分享系列,持续更新中 欢迎后台回复" 面试 "加入讨论组交流噢 文末也有内推,需要的同学自取哈 写在前面 之前通过非定向内推提前批,简历一直处于筛选状态中,然后大概在8.18在牛客看到一个前辈所在部门(推荐搜索)招人,就把简历发给了前辈,然后隔了两三天就通知了面试。 一面 (8.21 46分钟) 自我介绍 在广告算法比赛中,是如何构建特征的,以及如何识别哪些特征是重要的 word2vector 原理 lstm中的attention是怎么操作的 梯度消失及解决方法 BN的作用 手撕代码:链表相加(leetcode第二题)。需要注意的是最好提前练习如何写链表的示例,因为我们刷题只用写个函数 二面(8.24 60分钟左右) 自我介绍 提问项目和广告比赛,问了一些深度学习基础和机器学习基础 神经网络初始化方法。我回答了随机初始化和He初始化。面试官问我随机初始化有什么问题,He初始化解决了什么问题 BN的原理和作用。这里我的回答面试官提出了很多很多疑问,因为网上关于BN的解释也是说法不一,比如说一种常见说法是BN解决了 Internal Covariate Shift,但是他用sigmoid举例,那现在基本都用relu,relu大于0的时候,梯度都为1,也有这种问题吗

gradient-descent

百般思念 提交于 2021-02-09 13:34:00
http://ruder.io/optimizing-gradient-descent/ https://www.quora.com/Whats-the-difference-between-gradient-descent-and-stochastic-gradient-descent https://en.wikipedia.org/wiki/Stochastic_gradient_descent https://zh.coursera.org/learn/deep-neural-network/lecture/lBXu8/understanding-mini-batch-gradient-descent https://zh.coursera.org/learn/deep-neural-network/lecture/qcogH/mini-batch-gradient-descent https://am207.github.io/2017/wiki/gradientdescent.html http://leon.bottou.org/publications/pdf/online-1998.pdf References Sutton, R. S. (1986). Two problems with backpropagation and other steepest

模型量化原理及tflite示例

被刻印的时光 ゝ 提交于 2021-02-09 12:02:53
模型量化 什么是量化 模型的weights数据一般是float32的,量化即将他们转换为int8的。当然其实量化有很多种,主流是int8/fp16量化,其他的还有比如 二进制神经网络:在运行时具有二进制权重和激活的神经网络,以及在训练时计算参数的梯度。 三元权重网络:权重约束为+1,0和-1的神经网络 XNOR网络:过滤器和卷积层的输入是二进制的。 XNOR 网络主要使用二进制运算来近似卷积。 现在很多框架或者工具比如nvidia的TensorRT,xilinx的DNNDK,TensorFlow,PyTorch,MxNet 等等都有量化的功能. 量化的优缺点 量化的优点很明显了,int8占用内存更少,运算更快,量化后的模型可以更好地跑在低功耗嵌入式设备上。以应用到手机端,自动驾驶等等。 缺点自然也很明显,量化后的模型损失了精度。造成模型准确率下降. 量化的原理 先来看一下计算机如何存储浮点数与定点数: 其中负指数决定了浮点数所能表达的绝对值最小的非零数;而正指数决定了浮点数所能表达的绝对值最大的数,也即决定了浮点数的取值范围。 float的范围为-2^128 ~ +2^128. 可以看到float的值域分布是极其广的。 说回量化的本质是: 找到一个映射关系,使得float32与int8能够一一对应 。那问题来了,float32能够表达值域是非常广的,而int8只能表达[0,255]

tensorflow2.0第2章 Tensorflow keras实战

倖福魔咒の 提交于 2021-02-09 02:05:33
本门课程的基础章节,详细介绍了如何使用tf.keras进行模型的搭建以及大量的深度学习的理论知识。理论知识包括分类问题、回归问题、损失函数、神经网络、激活函数、dropout、批归一化、深度神经网络、Wide&Deep模型、密集特征、稀疏特征、超参数搜索等及其在图像分类、房价预测上的实现。 课程代码的tensorflow版本: 大部分代码是tensorflow2.0的; 课程以tf.keras API为主,因为keras在1.3以后的版本就引入进来了,因而部分代码可以在tf1.3+运行; 另外有少量tensorflow1.*版本代码,这些版本的代码并不能在2.0上运行,因为很多API都已经过时了。 理论部分: tensorflow-keras简介; 分类问题、回归问题、损失函数; 神经网络、激活函数、批归一化、Dropout; wide&deep模型; 超参数搜索。 实战部分: keras搭建分类模型; keras回调函数; keras搭建回归模型; keras搭建深度神经网络; keras实现wide&deep模型; keras与scikit-learn实现超参数搜索。 tensorflow-keras简介 keras是什么: 基于python的高级神经网络API,它是一套API,而不是一个完整的库; Francois Chollet(现在在Google,tf

ICLR2020国际会议精彩演讲抢先看(含源码)!!

試著忘記壹切 提交于 2021-02-08 16:34:53
喜欢我们,点击上方 AINLPer ,关注一下,极品干货即刻送达! 今天天气是真不错~可惜还是不能出去。所以今天 整理了2020年ICLR会议的论文,并给大家分享出了ICLR2020国际会议演讲的主题和主要内容。 引言 2020年的 ICLR会议 将于今年的 4月26日-4月30日 在Millennium Hall, Addis Ababa ETHIOPIA(埃塞俄比亚首都亚的斯亚贝巴 千禧大厅)举行。 2020年ICLR会议(Eighth International Conference on Learning Representations)论文接受结果刚刚出来, 今年的论文接受情况如下: poster-paper共523篇,Spotlight-paper(焦点论文)共107篇,演讲Talk共48篇,共计接受678篇文章,被拒论文(reject-paper)共计1907篇,接受率为: 26.48%。 回复: ICLR2020 获取会议全部列表PDF(方便您的收集整理) ,其中一共有四个文件( 2020-ICLR-accept-poster.pdf 、 2020-ICLR-accept-spotlight.pdf 、 2020-ICLR-accept-talk.pdf 、 2020-ICLR-reject.pdf ),如果你不想下载,也可直接访问官网: https:/

ResNet、Faster RCNN、Mask RCNN是专利算法吗?盘点何恺明参与发明的专利

爱⌒轻易说出口 提交于 2021-02-08 13:22:39
点击上方“ 3D视觉工坊 ”,选择“星标” 干货第一时间送达 前段时间OpenCV正式将SIFT算法的实现从Non-free模块移到主库,因SIFT专利到期了(专利授权后,从申请日开始有20年的保护期)。 美国林肯总统称" 专利制度是给天才之火浇上利益之油 ",专利保护了申请人的利益,促进了科技的进步,但现在也有越来越多的滥用专利权对产业机构敲诈的案例出现。 SIFT 专利权的终结让我们不得不思考,还有哪些著名的算法被申请了专利?对于做研究的朋友来说不需要考虑这个问题,专利算法依然可以参考、复现、对比,但对于产业界朋友就不得不确认清楚:项目中有没有可能使用了别人专利保护算法。 作为计算机视觉领域当今翘楚,两度获得CVPR 最佳论文奖的何恺明大佬有很多论文都具有重大影响力。其部分论文引用数据: 残差网络 ResNet 被引用 51939 次、目标检测算法 Faster RCNN 被引用 20291 次、实例分割算法 Mask RCNN 被引用 7249 次,暗通道去雾被引用 4274 次,这些知名的算法有成百上千的开源实现,也肯定被大量的商业公司使用,有没有被申请专利? 想想 ResNet 如果被申请专利,那恐怕大多数使用深度学习的商业公司都在侵权了!价值难以估计! 带着这样的疑问,CV君检索了所有与“ Kaiming He ”相关的已经公开的授权专利和专利申请

【论文介绍】MEAL V2

拜拜、爱过 提交于 2021-02-08 08:25:38
作者:Stan Kriventsov 编译:ronghuaiyang 转载自:AI公园 原文链接: https://mp.weixin.qq.com/s/001DpmGeapE3HECzFPVvEw ​ mp.weixin.qq.com 导读 一篇知识蒸馏+对抗训练的文章。 作者使用最近提出的MEAL技术(包括从多个大型老师网络使用蒸馏通过对抗学习得到更小的学生网络学习),使用224×224输入,在ImageNet上提升了ResNet-50的精度到80.67%, 没有外部训练数据和网络体系结构的修改。 从文章中我们能学到什么? 即使是一个相对较小的网络也可以通过训练用正确的方法达到大得多的网络的准确性。 在某种程度上,这并不奇怪,因为现代深层神经网络被设计成过参数化的,利用“彩票假说”描述的大量的随机初始化配置,一个更小的网络足以达到同样的性能,但是,在实践中可以实现还是非常了不起的。 先决条件(为了更好地理解论文,我们应该熟悉什么?) 知识蒸馏 对抗训练 讨论 集成技术,或集成学习,由多个ML模型的组合预测组成,是一种已知的提高预测精度的方法。它被广泛应用于Kaggle竞赛中,在这些竞赛中,即使以巨大的计算负载为代价,也要获得最佳的精度。然而,在大多数实际应用中,由于在预测期间运行每个模型所需的费用和时间,集成并不被广泛使用。 MEAL技术的想法,是从多个大型神经网络(教师

英超引入 AI 球探,寻找下一个足球巨星

徘徊边缘 提交于 2021-02-07 12:14:31
作者 | 神经小兮 来源 | HyperAI超神经 头图 | 下载于视觉中国 球探对于很多人来说是一个略显神秘的群体,他们对一个球队的建设和发展至关重要。为了提高球探的工作效率,英超伯恩利足球俱乐部最近启用了 AI 球探。 关键词: AI 球探 计算机视觉 姿态识别 最近,中国足球运动员李嗣镕,与荷兰海牙足球俱乐部签下职业合同,这一消息很快登上微博热搜,但他上热搜的原因竟是因为:太帅了。 李嗣镕今年 18 岁,是一个「球二代」, 父亲是前中国国家队国脚李明 虽然因为帅而火出圈,但李嗣镕实际上是集高颜值与实力于一身。7 岁开始练球,12 岁进入海牙俱乐部青训系统,并被俱乐部 CEO 哈姆迪看好,认为他「将来可以去英超赛场闯荡」。 在众多年轻球员中,还隐藏着更多李嗣镕这样的潜力股,他们如何才能被发现?这还要从足球圈内一个特殊的职业说起。 独具慧眼的球探,发现明日之星 在各大联赛足球俱乐部,除了教练、球员以及管理人员外,还有一个职位至关重要,那就是球探。 球探的职责,就是在全球各地大大小小的比赛中,发现天赋过人的年轻球员,并把他们推荐给教练。 对于很多天才球员来说,球探无异于发现千里马的伯乐。 贝克汉姆: 他在 11 岁那年的一场少年队比赛中,因为抢眼的表现,被曼联著名球探马尔科姆·费吉恩相中,之后很快收到曼联的邀请函; 梅西: 在 13 岁时被巴塞罗那球探雷克萨奇发现并签约; 罗纳尔多

2021美赛D题分析与思考

限于喜欢 提交于 2021-02-07 10:39:54
D题概述 以音乐为主题的图建模问题,可能需要一定的图算法(运筹、图神经网络)、图数据库(Neo4.j、Nosql、Graph等)、知识图谱(这块不算很了解只能算感觉)的基础才能很好将问题落地 问题背景 许多歌曲都有相似的旋律,许多艺术家对音乐流派的重大转变做出了贡献。有时,这些变化 是由于一位艺术家影响了另一位艺术家。有时,它是对外部事件(如重大世界事件或技术进 步)的响应而出现的变化。 希望团队开发一种衡量音乐 影响力的模型。这个问题要求你考察艺术家和流派的进化和革命趋势。 需要满足的需求 使用 Influence_Data 数据集或其中的一部分创建音乐影响力的(多个)定向网络,其中影 响者连接到追随者。开发参数来捕捉这个网络中的‘music influence’。通过创建定向影响 者网络的子网络来探索音乐影响力的子集。描述此子网。在这个子网络中,你的‘music influence’指标揭示了什么? 使用 FULL_MUSIC_DATA 和/或音乐特征的两个汇总数据集(具有艺术家和年份)来开发 音乐相似性度量模型。用你的衡量标准,流派内的艺术家比流派间的艺术家更相似吗? 比较流派之间和流派内部的相似之处和影响。流派的区别是什么?流派是如何随着时间的推移而变化的?流派与流派之间是否关联 说明 DATA_ENAFSONCE

综述:关系抽取,挑战与机遇并存!

北城余情 提交于 2021-02-07 09:27:39
原创:Elesdspline 转载自:AI自然语言处理与知识图谱 原文链接: 综述:关系抽取,挑战与机遇并存! ​ mp.weixin.qq.com 关系抽取是信息抽取的基本任务之一,目的是识别文本中实体的目标关系,关系抽取对于知识库的构建以及文本的理解十分重要,特别有利于自然语言处理的一些任务,如问答,文本理解等,而且,关系抽取作为知识图谱构建的核心关键,是必不可少的步骤。 大家熟知的传统关系抽取(二元关于抽取,两个实体之间的关系)已经得到了广泛的研究,并且有很多的研究方法已经落地实践,近些年来,对于复杂场景的变化,传统的简单关系抽取已经无法满足实际场景中的复杂应用,慢慢衍生出需要复杂场景的关系抽取任务。 本文是一篇综述文章,总结了目前简单关系抽取的研究进展以及实践方法,对目前已出现的复杂关系抽取任务进行了总结,并介绍了每个任务的定义、最新进展、挑战和机遇。 一、简单关系抽取 简单的关系抽取目的是从文本中识别两个实体之间的关系,例如下图,根据文本,识别出北京和中国的关系为 the capital of,一般这样的关系抽取称之为二元关系抽取( Binary Relation Extraction,BiRE)。 简单关系抽取 目前的方法一般分为 基于监督学习的 BiRE(Supervised BiRE) 、 基于半监督学习的 BiRE(Semi-supervised BiRE) 以及