神经网络

常见路径规划算法

删除回忆录丶 提交于 2021-02-11 13:57:34
路径规划的一般步骤:构建环境、搜索、平滑处理;环境构建:C-空间,自由空间、Voronoi图、栅格法;搜索算法在下面逐个列出。解决的问题:全局、局部、未知环境;解决维度:二维、三维;路径搜索的连续性:离散、连续; 时间需求:实时、不是实时的;下面先列出常见的路径优化方法,后面将逐个给出算法基本思想。并且结合前人的研究成果,给出部分算法的源代码,因为个人力量有限,如果有感兴趣的,可以一起来实施相关算法的源代码,本人邮箱为:2938948067@qq.com,欢迎感兴趣的朋友一起交流。 http://blog.csdn.net/jiakeyouwe/article/details/53462920 https://en.wikipedia.org/wiki/Rapidly-exploring_random_tree https://en.wikipedia.org/wiki/Steven_M._LaValle 数学分析方法有:无向图,有向图、计算几何、线性规划、概率分析、随机采样、代数。 1、 Dijkstra算法 2、 Floyd 3、 Bellman–Ford 4、 Viterbi algorithm 5、 Johnson's algorithm 6、 Fallback 7、 神经网络算法(各种神经网络方法) 8、 禁忌算法 9、 蚁群 10、 粒子群 11、 遗传 12、

Factorization Machine模型的各种变式

江枫思渺然 提交于 2021-02-11 13:56:15
关注“ AI科技时讯 ” 设为星标,第一时间获取更多干货 FM模型最早由Steffen Rendle在2010年提出,解决了稀疏数据场景下的特征组合问题,在广告、推荐等领域被广泛使用。FM模型简单而且效果好,可以作为业务初期快速取得收益,为后续持续迭代提供一个较强的baseline。FM模型从首次提出到现在已经过去七八年时间,这期间的研究进展如何呢?比如: FM类模型有哪些改进? 哪些模型或者应用引入了FM思想? 近期的顶会针对FM有哪些改进工作? 工业界大规模数据场景下如何分布式训练FM模型? 这一连串的问题代表了学术界和工业界对FM模型关于如何优化和实际应用的深入思考。带着这些问题,下文中笔者根据自己的理解将从不同方面对FM模型的演进进行介绍。文中涉及到的公式进行统一表示来方便读者理解,并为读者提供了参考文献的链接。 一、区别特征交互作用 这部分模型的演进思路就是根据假设来增加参数量(即模型复杂度)来提高模型表达能力。FFM模型参数量太大,一则容易过拟合,二则不利于线上大规模部署(内存压力)。笔者更倾向于Field-weighted FM,简单有效,在效果和实际应用上做了很好的tradeoff。 FM 文章链接:csie.ntu.edu.tw/~b97053 Field-aware FM 文章链接:csie.ntu.edu.tw/~r01922 FM中一个特征只对应一个向量

深度学习实现安全帽佩戴的检测

眉间皱痕 提交于 2021-02-11 12:49:01
向AI转型的程序员都关注了这个号 👇👇👇 机器学习AI算法工程 公众号:datayx 01. 概述 对于图像识别,采用传统的算法(opencv的一些算法),判断形状、颜色等等,我们在实验室和办公场所做测试,效果还不错,和容易识别出来。一旦到了工业现场,图像完全不行,连人和车都识别不出来。在不同光线下不论采用什么颜色空间(RGB、HSV什么)都无法分离出合理的色彩,更不要提判断和检测了。有感于实际的现场环境,决定放弃传统的算法,拿起深度学习的工具,来搞定这个项目。 02. 数据准备 高大上的人工智能背后,一定是苦逼的数据准备,深度学习的模型,需要成千上万的训练和测试数据,这些数据的采集和整理,还有数据的清洗都是体力活啊。 当然,我还是没傻到一张张去拍照片。我通过现场的摄像头做了视频采集,然后拿到录像,做了一个代码从录像中找到人,再把人的上半部分处理一下,变成标准格式的图片。这样子,2-3天的录像就可以产生几十万张图片了,看来训练集的问题解决了。 采用SSD的算法(用于物体检测的深度学习主流算法之一)检测出图片中的人。 这样就可以建立自己的训练集: train和test (带不带帽子的标注需要人工去做... 这个还是很苦逼) 03. 搭建模型 考虑到标准的图片只有128*128,特征不是很多,就动手搭建一个不算深的深度学习模型,采用卷积神经网络处理图形特征,搞过cnn的同学会觉得so

自然语言处理--Word2vec(二)

放肆的年华 提交于 2021-02-11 09:15:01
前一篇, word2vec(一) 主要讲了word2vec一些表层概念,以及主要介绍CBOW方法来求解词向量模型,这里主要讲论文 Distributed Representations of Words and Phrases and their Compositionality 中的skip-gram model方法,这可以被视作为一种概率式方法。 前面有一篇讲过自然语言处理的词频处理方法即TF-IDF,这种方法往往只是可以找出一篇文章中比较关键的词语,即找出一些主题词汇。但无法给出词汇的语义,比如同义词漂亮和美丽意思差不多应该相近,巴黎之于法国等同于北京之于中国。对于一句话,如何根据上下文推断出中间的词语是什么,或者由某一个词推测出它的上下文一般是什么词语。这两种不同的思考方式正好对应两种Word2vec模型,即CBOW模型和Skip-gram模型。      词向量即将字词从文字空间映射到向量空间,每一个字词都会有一个对应的代表其语义的向量。我们可以用传统的N-gram方法来得到向量,即统计方法,如           对于每一个单词,都可以根据词频来得出一个对应的向量,也是根据上下文得出,有一定的语义,但是这种方式的弊端是随着语料库中词语越多,模型参数越大,假设有N个词语,则得到的模型参数为N^2,如果N很大,则非常浪费内存,而且很多词语之间本身是不相关的,即很多位置都是0

GitHub排名TOP30的机器学习开源项目

让人想犯罪 __ 提交于 2021-02-11 08:32:25
对于机器学习者来说,阅读开源代码并基于代码构建自己的项目,是一个非常有效的学习方法。看看以下这些Github上平均star为3558的开源项目,你错了哪些? 1. FastText:快速文本表示和文本分类库(Github上有11786颗星,贡献者Facebook Research) 源码链接:https://github.com/facebookresearch/MUSE 2. Deep-photo-styletransfer:“Deep Photo Style Transfer” 这篇论文的源码和数据。(GitHub 9747颗星,论文来自于康奈尔大学的Fujun Luan) 源码链接:https://github.com/luanfujun/deep-photo-styletransfer 3. 用Python和命令行来实现的最简单的面部识别API(GitHub 8672颗星,贡献者Adam Geitgey) 源码链接:https://github.com/ageitgey/face_recognition 4. Magenta:利用机器智能生成音乐和美术艺术品(GitHub 8113颗星) 源码链接:https://github.com/tensorflow/magenta 5. Sonnet:基于TensorFlow的神经网络库(GitHub 573颗星

自然语言处理词向量模型-word2vec

杀马特。学长 韩版系。学妹 提交于 2021-02-11 08:30:39
自然语言处理与深度学习: 语言模型: N-gram模型: N-Gram模型:在自然语言里有一个模型叫做n-gram,表示文字或语言中的n个连续的单词组成序列。在进行自然语言分析时,使用n-gram或者寻找常用词组,可以很容易的把一句话分解成若干个文字片段 词向量: 神经网络模型: 注:初始化向量,可以先随机初始化。 传统神经神经网络只需要优化输入层与隐层,隐层与输出层之间的参数。 神经网络模型的优势:一方面可以得到词语之间近似的含义,另一方面求解出的空间符合真实逻辑规律 CBOW求解目标: 预备知识: 树的带权路径长度规定为所有叶子结点的带权路径长度之和,记为WPL。 分层的softmax设计思想:词频中出现词概率高的尽可能往前放,可以用哈夫曼树来设计。 自然语言哈夫曼树详解,包含构造和编码:https://blog.csdn.net/shuangde800/article/details/7341289 Hierarchical Softmax是用哈夫曼树构造出很多个二分类。 负采样模型: 来源: oschina 链接: https://my.oschina.net/u/4396372/blog/3912941

始于TensorFlow ,终于PyTorch

北慕城南 提交于 2021-02-11 03:19:39
点击上方 “ 小白学视觉 ”,选择加" 星标 "或“ 置顶 ” 重磅干货,第一时间送达 作者 | Scott Carey 译者 | Sambodhi 策划 | 刘燕 转自 | AI前线 为什么这三家公司最终都不约而同地放弃 TensorFlow ,而转向了 PyTorch? 本文最初发表于 InfoWorld,经 InfoWorld 授权,InfoQ 中文站翻译并分享。 深度学习框架 PyTorch 凭借其相对易用性,已经渗透到了企业中。本文提到的三家公司告诉我们,为什么他们选择 PyTorch 而不是 Google 著名的 TensorFlow 框架。 深度学习 是机器学习的一个子类别,它使用多层神经网络将历史上很难完成的机器任务——比如 图像识别、自然语言处理 和 机器翻译——实现大规模自动化。 自 2015 年以来,TensorFlow 就从 Google 中脱颖而出,在研究和商业领域成为最受欢迎的开源深度学习框架。但是 2016 年从 Facebook 诞生的 PyTorch 由于社区推动的易用性改进和越来越广泛的用例部署,而迅速 赶上TensorFlow。 在汽车行业,PyTorch 的应用尤为广泛——它可以应用于 Tesla 和 Lyft Level 5 等公司的实验性自动驾驶系统。该框架也被媒体公司用来对内容进行分类和推荐,并在工业应用中支持机器人。 Facebook

卷积神经网络(CNN)之一维卷积、二维卷积、三维卷积详解

怎甘沉沦 提交于 2021-02-10 22:51:33
作者:szx_spark 由于计算机视觉的大红大紫,二维卷积的用处范围最广。因此本文首先介绍二维卷积,之后再介绍一维卷积与三维卷积的具体流程,并描述其各自的具体应用。 1. 二维卷积 图中的输入的数据维度为$14\times 14$,过滤器大小为$5\times 5$,二者做卷积,输出的数据维度为$10\times 10$($14-5+1=10$)。如果你对卷积维度的计算不清楚,可以参考我之前的博客 吴恩达深度学习笔记(deeplearning.ai)之卷积神经网络(CNN)(上) 。 上述内容没有引入channel的概念,也可以说channel的数量为1。如果将二维卷积中输入的channel的数量变为3,即输入的数据维度变为($14\times 14\times 3$)。由于卷积操作中过滤器的channel数量必须与输入数据的channel数量 相同 ,过滤器大小也变为$5\times 5\times 3$。在卷积的过程中,过滤器与数据在channel方向分别卷积,之后将卷积后的数值相加,即执行$10\times 10$次3个数值相加的操作,最终输出的数据维度为$10\times 10$。 以上都是在过滤器数量为1的情况下所进行的讨论。如果将过滤器的数量增加至16,即16个大小为$10\times 10\times 3$的过滤器,最终输出的数据维度就变为$10\times 10

Research Guide for Video Frame Interpolation with Deep Learning

纵饮孤独 提交于 2021-02-10 18:47:40
Research Guide for Video Frame Interpolation with Deep Learning This blog is from: https://heartbeat.fritz.ai/research-guide-for-video-frame-interpolation-with-deep-learning-519ab2eb3dda In this research guide, we’ll look at deep learning papers aimed at synthesizing video frames within an existing video. This could be in between video frames, known as interpolation, or after them, known as extrapolation . The better part of this guide will cover interpolation. Interpolation is useful in software editing tools as well as in generating video animations. It can also be used to generate clear

【AI in 美团】深度学习在OCR中的应用

心不动则不痛 提交于 2021-02-10 16:36:01
AI(人工智能)技术已经广泛应用于美团的众多业务,从美团App到大众点评App,从外卖到打车出行,从旅游到婚庆亲子,美团数百名最优秀的算法工程师正致力于将AI技术应用于搜索、推荐、广告、风控、智能调度、语音识别、机器人、无人配送等多个领域,帮助美团3.2亿消费者和400多万商户改善服务和体验,帮大家吃得更好,生活更好。 基于AI技术,美团搭建了世界上规模最大,复杂度最高的多人、多点实时智能配送调度系统;基于AI技术,美团推出了业内第一款大规模落地的企业应用级语音交互产品,为50万骑手配备了智能语音系统;基于AI技术,美团构建了世界上最大的菜品知识库,为200多万商家、3亿多件商品绘制了知识图谱,为2.5亿用户提供了精准的用户画像,并构建了世界上用户规模最大、复杂度最高的O2O智能推荐平台。 美团这个全球最大生活服务互联网平台的“大脑”是怎么构建的?从本周起,我们将连续发表“AI in 美团”系列文章,给大家全面揭开各项技术的内幕。 另外,业界第一部全面讲述互联网机器学习实践的图书《美团机器学习实践》也即将上市,敬请期待,本文选自书中第十五章。 背景 计算机视觉是利用摄像机和电脑代替人眼,使得计算机拥有类似于人类的对目标进行检测、识别、理解、跟踪、判别决策的功能。以美团业务为例,在商家上单、团单展示、消费评价等多个环节都会涉及计算机视觉的应用,包括文字识别、图片分类