模态分析

什么是多模态机器学习?

|▌冷眼眸甩不掉的悲伤 提交于 2020-03-07 23:40:00
什么是多模态机器学习? 首先,什么叫做模态(Modality)呢? 每一种信息的来源或者形式,都可以称为一种模态。例如,人有触觉,听觉,视觉,嗅觉;信息的媒介,有语音、视频、文字等;多种多样的传感器,如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。 同时,模态也可以有非常广泛的定义,比如我们可以把两种不同的语言当做是两种模态,甚至在两种不同情况下采集到的数据集,亦可认为是两种模态。 因此,多模态机器学习,英文全称 MultiModal Machine Learning (MMML),旨在通过机器学习的方法实现处理和理解多源模态信息的能力。目前比较热门的研究方向是图像、视频、音频、语义之间的多模态学习。 多模态学习从1970年代起步,经历了几个发展阶段,在2010后全面步入Deep Learning阶段。 人其实是一个多模态学习的总和,所以也有”砖家“说了,多模态学习才是真正的人工智能发展方向。 本文将针对多模态学习在深度学习发面的研究方向和应用做相关介绍,主要参考了来自ACL 2017的《 Tutorial on Multimodal Machine Learning 》。 多模态学习的分类 多模态学习可以划分为以下五个研究方向: 多模态表示学习 Multimodal Representation 模态转化 Translation 对齐 Alignment 多模态融合

数据融合方式

拈花ヽ惹草 提交于 2020-02-15 19:09:35
目前,多模态数据融合主要有三种融合方式:前端融合(early-fusion)或数据水平融合(data-level fusion)、后端融合(late-fusion)或决策水平融合(decision-level fusion)和中间融合(intermediate-fusion)。 前端融合将多个独立的数据集融合成一个单一的特征向量,然后输入到机器学习分类器中。由于多模态数据的前端融合往往无法充分利用多个模态数据间的互补性,且前端融合的原始数据通常包含大量的冗余信息。因此,多模态前端融合方法常常与特征提取方法相结合以剔除冗余信息,如主成分分析(PCA)、最大相关最小冗余算法(mRMR)、自动解码器(Autoencoders)等。 后端融合则是将不同模态数据分别训练好的分类器输出打分(决策)进行融合。这样做的好处是,融合模型的错误来自不同的分类器,而来自不同分类器的错误往往互不相关、互不影响,不会造成错误的进一步累加。常见的后端融合方式包括最大值融合(max-fusion)、平均值融合(averaged-fusion)、 贝叶斯规则融合(Bayes’rule based)以及集成学习(ensemble learning)等。其中集成学习作为后端融合方式的典型代表,被广泛应用于通信、计算机识别、语音识别等研究领域。 中间融合是指将不同的模态数据先转化为高维特征表达,再于模型的中间层进行融合

模态混叠问题及解决思路

大憨熊 提交于 2020-01-22 23:48:55
N.E.Huang于1998年提出了一种针对非平稳非线性嘻信号的处理方法—经验模式分解(EMD),该方法给予信号本生的时间尺度特征,把复杂信号分解为有限个固有模态分量(Intrinsic Mode Function,IMF)和一个余项,是一种自适应的信号处理方法。EMD已经广泛应用于信号去噪,伪谐波分析,信号建模与预测,故障诊断与图像处理。由于EMD存在模态混叠的问题,很多应用收到限制。有必要对模态混叠的概念,模态混叠的表述,出现的原因以及相应的解决办法做简单的阐述。 1.模态混叠 模态混叠最早是被Huang在99H中提出的,其基本定义如下:模态混叠是指一个IMF中包含差异极大的特征时间尺度,或者相近的特征时间尺度分分布在不同中,导致两个相邻的IMF波形混叠,相互影响,难以辨认。通俗一点的将,就是当信号的时间尺度存在跳跃性变化时,对信号进行EMD分解,会出现一个IMF分量包含不同时间尺度特征成分的情况,称之为模态混叠。 2.模态混叠产生的原因 EMD过程中实现需要确认第你个信号的局部极值点,然后用三次样条线将所有的局部极大值和局部极小值分别连接起来形成包络线,再由上下包络线得到均值曲线。在求取包络线的过行程中,当信号中存在异常事件时(如间断信号,脉冲干扰和噪声),势必影响极值点的选取,从而导致求取的包络为异常事件的局部包络和真实信号包络的组合。经该包络计算出来的均值

【论文翻译】Deep Visual-Semantic Hashing for Cross-Modal Retrieval

笑着哭i 提交于 2020-01-06 17:57:25
Deep Visual-Semantic Hashing for Cross-Modal Retrieval 用于跨模态检索的深度视觉语义哈希 摘要: 由于哈希算法具有较高的存储和检索效率,在大规模多媒体检索中被广泛应用于近似近邻搜索。跨模态哈希能够有效地检索图像以响应文本查询,反之亦然,近年来受到越来越多的关注。现有的大多数跨模态哈希研究工作都没有捕捉到图像的空间依赖性和文本句子的时间动态,从而学习强大的特征表示和跨模态嵌入,从而缓解了不同模式的异质性。摘要提出了一种新的深度视觉语义哈希(DVSH)模型,该模型在端到端深度学习体系结构中生成图像和句子的紧凑哈希码,捕捉视觉数据与自然语言之间的内在跨模态对应关系。DVSH是一种混合的深度架构,它构成了一个用于学习图像和文本句子的联合嵌入空间的可视化语义融合网络,以及两个用于学习哈希函数以生成紧凑二进制代码的特定于模态的哈希网络。我们的架构有效地统一了联合多模态嵌入和交叉模态哈希,它是基于图像上的卷积神经网络、句子上的递归神经网络和一个结构化的最大裕度目标的新组合,该目标将所有东西集成在一起,从而能够学习保持相似性和高质量的哈希码。大量的经验证据表明,我们的DVSH方法在图像-句子数据集的跨模态检索实验中,即标准的IAPR TC-12和大规模的Microsoft COCO中,得到了最先进的结果。 1.介绍 而海量

用于多模态图像配准的弱监督卷积神经网络

走远了吗. 提交于 2019-12-19 01:28:22
《Weakly-Supervised Convolutional Neural Networks for Multimodal Image Registration》 摘要 :在多模态图像配准的监督学习中,最基本的挑战之一是体素级空间对应的基值的缺乏。本工作描述了一种从包含在解剖标签中的高级对应信息中推断体素级变换的方法。我们认为,这种标签获取对比体素对应关系是比通过参考图像集更可靠和实用方式。典型的感兴趣的解剖标签可能包括实体器官、血管、导管、结构边界和其他指定的特别标志。提出的端到端卷积神经网络方法旨在训练过程中对单个图像对的多个标记对应结构进行对齐从而预测位移场,而仅使用未标记的图像对作为网络输入进行推理。我们强调了该策略的通用性,使用不同类型的解剖标签用于训练,这些标签不需要在所有训练图像对上可辨别。在推断,得到的三维可形变图像配准算法实时运行,是全自动的,不需要任何解剖标签或初始化。比较了几种网络结构变体,以配准来自前列腺癌患者的T2-weight磁共振图像和3D经直肠超声图像。在交叉验证实验中,来自76名患者的108对多模态图像经过高质量的解剖标签测试,得到的标记中心的目标配准误差中值为3.6 mm,前列腺的Dice中值为0.87。 关键字 :医学图像配准;图像引导介入;卷积神经网络;弱监督学习;前列腺癌。 1、引言

视听融合综述(一)Audiovisual Fusion: Challenges and New Approaches

拟墨画扇 提交于 2019-12-12 04:49:38
分享一篇视听融合研究综述,2015年发表在Proceedings of the IEEE上。该期刊创刊于1913年,是IEEE最古老的杂志之一。主要刊登一些综述和科学前沿的调查研究(review, survey, and tutorial)不刊载具体的研究成果。本文回顾了至2015年在视听融合方面的研究成果,并讨论了该领域的主要挑战,重点是两种模态的不同步以及训练和测试的问题。 题目: Audiovisual Fusion: Challenges and New Approaches Katsaggelos A K, Bahaadini S, Molina R. Audiovisual fusion: Challenges and new approaches[J]. Proceedings of the IEEE, 2015, 103(9): 1635-1653. 发表时间: 2015 作者单位: Dept. of Electr. Eng. & Comput. Sci., Northwestern Univ., Evanston, IL, USA 权威期刊: Proceedings of the IEEE 原文链接: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7194741 本文内容是该综述的1、2两节

视听融合综述(二)Audiovisual Fusion: Challenges and New Approaches

蹲街弑〆低调 提交于 2019-12-11 16:24:27
分享一篇视听融合研究综述,2015年发表在Proceedings of the IEEE上。该期刊创刊于1913年,是IEEE最古老的杂志之一。主要刊登一些综述和科学前沿的调查研究(review, survey, and tutorial)不刊载具体的研究成果。本文回顾了至2015年在视听融合方面的研究成果,并讨论了该领域的主要挑战,重点是两种模态的不同步以及训练和测试的问题。 题目:Audiovisual Fusion: Challenges and New Approaches Katsaggelos A K, Bahaadini S, Molina R. Audiovisual fusion: Challenges and new approaches[J]. Proceedings of the IEEE, 2015, 103(9): 1635-1653. 发表时间:2015 作者单位:Dept. of Electr. Eng. & Comput. Sci., Northwestern Univ., Evanston, IL, USA 权威期刊:Proceedings of the IEEE 原文链接: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7194741 本文内容是该综述的3、4两节

移动应用从搜索栏到结果页交互流程-京东案例

感情迁移 提交于 2019-12-02 22:54:23
需求分析-京东案例 场景模拟:漫画家赛尾田在创作原画期间弄断了一根自动铅,少年JUMP一直在催稿,赛尾田只能在家通过电商应用app在线选购,他一直想试试德国的1、施什么楼品牌自动铅(商品品牌要求),预算是2、500元以内(价格范围要求),最好3、明天就能送到(物流配送时间要求),现在他开启了京东app,如何4、快速的锁定(用户目标明确)他所需自动铅列表? 1.首页操作 点击一级搜索栏(全局搜索) 用户使用app时间有限,购买目明 确,直接点击搜索栏。 2. 模态视图过渡页 关键字模糊及预想功能 在此处输入系统会自动预想出一部分基于数据分析的推荐系统 通过热搜标签能反映出赛尾田最近在研究相机、电视和饮品。 搜索历史 显示了赛尾田之前使用京东快速查找过的商品(其实他最后一次在京东买的是海贼王女帝的抱枕)-要支持用户删除搜索历史功能 3. 使用模态视图的意义 模态框:是让用户只有在完成当前的任务或关闭一个信息或页面之后,才 能去做其它的事情。操作列表、警告和动作视图都提供了模态框。当屏幕上 出现模态框时,用户必须通过点击按钮或是其它特殊方式才能退出。例如在 。模态框可以占据整个屏幕、 整个上级视图(比如气泡弹出框)、或者屏幕的一部分。模态框通常有 “完 成” 和 “取消” 按钮来退出视图。 4.为什么使用模态视图---新浪 舵式导航发布功能使用模态视图原理 舵式导航是指在首页标签栏中放置

多模态的几种融合方法

醉酒当歌 提交于 2019-12-02 06:43:21
目前,多模态数据融合主要有三种融合方式:前端融合(early-fusion)或数据水平融合(data-level fusion)、后端融合(late-fusion)或决策水平融合(decision-level fusion)和中间融合(intermediate-fusion)。 前端融合将多个独立的数据集融合成一个单一的特征向量,然后输入到机器学习分类器中。由于多模态数据的前端融合往往无法充分利用多个模态数据间的互补性,且前端融合的原始数据通常包含大量的冗余信息。因此,多模态前端融合方法常常与特征提取方法相结合以剔除冗余信息,如主成分分析(PCA)、最大相关最小冗余算法(mRMR)、自动解码器(Autoencoders)等。 后端融合则是将不同模态数据分别训练好的分类器输出打分(决策)进行融合。这样做的好处是,融合模型的错误来自不同的分类器,而来自不同分类器的错误往往互不相关、互不影响,不会造成错误的进一步累加。常见的后端融合方式包括最大值融合(max-fusion)、平均值融合(averaged-fusion)、 贝叶斯规则融合(Bayes’rule based)以及集成学习(ensemble learning)等。其中集成学习作为后端融合方式的典型代表,被广泛应用于通信、计算机识别、语音识别等研究领域。 中间融合是指将不同的模态数据先转化为高维特征表达,再于模型的中间层进行融合