网络模型 | 易学教程

【深度学习基础】从零开始的炼丹生活09——循环神经网络

阅读更多关于【深度学习基础】从零开始的炼丹生活09——循环神经网络

往期回顾： 06——深度学习中的正则化 07——深度模型中的优化 08——卷积网络为了处理一维序列数据，我们转向神经网络框架中另一强大的特化，循环神经网络。（主要参考《深度学习》和cousera上吴恩达的课程）循环神经网络（recurrent neural network）或 RNN ，是一类用于处理序列数据的神经网络。大多数循环网络都能处理可变长度的序列。循环网络强调参数共享，这使得模型能够扩展到不同形式的样本并进行泛化。例如 “我八点吃的早饭” 和 “我早饭在八点吃” ，要提取时间信息。如果我们训练一个前馈网络，需要分别学习句子每个位置的所有语言规则，而循环网络在几个时间步内共享相同的权重，不需要在每个位置都分别学习。循环网络的计算图有两种表现方式，如图。左边循环图展开后就是右边展开图。一、循环神经网络 RNN 的设计模式主要有以下几种: 每个时间步都有输出，并且隐藏单元之间有循环连接的循环网络。如图：每个时间步产生一个输出，只有当前时刻的输出到下个时刻的隐藏单元之间有循环连接的循环网络。如图：隐藏单元之间存在循环连接，读取整个序列后产生单个输出的循环网络，如图：现在我们研究第一种情形的 RNN 前向传播公式。这种循环网络可以计算任何图灵可计算的函数。我们使用 tanh 作为激活函数，RNN 从特定的初始状态 h ( 0 ) \boldsymbol h^{(0)

基础 | 网络编程

阅读更多关于基础 | 网络编程

一、计算机网络的相关概念 1.计算机网络通过传输介质、网络协议和通信设施，将分散在不同位置的计算机互连，实现资源共享和数据传输的系统。计算机网络的功能： 1.资源共享 2.信息传输与集中处理 3.均衡负荷与分布处理 4.综合信息服务 2.网络编程又称Socket编程，是指在操作系统，网络管理软件，网络通信协议的管理和协调下，使用计算机编程语言来实现计算机之间的资源共享和信息传递。二、计算机网络的三要素： 1.IP地址 IP地址是IP协议提供的一种统一的地址格式，它为互联网上的每一个网络和每一台主机分配一个逻辑地址。指的是计算机在网络中的唯一标识，IP地址的长度为32个比特位(4字节)，一般用“点分十进制”表示。分类首字节开始位首字节数值范围网络格式地址最大网络个数每个网络最多主机个数 A类 0 0-127 网络.主机.主机.主机 127 16777214 B类 10 128-191 网络.网络.主机.主机 16384 65534 C类 110 192-223 网络.网络.网络.主机 2097152 254 D类 1110 224-239 用于在 IP 网络中的组播，不再分配 E类 1111 240-255 保留作研究之用，不再分配 2.端口号：端口号用于标识进程的逻辑地址；其有效端口的范围是从 0到65535，其中 0-1024 系统使用或保留端口。注意

网络知识

阅读更多关于网络知识

网络知识开篇介绍运维网络知识结构基础部分网络通讯原理路由（IP地址路由表路由协议）交换（MAC地址 mac表广播域与冲突域） OSI7层模型网络通讯数据包分装过程进阶部分 TCP/IP模型（TCP/IP协议簇） TCP三次握手/四次挥手状态集转换深入部分 IP地址分类 IP地址子网划分原理 DNS协议原理 ARP协议原理操作部分与系统相关网络操作命令网络知识学习路径路由交换部分网络安全部分网络运营商部署部分无线网络技术语音网络技术网络基础知识概念网络通讯原理到底什么是网络：实现通讯的技术网络诞生第一步：网络主机至少两台有通讯需求的主机才能构建网络网络诞生第二步：硬件网卡主机之间实现网络通讯需要有硬件支持，网卡就是实现通讯的硬件网络诞生第三步：传输介质实现网络通讯还需要有传输介质，常见的传输介质为网线、管线、wifi无线等网络诞生第四步：数据传输通过网卡将计算机可以识别的二进制信息转换为电压信息进行传输调制解调的过程网络诞生第五步：传输问题通过网卡和传输介质，定义1个bit传输的单位时间，从而分辨连续相同的信号网络诞生第六步：传输依赖在网络数据传输过程中，影响传输速率主要是通讯双方的网卡和传输介质网络拓扑架构构建　　以上就是一个网络拓扑图网络拓扑==网络设备连接图　　做网络拓扑图有助于我们检查问题、解决问题

【论文阅读】Deep Mutual Learning

阅读更多关于【论文阅读】Deep Mutual Learning

文章： Deep Mutual Learning 出自 CVPR2017(18 年最佳学生论文 ) 文章链接： https://arxiv.org/abs/1706.00384 代码链接： https://github.com/YingZhangDUT/Deep-Mutual-Learning 主要贡献：提出了一种简单且普遍适用的方法，通过在相同 / 不同的未预训练的网络中进行相互蒸馏，来提高深层神经网络的性能。通过这种方法，我们可以获得比静态教师从强网络中提取的网络性能更好的紧凑网络 . 和有教师指导的蒸馏模型相比，相互学习策略具有以下优点 :1) 随着学生网络的增加其效率也得到提高； 2) 它可以应用在各种各样的网络中，包括大小不同的网络； 3) 即使是非常大的网络采用相互学习策略，其性能也能够得到提升由于是学生网络相互学习，而不是传统知识萃取，文章也说明了两个以上网络共同学习的策略，并从熵值的角度给出理论支持。知识蒸馏的内容不再赘述， https://blog.csdn.net/nature553863/article/details/80568658 整理得非常完善。网络结构及损失函数：每个网络由常规的有监督学习损失和拟态损失来共同训练。拟态损失是指是每个学生的后验类别要和其他学生的类别概率相一致。

记忆网络（译）

阅读更多关于记忆网络（译）

笔者：本文为英文论文的翻译文章，供机器学习、深度学习相关学者参考，如有错误理解之处请指出，不胜感激！（如需转载，请联系本人： jtianwen2014 ，并注明出处）。记忆网络（译） Jason Weston, Sumit Chopra & Antoine Bordes . Facebook AI Research, 770 Broadway, New York, USA. {jase,spchopra,abordes}@fb.com 摘要本文将介绍一种新的学习模型，称为记忆网络。记忆网络利用结合了长期记忆模块的推断组件进行推理；并学习如何联合地使用它们。长期记忆模块被用作预测，可以读出也可以写入。我们将记忆网络用于问答任务，长期记忆模块扮演着知识库的角色，记忆网络的输出是文本回复。我们在一个大规模的问答任务上，以及一个从仿真的世界里生成的小规模但是足够复杂的玩具任务（toy task）上进行评测。在本文的末尾，我们通过链乘支持语句到需要理解动词意图的问答来展示这写模型的推理能力。 1 概述大多数机器学习模型缺乏一种简单的方式从长期记忆模块中读取或写入，并无缝地结合到推理中。所以，这些方法并没有利用现代计算机的卓越的优势之一。举个例子，考虑一个任务，给定一些事实或者故事的集合，然后需要回答相关的问题。理论上这个任务可以通过语言模型来完成，比如循环神经网络（RNN）

OSI七层模型学习笔记

阅读更多关于 OSI七层模型学习笔记

1、简介　　什么是OSI模型呢？　　OSI模型全名Open System InterConnect 即开放式系统互联，是国际标准化组织(ISO)提出的一个试图使各种计算机在世界范围内互连为网络的标准框架，简称OSI。　　计算机通讯需要用到必要的软件支持，它就是计算机网络参考模型（即计算机网络软件），最经典的就是我们所要讲解的OSI模型。它是通过一个机器上的一个应用进程与另一个机器上的进程进行信息交互。 2、OSI七层模型解析　　OSI（Open System Interconnection，开放式系统互连）参考模型是一个逻辑上的定义，一个规范，它把网络从逻辑上分为了7层。每一层都有相关、相对应的物理设备，比如路由器，交换机。建立七层模型的主要目的是为解决异种网络互连时所遇到的兼容性问题。它的最大优点是将服务、接口和协议这三个概念明确地区分开来：服务说明某一层为上一层提供一些什么功能，接口说明上一层如何使用下层的服务，而协议涉及如何实现本层的服务；这样各层之间具有很强的独立性，互连网络中各实体采用什么样的协议是没有限制的，只要向上提供相同的服务并且不改变相邻层的接口就可以了。【此图来自http://www.cnblogs.com/fuchongjundream/p/3914236.html】　　2.1、物理层　　在OSI参考模型中，物理层（Physical Layer

【深度学习】更大规模的完整视频理解

阅读更多关于【深度学习】更大规模的完整视频理解

译者：蓝燕子声明：作者翻译论文仅为学习，如有侵权请联系作者删除博文，谢谢！摘要近年来，视频识别技术在具有丰富注释的基准中得到了发展。然而研究仍然主要限于人类的行动或运动的认识-集中在高度具体的。视频理解任务，从而在描述视频的整体内容方面留下了很大的差距。我们通过展示一个大规模的“整体视频理解数据集”（HV）来填补这一空白U）.在语义分类中，HVU是分层组织的，它侧重于多标签和多任务视频理解，作为一个综合问题，包括对多个符号的识别动态场景中的IC方面。HVU包含大约。总共有572k个视频，900万个注释用于培训、验证和测试集，跨越3457个标签。HVU包含语义方面定义在场景、对象、动作、事件、属性和概念的类别上，这些类别自然地捕捉到了现实世界的场景。此外，我们还引入了一种新的时空深层神经网络体系结构，称为“整体外观与时间网络”（HATNet），它通过组合将2D和3D体系结构融合到一起。宁的外观和时间线索的中间表示。HATNet的重点是多标签和多任务学习问题，并以端到端的方式进行训练。实验表明H在HVU上训练的ATNet在挑战人类行动数据集方面优于目前最先进的方法：HMDB51、UCF101和动力学。数据集和代码将公开提供，地址：https://github.com/holistic-video-understanding 1. 引言视频理解是一个包含多个语义方面的综合问题

多任务学习论文导读: Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts

阅读更多关于多任务学习论文导读: Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts

基于神经网络的大规模多任务学习在产业界有广泛的应用，例如推荐系统。为什么现在的推荐系统会追求多任务呢？以头条类的新闻推荐为例，如果只追求点击率，那么封面党会大行其道，所以一般还会把阅读时长也作为一个目标。再比如短视频推荐，平台方更希望给用户带来更好的体验，例如长时间播放、点赞、高评分等。因此，我们可能需要针对多个目标进行建模，追求多目标之间的平衡或者共赢。借助多任务学习，我们的目标是构建一个统一模型来实现同时对多个目标进行建模。每年各种AI领域会议上，都有N多论文都是借助基于深度学习的多任务学习模型实现了线上数据的提升，例如alibaba, youtube等巨头。但是，绝大部分多任务模型并不是在所有任务上都可以战胜单模型结构。多任务学习，对任务之间的关系很敏感，也就是效果好坏与数据分布关系很大。作者从事短视频推荐多年，在短视频社区，适合播放和适合下载/转发的视频往往是两种截然不同的类型。猥琐男们可能喜欢点击性感美女的事情，但是绝对不会转发到朋友圈。当我们试图训练分别以播放和转发为目标的多任务学习模型。这两个目标潜在的冲突会导致模型的效果下降，或者过度拟合其中某个目标。因此，如何在任务共性和特性上做有效的折中是多任务学习特别需要关注的问题。之前，有一些工作通过引入不同任务之间、数据之间的相关性和差异性度量，来解决多任务学习中存在的问题。但是现实中的数据

FDDWNET:模型参数仅为0.8M，速度和准确率综合性能在轻量级分割网络中达到SOTA

阅读更多关于 FDDWNET:模型参数仅为0.8M，速度和准确率综合性能在轻量级分割网络中达到SOTA

作者：Tom Hardy Date：2020-02-04 来源： FDDWNET:模型参数仅为0.8M，速度和准确率综合性能在轻量级分割网络中达到SOTA 论文链接：https://arxiv.org/pdf/1911.00632v1.pdf 一、主要思想本文介绍了一种用于实时精确语义分割的轻量级卷积神经网络FDDWNet。相对于近年来轻量级网络更倾向于采用浅层结构的发展，FDDWNet在保持较快的推理速度和较高的分割精度的同时，努力设计更深层的网络结构。网络使用深度因式膨胀可分离卷积（FDDWC）来学习不同尺度感受野的特征表示，模型参数较少。此外，FDDWNet有多个skip的连接分支，用于从中间卷积层收集上下文线索。实验表明，FDDWNet的模型尺寸仅为0.8M ，在1024×512输入图像的单台GTX 2080Ti GPU上实现了60fps的运行速度。综合实验表明，论文提出的模型在Cityscapes和CamVid数据集上，速度和精度权衡方面达到了SOTA。现有构建轻量级分割网络的方式主要可以分为三类：（1）基于网络压缩的方法通过剪枝技术去除预训练模型的冗余以提高效率。（2）基于低比特的方法使用量化技术来提高效率，其中学习的模型权重由少量比特表示，而不是由高精度浮点表示。与基于压缩的方法不同，来源： CSDN 作者： 3Ｄ视觉工坊链接：

《Batch Spectral Shrinkage for Safe Transfer Learning》论文解析

阅读更多关于《Batch Spectral Shrinkage for Safe Transfer Learning》论文解析

文章全名为《Catastrophic Forgetting Meets Negative Transfer:Batch Spectral Shrinkage for Safe Transfer Learning》 1、摘要这篇文章主要针对模型的fine-tune问题进行优化。众所周知，在许多模型的训练中，使用预训练好的模型进行fine-tune可以使模型的训练更加容易且结果更好。但是因为两个原因：灾难性遗忘（catastrophic forgetting）和负面迁移（negative transfer），使得fine-tune的效果降低了。本文提出了一种方法Batch Spectral Shrinkage (BSS)，暂且翻译为批量光谱收缩，来克服这一情况。 2、介绍主要介绍这两种导致fine-tune效果变差的原因。首先是灾难性遗忘，即模型在学习与目标任务相关的信息时，容易突然失去之前所学的知识，导致过度拟合。第二个是负迁移，并非所有预先训练得到的知识都可以跨领域迁移，且不加选择地迁移所有知识对模型是有害的。这里作者提到增量学习，并指出本文所提出的算法与增量学习的不同之处。增量学习可以学习新数据中的新知识，同时保证旧知识不被遗忘。但是与本文算法的目的不同，增量学习最终的目标是使得模型可以应用于新旧两个任务上，而BSS的目标是只作用于新的任务上。

订阅网络模型