DARTS

Deep-learning augmented RNA-seq analysis of transcript splicing | 用深度学习预测可变剪切

爱⌒轻易说出口 提交于 2020-04-24 07:22:16
可变剪切的预测已经很流行了,目前主要有两个流派: 用DNA序列以及variant来预测可变剪切;GeneSplicer、MaxEntScan、dbscSNV、S-CAP、MMSplice、clinVar、spliceAI 用RNA来预测可变剪切;MISO、rMATS、DARTS 前言废话 科研圈的热点扎堆现象是永远存在的,且一波接一波,大部分不屑于追热点且不出成果也基本都被圈子给淘汰了。 做纯方法开发的其实是很心累的,费时费力费脑,特别是自己的研究领域已经过时的时候,另外还得承受外行的歧视:“你们搞这个有什么用吗?文章也发不了,最后也没人用。” 最近这些年最大的一个热点就是“单细胞”,很多人都趁着这股东风捞了一些文章,最早一批开发方法的也发了不少nature method和NBT,bioinformatics和NAR更多。但大部分后面就销声匿迹了,因为门槛越来越低,进入者越来越多,经过几年的发展,现在已经成了三足鼎立之势,强者愈强,弱者退场。 写方法类的文章也有个潜规则,千万不要写得过于通俗易懂,大部分审稿人如果一眼就能看懂,就会自然认为你做的研究过于简单,没有发表的必要。最好要写得有理有据,且90%的审稿人没法一眼看懂,但细细琢磨后有那么点意思。哈哈,当笑话听就好。 跳到另外一篇用深度学习来预测可变剪切的。 Deep-learning augmented RNA-seq

CARS: 华为提出基于进化算法和权值共享的神经网络结构搜索,CIFAR-10上仅需单卡半天 | CVPR 2020

放肆的年华 提交于 2020-04-16 12:23:52
【推荐阅读】微服务还能火多久?>>> 为了优化进化算法在神经网络结构搜索时候选网络训练过长的问题,参考ENAS和NSGA-III,论文提出连续进化结构搜索方法(continuous evolution architecture search, CARS),最大化利用学习到的知识,如上一轮进化的结构和参数。首先构造用于参数共享的超网,从超网中产生子网,然后使用None-dominated排序策略来选择不同大小的优秀网络,整体耗时仅需要0.5 GPU day   来源:晓飞的算法工程笔记 公众号 论文: CARS: Continuous Evolution for Efficient Neural Architecture Search 论文地址: https://arxiv.org/abs/1909.04977 Introduction   目前神经网络结构搜索的网络性能已经超越了人类设计的网络,搜索方法大致可以分为强化学习、进化算法以及梯度三种,有研究表明进化算法能比强化学习搜索到更好的模型,但其搜索耗时较多,主要在于对个体的训练验证环节费事。可以借鉴ENSA的权重共享策略进行验证加速,但如果直接应用于进化算法,超网会受到较差的搜索结构的影响,因此需要修改目前神经网络搜索算法中用到的进化算法。为了最大化上一次进化过程学习到的知识的价值,论文提出了连续进化结构搜索方法

直播回顾|第四范式姚权铭:搜索协同过滤中的交互函数

早过忘川 提交于 2020-02-26 07:34:29
导读:怎样刻画用户嵌入向量(user embedding)和物品嵌入向量(item embedding)之间的交互是在评分矩阵上面做协同滤波的关键问题。随着机器学习技术的发展,交互函数(interaction function)渐渐的由最初简单的矩阵内积,发展到现在复杂的结构化神经网络。本文介绍了第四范式研究组将自动化机器学习技术引入推荐系统中的一次尝试;特别地,将交互函数的设计建模成一个结构化神经网络问题,并使用神经网络搜索(neural architecture search)技术去设计数据依赖的交互函数。 01 整体工作概述 交互函数 (interaction funciton,IFC)是协同过滤(Collaboration Filtering,CF)的核心,它对性能非常敏感。下面简单地介绍一下我们在这方面取得的成果。 1. 我们将交互函数的设计形式化为一个自动化机器学习(Automated Machine Learning,AutoML)的问题。这是 首次 将自动化机器学习引入交互函数进行特征工程; 2. 构造了结构化的搜索空间,目的是使得机器学习算法能够快速自动化搜索,同时使得搜索的交互函数超过专家设计的交互函数带来的效果; 3. 提出了one-shot搜索算法,允许交互函数能够高效地进行随机梯度下降、点对点的进行AutoML搜索。 4.

用python实现新词发现程序——基于凝固度和自由度

我只是一个虾纸丫 提交于 2019-12-12 22:27:49
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> python学习笔记整理于猿人学网站的 python教程 和 python爬虫 互联网时代,信息产生的数量和传递的速度非常快,语言文字也不断变化更新,新词层出不穷。一个好的新词发现程序对做NLP(自然预言处理)来说是非常重要的。 N-Gram加词频 最原始的新词算法莫过于n-gram加词频了。简单来说就是,从大量语料中抽取连续的字的组合片段,这些字组合片段最多包含n个字,同时统计每个字组合的频率,按照词频并设置一个阈值来判断一个字组合片段是否为词汇。 该方法简单处理速度快,它的缺点也很明显,就是会把一些不是词汇但出现频率很高的字组合也当成词了。 凝固度和自由度 这个算法在文章《互联网时代的社会语言学:基于SNS的文本数据挖掘》 里有详细的阐述。 凝固度 就是一个字组合片段里面字与字之间的紧密程度。比如“琉璃”、“榴莲”这样的词的凝固度就非常高,而“华为”、“组合”这样的词的凝固度就比较低。 自由度 就是一个字组合片段能独立自由运用的程度。比如“巧克力”里面的“巧克”的凝固度就很高,和“巧克力”一样高,但是它自由运用的程度几乎为零,所以“巧克”不能单独成词。 Python实现 根据以上阐述,算法实现的步骤如下: 1. n-gram统计字组合的频率 如果文本量很小 ,可以直接用Python的dict来统计n