al

机器翻译论文列表及其笔记

☆樱花仙子☆ 提交于 2019-12-13 15:03:56
Machine Translation 2017-12 Oda et al. - 2017 - Neural Machine Translation via Binary Code Predict [pdf] [note] Kalchbrenner et al. - 2016 - Neural machine translation in linear time [pdf] [pdf (annotated)] [note] 2018-05 Sutskever et al. - 2014 - Sequence to Sequence Learning with Neural Networks [pdf] Cho et al. - 2014 - Learning Phrase Representations using RNN Encoder-Decoder for NMT [pdf] Bahdanau et al. - 2014 - NMT by Jointly Learning to Align and Translate [pdf] Luong et al. - 2015 - Effective Approaches to Attention-based NMT [pdf] 2018-06 Gehring et al. - 2017 - Convolutional

Highway Networks

一世执手 提交于 2019-12-08 03:14:58
随着神经网络的发展,网络的深度逐渐加深(更深的层数以及更小的感受野,能够提高网络分类的准确性 ( Szegedy et al. , 2014 ; Simonyan & Zisserman , 2014 ) ),网络的训练也就变得越来越困难。Highway Networks就是一种解决深层次网络训练困难的网络框架。 以下这几篇文章证明了优化深层神经网络十分困难(写文章的时候肯定用得到,先记下): ( Glorot & Bengio , 2010 ; Saxe et al. , 2013 ; He et al. , 2015,) ( Simonyan & Zisserman , 2014 ; Romero et al. , 2014) ( Szegedy et al. , 2014 ; Lee et al. , 2015)。 Highway Networks:一种可学习的门限机制,在此机制下,一些信息流没有衰减的通过一些网络层,适用于SGD法。 公式: 传统的神经网络前项传播(忽略偏置和层索引): (1) H为非线性函数,W权重,x输入,y输出。 Highway Networks的前项传播: (2) T为转换门( transform gate ),C为携带门(carry gate)(不知道这么起名对不,反正很难听,哈哈), C=1-T,即 x , y , H ( x , W H )

算法的测试

元气小坏坏 提交于 2019-12-03 15:02:42
一、算法规则    二、测试方案   1、6小时更新一次:一般开发会间隔6小时更新数据一次,那么更新的数据存储在哪里去了呢?一般会放在Redis缓存中。   2、示例:来源时间在近3天内,平台C端用户浏览最多前10条。想要得到这个数据,得使用mysql数据库的查询语句结合对应的表搜索出数据   3、针对搜索出的数据与Redis缓存中的数据进行对比,即可得到想要的值   注:     (1)一般开发想Redis中存储中,会使用到key,具体的key询问开发向开发获取;     (2)Redis的相关配置询问开发,由开发协助配置     (3)6个小时一更新对于测试来说,间隔时间太久不方便快速查看结果,因此,快速的处理方案:询问开发更新脚本,需要查看数据时自己执行脚本。 三、测试实现步骤   (1)询问开发获取到的key值示例如下: /** * redis集合key * 1.發布時間在近$1天內 * 2.平台的C端用戶瀏覽最多前$1條 */ const SET_KEY_RANK_TYPE_ARTICLE_CVIEW = 'content_rank_type_article_cview_set';   (2)来源时间在近3天内,平台C端用户浏览最多前10条 的SQL查询语句示例如下 select cal.action_souce_id,cal.create_at,a.uuid,al

Pandas: dataframe to long format

匿名 (未验证) 提交于 2019-12-03 01:34:02
可以将文章内容翻译成中文,广告屏蔽插件可能会导致该功能失效(如失效,请关闭广告屏蔽插件后再试): 问题: I have the following df: tz.head() state 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 0 AL 5.7 4.5 4.0 4.0 5.7 11.0 10.5 9.6 8.0 7.2 6.8 6.1 1 AK 7.5 6.9 6.6 6.3 6.7 7.7 7.9 7.6 7.1 6.9 6.9 6.5 2 AZ 5.0 4.7 4.2 3.9 6.2 9.9 10.4 9.5 8.3 7.7 6.8 6.1 3 AR 5.7 5.2 5.2 5.3 5.5 7.8 8.2 8.3 7.6 7.3 6.1 5.2 4 CA 6.2 5.4 4.9 5.4 7.3 11.2 12.2 11.7 10.4 8.9 7.5 6.2 I would like to change it so that looks like this: year state unemployment 2004 AL 5.7 2005 AL 4.5 2006 AL 4.0 2007 AL 4.0 2008 AL 5.7 2009 AL 11.0 2010 AL 10.5 2011 AL 9.6

Beginner tips on using plyr to calculate year-over-year change across groups

匿名 (未验证) 提交于 2019-12-03 01:06:02
可以将文章内容翻译成中文,广告屏蔽插件可能会导致该功能失效(如失效,请关闭广告屏蔽插件后再试): 问题: I am new to plyr (and R) and looking for a little help to get started. Using the baseball dataset as an exaple, how could I calculate the year-over-year (yoy) change in "at batts" by league and team (lg and team)? library(plyr) df1 After doing a little aggregating to simplify the data fame, the data looks like this: head(df1) year lg team ab 1884 UA ALT 108 1997 AL ANA 1703 1998 AL ANA 1502 1999 AL ANA 660 2000 AL ANA 85 2001 AL ANA 219 I would like to end up with someting like this year lg team ab yoy 1997 AL ANA 1703 NA 1998 AL ANA 1502

ELF-Binary compiled by gcc: What happens from entry point to main?

匿名 (未验证) 提交于 2019-12-03 00:59:01
可以将文章内容翻译成中文,广告屏蔽插件可能会导致该功能失效(如失效,请关闭广告屏蔽插件后再试): 问题: I get the entry point with readelf -h: Entry point address: 0x8048400 Debugging with gdb and Intel syntax: (gdb) x/13i 0x8048400 0x8048400 <_start>: xor ebp,ebp 0x8048402 <_start+2>: pop esi 0x8048403 <_start+3>: mov ecx,esp 0x8048405 <_start+5>: and esp,0xfffffff0 0x8048408 <_start+8>: push eax 0x8048409 <_start+9>: push esp 0x804840a <_start+10>: push edx 0x804840b <_start+11>: push 0x8048590 0x8048410 <_start+16>: push 0x8048520 0x8048415 <_start+21>: push ecx 0x8048416 <_start+22>: push esi 0x8048417 <_start+23>: push 0x80484b4 0x804841c

SP1716 GSS3 - Can you answer these queries III - 动态dp,线段树

浪尽此生 提交于 2019-12-01 04:57:51
GSS3 Description 动态维护最大子段和,支持单点修改。 Solution 设 \(f[i]\) 表示以 \(i\) 为结尾的最大子段和, \(g[i]\) 表示 \(1 \sim i\) 的最大子段和,那么 \[f[i] = max(f[i - 1] + a[i], a[i])\] \[g[i] = max(g[i - 1], f[i])\] 发现只跟前一项有关。我们希望使用矩阵乘法的思路,但是矩阵乘法通常只能适用于递推问题。因此我们引入广义矩阵乘法。 矩阵乘法问题可分治的原因在于矩阵乘法满足结合律,而满足结合律的根本原因是乘法对加法满足分配率,即 \[a\cdot (b+c) = a\cdot c + b\cdot c\] 那么在这里,很容易发现,加法运算对 \(Min/Max\) 运算也是满足分配率的,即 \[a + min(b,c) = min(a+c,b+c)\] \[a + max(b,c) = max(a+c,b+c)\] 所谓广义矩阵乘法,就是将矩阵乘法中的加法运算换成 \(Min/Max\) 运算,乘法运算换成加法运算,那么这样的矩阵乘法仍然满足结合律。 考虑到 \(g[i]\) 从 \(f[i]\) 转移过来的那一项可以直接拆开,很容易得到转移方程 \[ \begin{bmatrix} f_{i} \\ g_{i} \\ 0 \end{bmatrix

python数据分析——人口分析实例

时间秒杀一切 提交于 2019-11-30 18:54:51
需求: 导入文件,查看原始数据 将人口数据和各州简称数据进行合并 将合并的数据中重复的abbreviation列进行删除 查看存在缺失数据的列 找到有哪些state/region使得state的值为NaN,进行去重操作 为找到的这些state/region的state项补上正确的值,从而去除掉state这一列的所有NaN 合并各州面积数据areas 我们会发现area(sq.mi)这一列有缺失数据,找出是哪些行 去除含有缺失数据的行 找出2010年的全民人口数据 计算各州的人口密度 排序,并找出人口密度最高的五个州 df.sort_values() In [1]: import numpy as np from pandas import DataFrame,Series import pandas as pd In [3]: abb = pd.read_csv('./data/state-abbrevs.csv') pop = pd.read_csv('./data/state-population.csv') area = pd.read_csv('./data/state-areas.csv') In [8]: #将人口数据和各州简称数据进行合并 display(abb.head(1),pop.head(1)) abb_pop = pd.merge(abb,pop,left

m6A甲基化及预测方法工具总结

狂风中的少年 提交于 2019-11-29 13:16:40
DNA、RNA和蛋白三个层面的可逆修饰示意图(Fu et al. Nature Reviews Genetics, 2014) DNA和蛋白存在各种修饰,RNA也不例外,目前已知的RNA修饰已经超过上百种。RNA根据编码性可分为编码RNA(protein-coding RNA)和非编码RNA(noncoding RNA)两大类,这些RNA转录后会发生各种修饰,包括N6-腺苷酸甲基化(N6-methyladenosine,m6A)、胞嘧啶羟基化(m5C)、N1-腺苷酸甲基化(m1A)等等。m6A甲基化是真核生物RNA中最常见的一种转录后修饰,大约占到了RNA甲基化修饰的80%左右。 真核生物中mRNA的各种化学修饰(Roundtree et al. Cell, 2017) m6A甲基化和去甲基化(A)及对下游protein-RNA相互作用的影响 (B)(Roundtree et al. Cell, 2017) 近几年来,RNA甲基化逐渐当今最热门的研究领域之一。因为m6A甲基化的功能至关重要,其异常会与各种疾病的发生、发展密切相关,包括肿瘤或癌症、各种神经性疾病、胚胎发育迟缓等。关于RNA甲基化的文章现在呈现出来了井喷式增长,很多都是发在Nature,Science, Cell等顶级期刊上。 m6A甲基化的生物学通路及相关功能(Lee et al. Cell, 2014)

图数据库Neo4j简介

孤街醉人 提交于 2019-11-26 12:57:55
图数据库本身属于NoSql数据库中的一种,是基于数学中图论实现的一种数据库。不同于传统的关系型数据库将数据存在库表字段中,图数据库将数据和数据之间的关系存在节点和边中,在图数据库中这被称作“节点”和“关系”。没有了库表字段的概念,相当于是把数据存在了一张大宽表中。传统数据库的一些特性如CRUD、处理事务的能力在图数据库中也都支持。 这里需要澄清一个概念:图数据库并不是前端展示用的数据库,它不是用来画图的。相反,它是用来存储数据用的,以图的节点和边的方式来存储数据。而前端展现需要用一些前端展示工具,例如D3、ECharts等来实现。 本文将以neo4j为例来介绍图数据库的使用。neo4j是由Java实现的开源NoSql图数据库,是图数据库中较为流行的一款。它提供了完整的数据库特性,包括ACID事务的支持、集群支持、备份与故障转移等(部分功能例如集群支持只有在neo4j企业版中才有,社区版不支持)。 在笔者看来,图数据库最大的优势是体现在对数据关系的检索上。如果数据之间的关系很复杂,数据存在了多张表中,还有一些中间表的存在的话,传统数据库想要查询一些数据得通过各种联表操作才做得到,sql会写得很复杂,不利于维护,同时性能也不高。而图数据库仅仅通过简单的一句cypher语句便可实现查询功能(cypher语句是neo4j的执行语句,类似于关系型数据库中的SQL),同时执行速度也会快很多