相似性

马甲包

左心房为你撑大大i 提交于 2019-12-05 06:02:16
规避4.3的重心: 切断当前马甲包与以往马甲包的所有相似性关联; 相似性关联包括: 1. ipa包特征; 2. 开发者帐号; 3. 打包电脑; 4. 上传IP; 5. 材料相似; 分项细述: 1. ipa包特征: 包括有代码相似性,资源相似性; 代码相似性解决办法: a. 已有代码的混淆(改类名、改函数名) b. 添加一些无用的代码; 资源相似性解决办法: a. 资源改名; b. 适当添加一些无用的资源; 2. 开发者帐号: 两个马甲包不要关联到同一个开发者帐号的信息;比如打包时关联。 3. 打包电脑: 有条件的最好用不同的MAC来打包(每台MAC上最好打包马甲包不要超过5个) 4. 上传IP: 上传马甲包时,IP不要跟其他马甲包的IP相同; 5. 材料相似: itu后台材料如宣传图,ICON,版权人不要出现相同; 【注:即使是前边没审核过的包,也不要跟他们有关联。尤其是前边被4.3拒绝的包,更不能跟他们有相似性】 ---------- 以上的能做到,基本大部分马甲可以顺利通过4.3这道坎了。更高级的技巧,待后续整理。 ---------- 来源: CSDN 作者: 代码不多程序员 链接: https://blog.csdn.net/baidu_37218374/article/details/82020658

基于深度迁移学习进行时间序列分类

匿名 (未验证) 提交于 2019-12-02 23:57:01
本文是法国上阿尔萨斯大学发表于 IEEE Big Data 2018 上的工作。 通常来说,用传统的机器学习方法(例如 KNN、DTW)进行时间序列分类能取得比较好的效果。但是, 基于深度网络的时间序列分类往往在大数据集上能够打败传统方法。 另一方面,深度网络必须依赖于大量的训练数据,否则精度也无法超过传统机器学习方法。在这种情况下,进行数据增强、收集更多的数据、使用集成学习模型,都是提高精度的方法。这其中,迁移学习也可以被用在数据标注不足的情况。 从深度网络本身来看,有研究者注意到了,针对时间序列数据,深度网络提取到的特征,与 CNN 一样,具有相似性和继承性。因此,作者的假设就是, 这些特征不只是针对某一数据集具有特异性,也可以被用在别的相关数据集。 这就保证了用深度网络进行时间序列迁移学习的有效性。 本文基本方法与在图像上进行深度迁移一致: 先在一个源领域上进行 pre-train,然后在目标领域上进行 fine-tune。 然而,与图像领域有较多的经典网络结构可选择不同,时间序列并没有一个公认的经典网络架构。因此,作者为了保证迁移的效果不会太差,选择了之前研究者提出的一种 全卷积网络 (FCN,Fully Convolutional Neural Network)。这种网络已经在之前的研究中被证明具有较高的准确性和鲁棒性。 网络结构 如下图所示。

ASE —— 第二次结对作业

孤者浪人 提交于 2019-12-01 08:12:54
目录 重现基线模型 基线模型原理 模型的优缺点 模型重现结果 提出改进 改进动机 新模型框架 评价合作伙伴 重现基线模型 基线模型原理 我们选用的的模型为 DeepCS ,接下来我将解释一下它的原理。 我们要进行代码搜索,其实就是希望寻找一个代码片段(code snoppets)和它的自然语言描述(description)的一个对应关系,然而,由于编程语言和自然语言间存在的差异,如果仅仅依靠文本内容的相似性,很容易出现误匹配。我们就需要在另一个空间去寻找一种表征,或者说寻找一种或多种映射,让对应的代码片段和自然语言描述通过各自的映射,在新的空间足够的相似,这样也就能很方便的去根据相似性去搜索代码。 所以论文中提出了CODEnn模型(Code-Description Embedding Neural Network),所谓的embedding通俗来讲,就是用向量来表示一种实体(单词、图像等等),使得相似的物体在embedding的向量空间也足够相似(如余弦相似性)。如下图,由于代码和自然语言描述是两种不同的东西,我们也采用了两个不同的网络来分别进行embedding,使得语义对应的代码和描述在向量空间足够接近,而语义不同的代码和描述在向量空间则没有那么近。 代码和查询的联合embbeding 由于代码语言和自然语言都存在序列性,一句话前后的单词构成了一个序列,适合采用循环神经网络

论文笔记:Meta-Graph Based Recommendation Fusion over Heterogeneous Information Networks (KDD 2017)

試著忘記壹切 提交于 2019-11-30 19:50:26
研究动机 异构信息网络是推荐系统中重要的数据表示。异构信息网络的推荐系统常常面临2个问题: 如果去表示推荐系统的高级语义,如何向推荐系统中融入异构信息 。在这篇文章中,我们首先将meta-graph融入到HIN-based推荐系统中,然后利用”MF+FM“的方法求解信息融合问题。对于每个meta-graph生成的相似性,利用MF的方法进行生成用户的潜在特征和项目的潜在特征。针对不同的mate-graph特征,我们提出了一种基于群lasso正则化的FM方法,去自动从观察到的信息中有效的选择有效的meta-graph方法。 传统的模型 为了结合丰富的语义,HIN首先构建异构网络的网络模式。比如,在Yelp中,网络模式是在实体类型上定义的 User,Review,Word,Business,然后,受实体类型约束的语义关联可以通过元路径上两个实体之间的相似性来定义。对于传统的协同过滤推荐,如果我们想把business推荐给用户,我们可以建立一个简单的meta-path Business->User然后从这个元路径中进行学习。同时,在异构网络中,我们也可以定义更复杂的meta-path,比如 U ser-> Review -> Word -> Review -> Business, 这个meta-path定义了如果用户与其他用户对相同的Business进行了相似的评论

k-means 聚类的简单理解

落花浮王杯 提交于 2019-11-29 17:09:06
k-means 聚类 聚类算法有很多种,K-Means 是聚类算法中的最常用的一种,算法最大的特点是简单,好理解,运算速度快,但是只能应用于连续型的数据,并且一定要在聚类前需要手工指定要分成几类。 K-Means算法是一种很典型的基于距离的聚类算法,采用距离作为相似性的评价标准,认为两个对象的距离越近,那么相似度就越大。把簇作为距离靠近的对象组成的,最终得到的是紧凑和独立的簇。对于聚类分析来说,用于发现数据对象之间的关系。组内的相似性越大,组间的相似性越小,可以说效果越好。K个初始类聚类中心点的选取对聚类结果具有比较大的影响。在算法的第一步中随机的选取了K个初始聚类的中心,代表了一个簇。在每次迭代的过程中,对数据集中剩余的每个对象。根据每个簇中心的距离将每个对象重新赋给最近的族。 算法框架: 给定大小为n的数据集,令O=l,选取k个初始聚类中心 Zj(O),j=1,2,3,...,k,O代表不同迭代轮数的聚类中心 计算每个样本数据对象与聚合中心的距离D(xi,Zj(O)),i=1,2,3,…,并分类 令O=O+1,计算新的聚类中心和误差平方和准则f(目标函数)值: 判断:若If(O+1)-f(O)I<theta(f收敛)或者对象无类别变化,则算法结束,否则,O=O+1,返回2)步; 来源: https://blog.csdn.net/h284306976/article

superword开源项目中的定义相似规则

落爺英雄遲暮 提交于 2019-11-28 20:29:34
两个词之间的关系有同义、反义、近义(有多近?)、相关(有多相关?)等等。 我们如何来判断两个词之间的关系呢?利用计算机能自动找出这种关系吗?当然可以,不仅能找出来,而且还能量化 出 有多近和有多相关。 本文描述了 superword 开源项目中的 定义相似规则 ,利用词的定义计算词和词之间的相似性。词的定义使用的是韦氏词典,同时也支持牛津词典。相似性算法使用的是 word分词 提供的10大相似性算法。 定义相似规则 主要包括以下6步: 1、获取要计算的词的定义: String wordDefinition = MySQLUtils.getWordDefinition(word, WordLinker.Dictionary.WEBSTER.name()); 2、获取分级词汇,分级词汇的具体定义见 这里 : Set<Word> words = (Set<Word>)application.getAttribute("words_"+request.getAttribute("words_type")); 3、获取分级词汇的定义,代码见 这里 : List<String> allWordDefinition = MySQLUtils.getAllWordDefinition(WordLinker.Dictionary.WEBSTER.name(), words); 4、从 word分词

TF, IDF和TF-IDF

被刻印的时光 ゝ 提交于 2019-11-28 17:37:06
在相似文本的推荐中,可以用TF-IDF来衡量文章之间的相似性。 一、TF(Term Frequency) TF的含义很明显,就是词出现的频率。 公式: 在算文本相似性的时候,可以采用这个思路,如果两篇文章高频词很相似,那么就可以认定两片文章很相似。 二、IDF(Inverse Document Frequency) IDF为逆文档频率。 公式: 一个词越在语料库出现的次数越多,则权重应该越不重要;反之越少则应该越重要。 比如,如果要检索两个文档的相似度,通过统计权重大的词来进行匹配更为合理,如果统计词频高的词汇,例如很多文章都有(如果,很多,反之这些词汇),那么根本就抓不住相似性的衡量指标。如果两篇描述动物的文章我们如果能统计一些共有的权重较高的词,例如(海洋,鱼)等等则相对来说能更好的当作相似指标来进行计算。 三、TF-IDF 目的:综合考虑TF和IDF。 公式: 当一个词的词频很高并且逆文档率很高则越能代表这片文章的内容。 来源: https://www.cnblogs.com/ylxn/p/10213420.html

PSNR和SSIM

空扰寡人 提交于 2019-11-27 14:38:54
PSNR(Peak Signal to Noise Ratio) 峰值信噪比,一种全参考的图像质量评价指标。 其中,MSE表示当前图像X和参考图像Y的均方误差(Mean Square Error),H、W分别为图像的高度和宽度;n为每像素的比特数,一般取8,即像素灰阶数为256. PSNR的单位是dB,数值越大表示失真越小。 PSNR是最普遍和使用最为广泛的一种图像客观评价指标,然而它是基于对应像素点间的误差,即基于误差敏感的图像质量评价。由于并未考虑到人眼的视觉特性( 人眼对空间频率较低的对比差异敏感度较高,人眼对亮度对比差异的敏感度较色度高,人眼对一个区域的感知结果会受到其周围邻近区域的影响等 ),因而经常出现评价结果与人的主观感觉不一致的情况。 SSIM(structural similarity) 结构相似性,也是一种全参考的图像质量评价指标,它分别从亮度、对比度、结构三方面度量图像相似性。 其中u x 、u y 分别表示图像X和Y的均值,σ X 、σ Y 分别表示图像X和Y的方差,σ XY 表示图像X和Y的协方差,即 C1、C2、C3为常数,为了避免分母为0的情况,通常取C1=(K1*L)^2, C2=(K2*L)^2, C3=C2/2, 一般地K1=0.01, K2=0.03, L=255. 则 SSIM取值范围[0,1],值越大,表示图像失真越小. 在实际应用中

学习笔记(二)数据挖掘概念与技术

时间秒杀一切 提交于 2019-11-26 14:59:03
1中心趋势度量:均值(mean)、中位数、众数 截尾均值:丢掉高低极端值后的均值 加权算术均值(加权平均): 中位数(median)是有序数据的中间值,对于非对称数据是数据中心更好的度量。 用插值法计算中位数的近似值: median= 其中 是中位数区间的下界,N是整个数据集中值的个数, 是低于中位数区间的所有区间的频率和, 是中位数区间的频率,而width是中位数区间的宽度。 众数(mode):集合中出现最频繁的值,可以对定性和定量属性确定众数。(可能出现多个众数) 对于适度倾斜(非对称)的单峰数值数据,有经验关系: ,就是说如果均值和中位数已知,则适度倾斜的单峰频率曲线的众数容易近似计算。 中列数(midrange):是数据集的最大和最小值的平均值 。具有完全对称的数据分布的单峰频率曲线中,均值、中位数、众数相同 2度量数据散布:极差、四分位数、方差、标准差和四分位数极差 (1)极差:最大值与最小值之差。分位数:取自数据分布的每隔一定间隔上的点,把数据划分成 基本上 大小相等的连贯集合。2-分位数对应于中位数,4-分位数是3个数据点,把数据划分成4个相等的部分。第1和3个四分位数之间的距离是散布的一种简单度量,给出数据中间一半所覆盖的范围称为四分位数极差(IQR)=Q3-Q1 (2)五数概括、盒图与离群点 识别可疑离群点的通常规则是,挑选落在第三个四分位数之上或者Q1之下至少1

spacy词向量

青春壹個敷衍的年華 提交于 2019-11-26 12:30:01
spaCy能够比较两个对象,并预测它们的相似程度。 预测相似性对于构建推荐系统或标记重复项很有用。 例如,您可以建议与当前正在查看的用户内容相似的用户内容,或者将支持凭单标记为与现有内容非常相似的副本。 每个Doc、Span和Token都有一个.similarity()方法,它允许您将其与另一个对象进行比较,并确定相似度。当然,相似性总是主观的——“狗”和“猫”是否相似取决于你如何看待它。spaCy的相似模型通常假定一个相当通用的相似性定义。 tokens = nlp(u'dog cat banana') for token1 in tokens: for token2 in tokens: print(token1.similarity(token2)) 在这种情况下,模型的预测是很准确的。狗和猫非常相似,而香蕉却不是很相似。相同的标记显然是100%相似的(并不总是精确的1.0,因为向量数学和浮点数的不精确)。 相似性是通过比较词向量或“词嵌入”来确定的,即一个词的多维意思表示。单词向量可以通过像word2vec这样的算法生成,通常是这样的: important note 为了使比较算法简洁和快速,spaCy的小模型(所有以sm结尾的包)都不使用单词向量,而且这些sm包只包含上下文相关的向量。这意味着您仍然可以使用similarity()方法来比较文档、span和token