神经网络

Pyhthon爬虫其之验证码识别

大兔子大兔子 提交于 2021-01-12 04:20:16
背景   现在的登录系统几乎都是带验证手段的,至于验证的手段也是五花八门,当然用的最多的还是验证码。不过纯粹验证码识已经是很落后的东西了,现在比较多见的是滑动验证,滑动拼图验证(这个还能往里面加广告)、点击图片特定位置确认(同样能放广告),再或者谷歌的No-CAPTCHA。总之纯粹的验证码效果不好,成本也不如一众新型验证码,迟早是要被全部淘汰的,但现在仍然有很多地方在使用传统的图片验证码。所以提到自动模拟登录,验证码识别肯定也是需要进行研究的。    思路   由于我此前并没有接触过验证码识别的相关知识,所以在开工前在网上查找了大量的资料,个人觉得对我最有帮助的三篇附在文章最后。   在翻阅了大量的博客、文章后我采用的识别方法为pytesser中的image_to_string函数。   起先是打算按照某篇文章的介绍,使用libSVM进行人工网络识别,但在完成了图片处理后,我发现使用pytesser进行识别的成功率已经达到了8成以上,便没有继续研究下去(因为我懒…)   验证码是别的流程大概是这样的:      1. 获取验证码图片 2. 二值化图片(使图片只有黑白两种像素) 3. 去噪、去干扰线 4. 修正扭曲、变形 5. 分割字符(视识别手段而定) 6. 识别   其中的去噪和修正并没有严格的先后顺序,怎么办效果好就怎么办。   由于我校教务处的验证码没有扭曲变形

清华大学发布首个自动图机器学习工具包AutoGL,开源易用可扩展,支持自定义模型

时间秒杀一切 提交于 2021-01-12 02:27:50
机器之心报道 机器之心编辑部 如何应用自动机器学习 (AutoML) 加速图机器学习任务的处理?清华大学发布全球首个开源自动图学习工具包:AutoGL (Auto Graph Learning),支持在图数据上全自动进行机器学习。 人工智能的蓬勃发展离不开数据、算力、算法这三大要素。而在浩瀚的数据中,有一种数据结构既普遍又复杂,它就是图(graph)。 图是一种用于描述事物之间关系的结构,其基本构成元素为节点和连接节点的边。 很多不同领域的研究问题都可以很自然地建模成图机器学习,例如蛋白质建模、物理系统模拟、组合优化等基础研究;社交媒体分析、推荐系统、虚假新闻检测等互联网应用;以及金融风控、知识表征、交通流量预测、新药发现等。 社交网络图示例。 图结构丰富且具有与生俱来的导向能力,因此非常适合机器学习模型。同时,它又无比复杂,难以进行大规模扩展应用。而且不同的图数据在结构、内容和任务上千差万别,所需要的图机器学习模型也可能相差甚远,这就导致不同任务的模型自动化面临巨大挑战。 如何设计最优的图自动机器学习模型 ,是一个尚未解决的难题。 图 + AutoML = ? 自动机器学习 (AutoML) 旨在将机器学习的过程自动化,在降低机器学习使用门槛的同时,提升机器学习的效果。但现有的自动机器学习工具,无法考虑图数据的特殊性,因此无法应用在图机器学习模型中。 为了解决该问题

清华大学发布首个自动图机器学习工具包 AutoGL,开源易用可扩展,支持自定义模型...

混江龙づ霸主 提交于 2021-01-11 13:29:30
来源:机器之心 本文约2800字,建议阅读6分钟如何应用自动机器学习 (AutoML) 加速图机器学习任务的处理? 清华大学发布全球首个开源自动图学习工具包:AutoGL (Auto Graph Learning),支持在图数据上全自动进行机器学习。 人工智能的蓬勃发展离不开数据、算力、算法这三大要素。而在浩瀚的数据中,有一种数据结构既普遍又复杂,它就是图(graph)。 图是一种用于描述事物之间关系的结构,其基本构成元素为节点和连接节点的边。 很多不同领域的研究问题都可以很自然地建模成图机器学习,例如蛋白质建模、物理系统模拟、组合优化等基础研究;社交媒体分析、推荐系统、虚假新闻检测等互联网应用;以及金融风控、知识表征、交通流量预测、新药发现等。 社交网络图示例 图结构丰富且具有与生俱来的导向能力,因此非常适合机器学习模型。同时,它又无比复杂,难以进行大规模扩展应用。而且不同的图数据在结构、内容和任务上千差万别,所需要的图机器学习模型也可能相差甚远,这就导致不同任务的模型自动化面临巨大挑战。 如何设计最优的图自动机器学习模型,是一个尚未解决 的难题。 图 + AutoML = ? 自动机器学习 (AutoML) 旨在将机器学习的过程自动化,在降低机器学习使用门槛的同时,提升机器学习的效果。但现有的自动机器学习工具,无法考虑图数据的特殊性,因此无法应用在图机器学习模型中。

深度神经网络中的局部响应归一化LRN简介及实现

风流意气都作罢 提交于 2021-01-10 08:41:20
Alex、Hinton等人在2012年的NIPS论文《ImageNet Classification with Deep Convolutional Neural Networks》中将LRN应用于深度神经网络中(AlexNet)。论文见: http://www.cs.toronto.edu/~hinton/absps/imagenet.pdf ,截图如下: 公式解释: :ReLU处理后的神经元,作为LRN的输入; :LRN的输出,LRN处理后的神经元; N:kernal总数或通道数; k、n、 、 :为常量,是超参数,k类似于bias,n对应于Caffe中的local_size,在论文中这几个值分别为2、5、 、0.75。 LRN(Local Response Normalization):局部响应归一化,此层实现了” lateral inhibition”(侧抑制),通过对局部输入区域进行归一化来执行一种”侧抑制”。在AlexNet中,处理ReLU神经元时,LRN很有用,因为ReLU的响应结果是无界的,可以非常大,所以需要归一化。当处理具有无限激活(unbounded activation)的神经元时(如ReLU),可以通过LRN对其归一化(normalize),因为它允许检测具有大神经元响应的高频特征(high-frequency features),同时衰减局部周围

海马体启发的记忆模型

本秂侑毒 提交于 2021-01-10 08:28:53
记忆是人类智能的关键,我们因为记忆可以把过去和当下整合成为一体, 并且可以预测未来。 记忆不仅是一个信息承载的工具, 更是世界模型的本体, 它无时无刻不在刻画未来, 也被当下影响, 可以说, 没有记忆,就没有智能。 然而当下深度学习模型有关记忆的模型确是一大空缺, RNN模拟了神经网络通过循环传递导致的信息缓存效应(类似人与人之间互相喊话来留存信息),而LSTM利用输入门和遗忘门进一步加强了这个机制引入了更加可控的信息暂留机制。 基于NTM的模型把过去的信息和常识存储在类似硬盘的存储器里,网络只需要学习读和写。 而transformer类模型把这种根据当下的信息索引既往的信息的能力加强到极致,某种程度,它们绕开了基于问题,而是机械的把所有的信息一次并行的输入到模型里, 由于可以微分的强大注意力机制, 使得它们的能力被广为使用。 我们说生物系统与之不同的是, 记忆不是为了存储而是为了预测( The hippocampus as a predictive map - Kimberly L. Stachenfeld ),这点尤其体现在模仿海马体的模型里。生物系统的灵活记忆机制纳入到系统里,就需要模拟大脑, 尤其是生物系统的海马体。 一种经典的理论认为海马体是感知信息进入生物长期记忆的门户,信息在这里被类似 “指针”一样的东西索引起来, 这个指针既可以是基于时间(情景记忆)也可以是基于空间

华为P40与周冬雨排列

末鹿安然 提交于 2021-01-10 07:23:35
此言论小编不对华为 P40 做任何诋毁(小编也是一名"花粉"哦),也不对周冬雨进行任何讽刺,因为人家都是各自领域的佼佼者,也轮不到我去贬低,何况小编也买不起华为 P40 ,更追不到女神周冬雨,哈哈哈。 咋一听【华为 P40 】【周冬雨】【排列】这三个不搭边的词怎么会在一起引起网上热议呢?别急,下面一起跟小编了解一下华为 P40 到底怎么了,会引起 “周冬雨排列” 了呢? (本文小编主要从手机屏幕角度与大家聊聊,要不然也引不出周冬雨啊) 一般情况下,手机屏幕主要分为 LCD 和 OLED 两种材质,而像那些 IPS、TN、Super AMOLED 和 PMOLED 一类的屏幕则是基于这两种材质的升级版技术,目前这些屏幕还很少,AMOELD 技术只在韩国三星手里。( 详情请看 视频行业之你真的会买电视机吗? ) 也许你身边的朋友或许都听到过这样的话,买手机当然要买 OLED 屏幕的手机,颜色鲜艳、手机轻薄,还有屏幕指纹识别, LCD 屏幕慢慢被淘汰了。那到底 LCD 和 OLED 指的是什么呢? LCD LCD 屏幕全称为Liquid Crystal Display,也就是液晶屏。因为它 不具备自发光特性 ,因此 需要背光板支持 ;另外,由于需要透过两层玻璃、光学膜片、配向膜和彩色滤光片等来产生偏光效果,所以会比 OLED 屏幕厚很多。LCD 发展历史很久了,技术成熟让它的制作成本更低

启发式算法之遗传算法

喜欢而已 提交于 2021-01-09 20:43:53
https://www.cnblogs.com/harrylyx/p/12397319.html 刚开学便被拉去参加了研究生数模比赛,赛题是一个航班排班的优化问题,所以第一反映便是遗传算法,比赛期间三个问题都使用单目标遗传算法,趁着还比较熟悉,特此记录,以便后续复习。本篇文章使用Python进行实现。 启发式算法 启发式算法是一种技术,这种技术使得在可接受的计算成本内去搜寻最好的解,但不一定能保证所得的可行解和最优解,甚至在多数情况下,无法阐述所得解同最优解的近似程度。 就是说这种算法的全局最优解只是理论上可行,大多数情况下都是一个局部最优解。启发式算法用的比较多的有模拟退火算法(SA)、遗传算法(GA)、列表搜索算法(ST)、进化规划(EP)、进化策略(ES)、蚁群算法(ACA)、人工神经网络(ANN)。这里重点介绍一下遗传算法(GA)。 遗传算法准备 遗传算法(Genetic Algorithm, GA)起源于对生物系统所进行的计算机模拟研究。它是模仿自然界生物进化机制发展起来的随机全局搜索和优化方法,借鉴了达尔文的进化论和孟德尔的遗传学说。其本质是一种高效、并行、全局搜索的方法,能在搜索过程中自动获取和积累有关搜索空间的知识,并自适应地控制搜索过程以求得最佳解。 具体来说,在写算法之前,有四个很重要的步骤: 确定编码方式 如何设计编码 确定约束条件 如何实现约束 确定编码方式

知识图谱的综述、构建、存储与应用

我的未来我决定 提交于 2021-01-09 18:04:59
本文介绍知识图谱,首先会讲一段知识图谱的综述作为开场,然后就知识图谱的构建,存储,还有应用进行具体说明。 知识图谱和我们的资源页比较类似,都是需要先构建,然后存储,之后应用。 知识图谱应用广泛,我会以推荐系统为例子,说明知识图谱在推荐系统中的应用。 知识图谱综述 我们首先对知识图谱做一个简短的综述。 计算机为什么需要知识? 比如数字110,对机器来说,110就是一个字符串,与其他数字没有太大的差别。 当然可以借助关联分析,分析出110跟警察,抢劫等相关。但是关联分析比较复杂,需要借助数据挖掘等相关技术。 如果采用知识库,只需要构建一条知识,即110是报警电话。 人工智能分为三个层次,分别是运算智能,感知智能和认知智能。 运算智能是让机器能存会算;感知智能是让机器能听会说、能看会认;认知智能是解决机器能理解会思考的问题。 认知智能需要知识图谱。 知识图谱是一个大规模语义网,包含实体和关系,比如章子怡的丈夫是汪峰; 也包含实体和属性,比如章子怡的出生日期是1979年2月9日。 还包含实体和概念,比如章子怡是一个女演员; 还包含概念之间的关系,比如女演员是演员的子类。演员是人物的子类。 百科图谱一般由 标题,摘要,信息框,标签,图片 等部分组成。 可抽取信息框的内容构建知识图谱,并进行可视化展示。 其中,对于题目理解来讲,函数的提出者,提出时间这些属性不是我们所关心的。 表达式,表示法

万字综述:行业知识图谱构建最新进展

限于喜欢 提交于 2021-01-09 17:15:46
作者|李晶阳[1],牛广林[2],唐呈光[1],余海洋[1],李杨[1],付彬[1],孙健[1] 单位|阿里巴巴-达摩院-小蜜Conversational AI团队[1],北京航空航天大学计算机学院[2] 摘要 行业知识图谱是行业认知智能化应用的基石。目前在大部分细分垂直领域中,行业知识图谱的 schema 构建依赖领域专家的重度参与,该模式人力投入成本高,建设周期长,同时在缺乏大规模有监督数据的情形下的信息抽取效果欠佳,这限制了行业知识图谱的落地且降低了图谱的接受度。 本文对与上述 schema 构建和低资源抽取困难相关的最新技术进展进行了整理和分析,其中包含我们在半自动 schema 构建方面的实践,同时给出了 Document AI 和长结构化语言模型在文档级信息抽取上的前沿技术分析和讨论,期望能给同行的研究工作带来一定的启发和帮助。 引言 从计算到感知再到认知的人工智能技术发展路径已经成为大多人工智能研究和应用专家的共识。机器具备认知智能,进而实现推理、归纳、决策甚至创作,在一定程度上需要一个充满知识的大脑。知识图谱 [4, 18, 19],作为互联网时代越来越普及的语义知识形式化描述框架,已成为推动人工智能从感知能力向认知能力发展的重要途径。 知识图谱的应用现在非常广泛:在通用领域,Google、百度等搜索公司利用其提供智能搜索服务,IBM Waston 问答机器人

fastText(三):微博短文本下fastText的应用(二)

房东的猫 提交于 2021-01-09 12:00:40
上一篇讲到,fastText在训练数据中过拟合的问题。接下来将介绍一些提高fastText泛化能力的尝试。 模型泛化 使用过fastText的人,往往会被它的很多特性征服,例如训练速度、兼具word embedding和分类等。但是正如一个硬币有正反两面,fastText也并非完美,fastText的泛化性是它的短板。 增加正则项 在Logistic Regression中,调节正则项能够提高模型的泛化性能。通过上一篇博客可知,fastText的代价函数是: L(d,h)=−∑i=1CyilogPi=−∑i=1CyilogeθTih∑Cj=1eθTjh L(d,h)=−∑i=1Cyilog⁡Pi=−∑i=1Cyilog⁡eθiTh∑j=1CeθjTh 增加正则项后,代价函数: L(d,h)=−∑i=1CyilogPi+λ∑i=1V∥wi∥+μ∑j=1C∥θj∥ L(d,h)=−∑i=1Cyilog⁡Pi+λ∑i=1V‖wi‖+μ∑j=1C‖θj‖ 此时词向量的更新方式变为: wj=wj−η∑i=1C(Pi−yi)θi−λwj, j=1,2,...,L wj=wj−η∑i=1C(Pi−yi)θi−λwj, j=1,2,...,L 增加了正则项后,同一个句子的词向量无法按照相同的方向更新,词向量间的相似便无法保证。此时,fastText与常见的前馈神经网络(DNN)没有任何差别