HDFS

Apache Flink 在实时金融数据湖的应用

左心房为你撑大大i 提交于 2021-01-29 04:55:24
简介: 本文由京东搜索算法架构团队分享,主要介绍 Apache Flink 在京东商品搜索排序在线学习中的应用实践 一、背景 在京东的商品搜索排序中,经常会遇到搜索结果多样性不足导致系统非最优解的问题。为了解决数据马太效应带来的模型商品排序多样性的不足,我们利用基于二项式汤普森采样建模,但是该算法仍存在对所有用户采用一致的策略,未有效考虑用户和商品的个性化信息。基于该现状,我们采取在线学习,使深度学习和汤普森采样融合,实现个性化多样性排序方案,实时更新模型的关参数。 在该方案中,Flink 主要应用于实时样本的生成和 online learning 的实现。在在线学习过程中,样本是模型训练的基石,在超大规模样本数据的处理上,我们对比了 Flink、Storm 和 Spark Streaming 之后,最终选择用 Flink 作为实时样本流数据的生产以及迭代 online learning 参数的框架。在线学习的整体链路特别长,涉及在线端特征日志、流式特征处理、流式特征与用户行为标签关联、异常样本处理、模型动态参数实时训练与更新等环节,online learning 对样本处理和参数状态处理的准确性和稳定性要求较高,任何一个阶段都有可能出现问题,为此我们接入京东的 observer 体系,拥有完整的全链路监控系统,保证各个阶段数据的稳定性和完整性

基于Storm构建实时热力分布项目实战

给你一囗甜甜゛ 提交于 2021-01-29 04:20:42
基于Storm构建实时热力分布项目实战 下载地址: 百度云盘 Storm是实时流处理领域的一柄利器,本课程采用最新的Storm版本1.1.0,从0开始由浅入深系统讲解,深入Storm内部机制,掌握Storm整合周边大数据框架的使用,从容应对大数据实时流处理! 适合人群及技术储备要求 这是一门非常具有可操作性的课程,适合Java工程师正处于瓶颈期想提升自己技术、想转型做大数据的开发者,更适合对于大数据感兴趣、想从事大数据 研发工作的同学。本课程将手把手带你从零循序渐进地讲解Storm各方面的技术点,让你轻松胜任实际大数 据实时流处理的工作,稳拿高薪! 技术储备要求 熟练掌握Java SE、Linux即可 课程目录:第1章 课程导学引见课程相关背景,学习建议等等1-1 -导学试看1-2 -OOTB环境运用演示1-3 -授课习气与学习建议第2章 初识实时流处置StormStorm作爲近几年Hadoop生态圈很火爆的大数据实时流处置框架,是成爲大数据研发工程师必备的技艺之一。 本章将从如下几个方面让大家关于Storm有微观上的看法:什麼是Storm、Storm的展开史、Storm比照Hadoop的区别、Storm比照Spark Streaming的区别、Storm的劣势、Storm运用现状及展开趋向、Storm运用案例分享...2-1 -课程目录2-2 -Storm是什麼2-3

Getting 'SparseDtype' object has no attribute 'itemsize' when trying to save sparse df to hdf5?

穿精又带淫゛_ 提交于 2021-01-28 11:21:02
问题 I'm trying to save a large sparse dataframe to a hdf5 file but I'm getting a attribution error: one_hot = pd.get_dummies(my_DF, columns=['cat'], sparse=True) one_hot.to_hdf('/content/data.h5', 'table', mode='w', append=True, complevel=9, complib='bzip2') I get error: AttributeError: 'SparseDtype' object has no attribute 'itemsize' I have tried different combo's for to_hdf but no success. I have never converted to hdf5 before so I might be missing something. I couldn't find anything about this

NameNode: Failed to start namenode in windows 7

ε祈祈猫儿з 提交于 2021-01-28 09:01:06
问题 I am trying to install Hadoop in windows machine, in middle I got the below error. Logs 17/11/28 16:31:48 ERROR namenode.NameNode: Failed to start namenode. java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z at org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Native Method) at org.apache.hadoop.io.nativeio.NativeIO$Windows.access(NativeIO.java:609) at org.apache.hadoop.fs.FileUtil.canWrite(FileUtil.java:996) at org.apache.hadoop

Not able to delete the data from hdfs, even after leaving safemode?

回眸只為那壹抹淺笑 提交于 2021-01-27 21:00:29
问题 I used this command to leave the safe mode hdfs dfsadmin -safemode leave But even then, when I use this command to delete files hdfs dfs -rm -r /user/amandeep/share/ It shows the following error 15/06/18 23:35:05 INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval = 0 minutes, Emptier interval = 0 minutes. rm: Cannot delete /user/amandeep/share/lib/lib_20150615024237. Name node is in safe mode. 来源: https://stackoverflow.com/questions/30922639/not-able-to-delete-the

搭建高可用的flink JobManager HA

你。 提交于 2021-01-26 08:49:08
  JobManager协调每个flink应用的部署,它负责执行定时任务和资源管理。   每一个Flink集群都有一个jobManager, 如果jobManager出现问题之后,将不能提交新的任务和运行新任务失败,这样会造成单点失败,所以需要构建高可用的JobMangager。   类似zookeeper一样,构建好了高可用的jobManager之后,如果其中一个出现问题之后,其他可用的jobManager将会接管任务,变为leader。不会造成flink的任务执行失败。可以在单机版和集群版构建jobManager。   下面开始构建一个单机版flink的JobManger高可用HA版。   首先需要设置SSH免密登录,因为启动的时候程序会通过远程登录访问并且启动程序。   执行命令,就可以免密登录自己的机器了。如果不进行免密登录的话,那么启动的hadoop的时候会报 "start port 22 connection refused"。 ssh-keygen - t rsa ssh -copy- id -i ~/. ssh /id_rsa.pub huangqingshi@localhost   接下来在官网上下载hadoop的binary文件,然后开始解压,我下载的版本为hadoop-3.1.3版本

20张图带你到HBase的世界遨游

[亡魂溺海] 提交于 2021-01-25 15:37:51
Python实战社群 Java实战社群 长按识别下方二维码, 按需求添加 扫码关注添加客服 进Python社群▲ 扫码关注添加客服 进Java社群 ▲ 作者丨SoWhat1412 来源丨sowhat1412 1 HBase 浅析 1.1 HBase 是啥 HBase 是一款面向列存储,用于存储处理海量数据的 NoSQL 数据库。它的理论原型是 Google 的 BigTable 论文。你可以认为 HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。 HBase 的存储是基于 HDFS 的, HDFS 有着高容错性的特点,被设计用来部署在低廉的硬件上,基于 Hadoop 意味着 HBase 与生俱来的超强的 扩展性 和 吞吐量 。 HBase 采用的时 key/value 的存储方式,这意味着,即使随着数据量的增大,也几乎不会导致查询性能的下降。 HBase 又是一个 面向列 存储的数据库,当表的字段很多时,可以把其中几个字段独立出来放在一部分机器上,而另外几个字段放到另一部分机器上,充分分散了负载的压力。如此 复杂的存储结构和分布式的存储方式 ,带来的代价就是即便是 存储很少的数据,也不会很快 。 HBase 并不是足够快,只是数据量很大的时候慢的不明显。HBase主要用在以下两种情况: 单表数据量超过千万,而且并发量很大。 数据分析需求较弱,或者不需要那么实时灵活

如何在混合云架构中高效运行 Presto

好久不见. 提交于 2021-01-25 04:50:47
请点击上方 蓝字 ,关注我们哦! 将SQL工作负载从完全的本地环境迁移到云环境中有许多好处,包括降低资源竞争、通过按需购买计算资源来降低费用。当Presto的数据存储在HDFS中时,由于Presto的架构允许存储和计算的组件独立操作,在云环境中的计算与本地的存储之间的分离是显而易见的。在云上通过在Presto检索本地的HDFS数据这样的混合环境里面,一个关键的问题是两个集群之间的网络延迟。 这个关键的瓶颈严重限制了所有工作负载的性能,因为其大部分时间都花在了可能位于地理位置不同的网络之间传输请求的数据上。结果,大多数公司将其数据复制到云环境中并维护该数据副本,也称为Lift and Shift。有合规性和数据主权要求的公司甚至可能阻止组织将数据复制到云中。这种方法不可扩展,需要付出大量的人工才能获得合理的结果。本文介绍了Alluxio充当 数据编排层 (见参考链接1),以帮助将数据高效地提供给Presto,而不是直接查询远程的HDFS集群或将数据的本地化副本手动提供给云集群中的Presto。 采用Alluxio和Presto的混合云架构 在以下架构图中,Presto和Alluxio进程都位于云集群中。就Presto而言,它正在查询数据并将其写入Alluxio,就好像Alluxio是位于同一位置的HDFS集群一样。当Alluxio收到数据请求时,最初会从远程HDFS集群中获取数据

网站架构优化性能

妖精的绣舞 提交于 2021-01-23 21:57:03
最开始的网站架构 最初业务量不大,访问量小,此时的架构,应用程序、数据库、文件都部署在一台服务器上,有些甚至仅仅是租用主机空间 1. 应用、数据、文件分离 将应用程序、数据库、文件各自部署在独立的服务器上,并且根据服务器的用途配置不同的硬件,达到最佳的性能效果。 2. 利用缓存改善网站性能 大部分网站访问都遵循28原则,即80%的访问请求,最终落在20%的数据上,所以我们可以对热点数据进行缓存,减少热点数据的访问路径,提高用户体验。缓存实现常见的方式是本地缓存、分布式缓存。当然还有CDN、反向代理。 2.1 本地缓存 本地缓存,顾名思义是将数据缓存在应用服务器本地,可以存在内存中,也可以存在文件,组件。本地缓存的特点是速度快,但因为本地空间有限所以缓存数据量也有限。OSCache就是常用的本地缓存。 2.2 分布式缓存 分布式缓存的特点是,可以缓存海量的数据,并且扩展非常容易,在门户类网站中常常被使用,速度按理没有本地缓存快,常用的分布式缓存是Memcached、Redis。 2.3 反向代理 部署在网站的机房,当用户请求达到时首先访问反向代理服务器,反向代理服务器将缓存的数据返回给用户,如果没有缓存数据才会继续访问应用服务器获取,这样做减少了获取数据的成本。反向代理有Squid,Nginx。 2.4 CDN 假设我们的服务器都部署在杭州的机房,对于浙江的用户来说访问是较快的

网站架构之性能优化

我的梦境 提交于 2021-01-23 21:56:45
网站架构中 最核心 的几个要素包括: 性能 , 可用性 , 伸缩性 , 扩展性 和 安全性, 而性能又是其中最为重要的,本篇简要说下网站性能优化方面所需做的一些事情; 1. 网站性能问题概要 性能问题 说明 产生原因 大都是在用户高并发访问时产生的 主要工作 改善高并发用户访问情况下的网站访问速度 主要目的 改善用户体验,让用户觉得网站很快,一切的产品都必须站在用户的角度考虑问题 2. 网站性能测试 站在不同的视角,所关注的网站性能是不一致的: 视角 关注点 说明 用户视角 用户打开浏览器网页的响应速度,网页能再多长时间内打开,一般超过3秒就会感觉比较慢了 用户感受到的时间主要包括网络通信、服务器处理、浏览器解析时间 开发视角 主要关注应用程序本身及其子系统的性能 例如应用程序本身各业务耗时、并发量、程序是否稳定等 运维视角 更关注基础设施性能和资源利用率 如运营商带宽能力,服务器硬件配置,网络、服务器资源利用率等 站在开发、测试人员角度,性能测试的主要指标: 响应时间 、 并发数 、 吞吐量 、 服务器各性能指标 ; 性能指标 说明 测试方法 响应时间 从发出请求开始到收到最后响应数据所花费的时间 一般计算多次重复请求所花费的总响应时间,再除以请求次数 并发数 系统能够同时处理请求的数目,也代表了同时发起请求的用户数 多线程模拟并发用户 吞吐量 单位时间内系统处理的请求数量