实时计算 | 易学教程

一种海量日志存储、分析解决方案V1.0

阅读更多关于一种海量日志存储、分析解决方案V1.0

【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 本方案试运行中，待观测其性能、稳定性及健壮性，请勿直接应用生产。涉及的技术栈。 hadoop，版本2.6.0，主要用来存储数据及进行离线分析。 hive，版本1.2.1，主要用来管理数据（注意没有用到MR分析）； hbase，版本1.2.4，主要用来存储中间输出数据（可看作缓存）； flume，版本1.7.0，主要用来从业务系统收集数据以及从jms收集数据。 kafka，版本0.10.1.0，主要用来收集业务系统日志数据和汇总日志数据。 spark，版本2.0.1，主要用来取代hive的MR分析，并针对基础数据进行数据筛选分析等（可看作离线数据分析引擎）。 redis，版本3.0.6，主要用来缓存分析中的增量数据，设定当天数据时效为36小时，每天同步一次昨天的增量日志数据到全量数据库中。 storm，版本0.10.2，主要用来日志实时分析，如用户画像实时更新，PV统计等。 mongodb，版本3.2.10，主要用来存储终态数据，如用户画像、PV值等供业务系统使用。 ganglia，版本3.2.0，主要用来监控各节点状态。其它如haproxy、nginx等辅助ha工具这里不再赘述。首先看一张架构图。根据架构图设计出网络拓扑图最后是流程图以下是数据流向说明： 1、业务系统收集日志数据 2

一种海量日志存储、分析解决方案V1.1

阅读更多关于一种海量日志存储、分析解决方案V1.1

针对上一个版本https://my.oschina.net/shyloveliyi/blog/786337，有如下更新： 1、解决数据采集汇总后实时存储到hive表中。 2、升级storm为jstrom。架构图、流程图不变，在网络拓扑图增加一个hbase集群节点，数据汇总后采集到hbase中，然后hive建立hbase映射表以及storm节点修改为jstorm节点。新的网络拓扑图如下：来源： oschina 链接： https://my.oschina.net/u/2358114/blog/788213

Twitter Storm集群搭建小结

阅读更多关于 Twitter Storm集群搭建小结

最近自己尝试搭建了一下Twitter Storm的集群，参考了很多网友的博客，特别是徐明明的；这里只对自己搭建时的过程和所遇到的问题做一个小总结，方便查阅。 Storm是Twitter开源的一个实时计算框架，它需要依赖Zookeeper，ZeroMQ；同时还需要你的系统环境中有Java和Python。所以整个搭建步骤如下：搭建Zookeeper集群。在控制节点机[ Nimbus ]和工作节点机[ Supervisor ]上安装相同的环境（ZeroMQ，JZMQ，Java，Python等）在控制节点机[ Nimbus ]和工作节点机 [ Supervisor ] 上安装Storm框架配置Storm，通过storm.yaml文件用命令启动Storm (需要分别启动Nimbus、Supervisor、ui ) Zookeeper集群搭建由于系统环境中已经有同事搭建好了Zookeeper的集群，所以我没自己手动实现过，就不做介绍了，直接给出贱客的一篇博客 http://www.oschina.net/question/54100_10242 依赖环境的部署这节主要介绍 ZeroMQ，JZMQ的部署（Java和Python的安装就不总结了，网上很多）首先是ZeroMQ：Storm所需的版本是 ZeroMQ 2.1.7，你可以通过执行如下命令安装： wget http: