流计算

InfoSphere Streams——实时大数据分析平台

心已入冬 提交于 2020-04-07 17:56:02
了解 InfoSphere Streams ,它是 IBM 大数据平台的一部分。 InfoSphere Streams 解决了针对能够实时处理生成的海量流数据的平台和架构的一种迫切需求。了解该产品的设计目标,它适用于哪些时机,其工作原理,以及它如何为 InfoSphere BigInsights 提供补充来执行高度复杂的分析。 来自多个来源的信息正在以难以置信的速度增长。互联网用户数量在 2015 年已经达到 22.7 亿。每一天,Twitter 都会生成超过 12 TB 的 tweet,Facebook 生成超过 25 TB 日志数据,纽约证券交易所采集 1 TB 交易信息。每天会创建大约 300 亿个射频识别 (RFID) 标记。此外,每年销售的数亿台 GPS 设备,目前正在使用的超过 3000 万个连网的传感器(而且每年在以高于 30% 的速度增长),都在产生数据。这些数据量预计在未来 10 年中每 2 年就会翻一番。 一家公司在一年时间内可生成高达数 PB 的信息: 网页、博客、单击流、搜索索引、社交媒体论坛、即时消息、文本消息、电子邮件、文档、用户人口统计数据、来自主动和被动系统的传感器数据,等等 。许多人估计,这些数据中高达 80% 都是半结构化或非结构化数据。公司一直在寻求更加敏捷地经营业务,以更加创新的方式执行 数据分析和决策流程 。而且他们认识到