data pipeline

IT168专访|DataPipeline 合伙人&CPO陈雷:我们致力于成为中国的世界级数据中间件厂商

故事扮演 提交于 2021-01-25 17:05:49
IT168 :很高兴有机会采访到您,请您介绍一下自己,所在公司及主打产品? 陈雷: 毕业之后去了方正,然后IBM11年,创业4年,一直从事数据领域的产品研发,系统交付工作。业务经验主要集中在金融、通信、能源等信息化领先行业,现在所在的公司DatePipeline是一家年轻的中国本土企业,我们致力于成为中国的世界级数据中间件厂商,产品也叫DataPipeline,是一款数据集成领域的下一代中间件产品,功能覆盖了实时数据采集、异构数据融合、实时数据处理等数据集成领域的主要场景。 IT168 :您是何时进入这个行业的?这其中有没有特别的原因或者契机? 陈雷: 中间件行业可能和互联网行业还不太一样,还是有一定门槛的,我相信从事软件行业的人大部分都和我一样,没有什么特别偶然的原因或者契机,就是从小喜欢计算机,根据兴趣选择了专业然后一路走过来,如果一定要说原因的话,我觉得可能是我们国家近几十年信息技术的高速发展为我们提供了一展拳脚的空间,没有让我们放弃自己的兴趣,这也是一个很幸福的事。 IT168 :国内的市场格局是怎样的?都有哪些玩家?DataPipeline处于怎样的位置? 陈雷: 主要分为三大类。 第一类是传统的外企,比如IBM、Oracle、Informatica等,有很成熟的产品和服务体系,但面对中国市场的新技术要求的应对稍显缓慢,比如Informatica今年宣布解散了中国公司

实时数据融合之道:博观约取,价值驱动

空扰寡人 提交于 2020-11-05 10:43:09
陈雷 | DataPipeline 合伙人 & CPO 曾任 IBM 大中华区认知物联网实验室服务部首席数据科学家、资深顾问经理。十年管理经验,十五年数据科学领域与金融领域经验。综合交通大数据应用技术国家工程实验室产业创新部主任,西安交通大学软件学院大数据智能创新中心主任,中国电子学会区块链专委会委员。 所谓数据时效性的提升指的绝不仅仅是用户行为数据、交易数据等时序数据的时效性,或者说这些数据的时效性本身都是很高的,数据时效性提升的主要战场应该是针对散落在各业务系统中没有被集中管理的各类结构化数据以及需要汇聚关联各个业务数据后加工计算的数据(说人话:没有纳入主数据系统管理的各业务系统账户、客户数据及数据仓库、集市中的分析加工结果数据的时效性一般都比较低)。 近年来随着互联网企业在数据技术发展过程中逐渐占据主导地位,互联网数据、用户行为数据等大数据概念被大家普遍接受,但对于企业来说与其把目光盯在价值密度较低的沙子上筛来筛去,不如好好想想自己家里的金山钻石矿里的数据能不能更快地变现(说人话:客户在网银上的访问轨迹的价值远不如客户账户大额变动来的有价值,所以先想办法把这事告诉客户经理吧)。 当然并不是说外部数据没价值或者说时效性不重要,而是说要全面考虑企业域、产业域、生态域可利用的数据,基于实际价值驱动,由高到低提升数据时效性,而不是按照数据本身的时效性来加以利用,舍本逐末

认识数据管道

不想你离开。 提交于 2020-10-02 03:38:43
本文简要介绍了三种数据管道(Data Pipeline)类型。中兴数据智能为您翻译如下。 选自Algorithmia 数智君 | 翻译 数据管道(Data Pipeline)是一种允许数据通过数据分析过程从一个位置高效流向另一个位置的软件。数据管道中的步骤通常包括提取、转换、组合、验证、可视化以及其它此类数据分析过程。如果没有数据管道,这些过程需要大量耗时而繁琐的手动步骤,并给人为错误留下空间。 理解数据管道的最佳类比是一条传送带,它能高效、准确地将数据传送到流程的每一步。例如,数据管道可帮助数据从SaaS应用高效地流向数据仓库等。 为什么数据管道很重要? 这种高效流程是数据驱动型企业中最关键的操作之一,因为在步骤之间存在很大的错误空间。数据可能会遇到瓶颈、损坏或产生重复项和其他错误。数据集越大、涉及的源越多,就越有可能发生错误,而且整体上的错误会更大、更有害。 数据管道从确定数据收集的内容、位置和方式开始。它使提取、转换、合并、验证、进一步分析数据和数据可视化的过程自动化。通过消除错误并避免瓶颈和延迟,数据管道可提供端到端效率。一个数据管道甚至可以一次处理多个数据流。这些特性使数据管道对于企业数据分析不可或缺。 由于数据管道将所有数据视为流式数据,因此它们考虑了灵活的架构。无论数据来自静态源还是实时源,数据管道都可以将数据流分割成更小的片段,以便并行处理,从而提升了计算能力。

Flink 入门

我与影子孤独终老i 提交于 2020-08-13 09:36:41
Apache Flink是一个 框架 和 分布式处理引擎 ,用于在 无界 和 有界 数据流上进行 有状态的计算 。Flink被设计为在所有常见的集群环境中运行,以内存中的速度和任何规模执行计算。 Apache Flink is a framework and distributed processing engine for stateful computations over unbounded and bounded data streams. Flink has been designed to run in all common cluster environments, perform computations at in-memory speed and at any scale. 1. 什么是Flink 1.1. 处理无界和有界数据 数据可以作为无界流或有界流被处理 Unbounded streams (无界流)有一个起点,但没有定义的终点。它们不会终止,而且会源源不断的提供数据。无边界的流必须被连续地处理,即事件达到后必须被立即处理。等待所有输入数据到达是不可能的,因为输入是无界的,并且在任何时间点都不会完成。处理无边界的数据通常要求以特定顺序(例如,事件发生的顺序)接收事件,以便能够推断出结果的完整性。 Bounded streams (有界流

20年硅谷技术牛人到访DataPipeline谈:技术如何与业务平衡发展

笑着哭i 提交于 2020-05-06 00:18:44
  导读: 技术人员的常态是“左手支持业务签单,右手提升系统性能”,却经常陷入技术和业务该如何平衡发展的困惑?今天,且听一位硅谷牛人分享他的平衡之道。   以个人名誉申请31个国内外技术和产品专利,中国最佳CTO 战略奖,超过20年的互联网业务架构和技术管理经验,曾15年任职于eBay、Yahoo、Netscape等互联网知名公司,曾6年担任携程旅行网CTO... ...   带着这么多光环的叶亚明(Eric Ye),3月22日受邀走进北京数见科技有限公司(以下简称DataPipeline)在北京五道口组织的技术分享会,回顾20年多年互联网从业经历,向与会者分享了作为一个技术人员该如何看待技术与业务的平衡发展。 注:叶亚明(Eric Ye)   以下是我们后期整理的内容供大家参考。 问题:从一个工程师到技术牛人,请您聊聊您的个人成长路线。 Eric Ye :在国内读完研究生之后,我就去美国硅谷工作了,曾经就职的公司包括雅虎(当时还没有Google)、eBay(当时与PayPal一起市值第1名)、Netscape,属于第一批互联网技术人才。   2011年到中国来担任携程CTO直到2017年。当时,我的考虑是,在硅谷15年所拥有的经验和能力应该可以帮到很多发展中的中国公司。加入携程,是因为携程也是一个交易型互联网平台,这一点与eBay交易模式相似且技术是相通的