有多需要人工智能,就有多需要数据

心已入冬 提交于 2019-11-29 18:34:34

本文精选自Tony Baer在ZDNet“大数据专栏”的文章

 

技术界有一个“老生常谈”,甚至说是永不过时的观点:“进来的是垃圾,出去的也是垃圾”。步入“数据3.0”时代后,企业的数据资产暴增,常常会超出固有的业务边界,还将物联网数据、社交媒体数据、消息应用、日志文件以及其他数据源的数据也纳入其中,导致数据量越来越大,数据质量参差不齐,数据输出结果就很难准确。随着人工智能算法不断创新,机器学习进步很快,深度学习算法则更需要数据来进行“训练”,Informatica表示:人工智能或许是企业能够将数据质量保持在可控状态下的唯一途径。

 

如果认真分析Informatica的想法,那就是:“数据需要人工智能,人工智能也需要数据”。

 

 

回想第一次邂逅Informatica,得要追溯到20世纪90年代中期的一次数据库展览会。当时Informatica在酒店房间里演示图形化ETL(数据抽取、转换和加载)工具PowerMart。彼时Informatica还只是一家初创公司,规模很小,那时的ETL还需要编写大量的手工脚本。而Informatica改变了固有模式,开发出一种元数据引擎,可用于存储前端GUI(图形用户接口)所需的数据转换方法,不需要编码技能,只要有图示方面的知识即可。

 

如今,在2019年5月Informatica全球用户大会上,我们看到它的持续创新,发布许多新产品,其中一项就是针对数据沿袭关系分析推出的能够解析Python的新功能。这对于数据科学家来说,数据转换的编码方式仍旧保持了原有的形式。

 

多年来,Informatica不断扩展业务足迹,从ETL工具扩展到数据集成、数据质量、数据治理与合规、主数据管理、大数据管理、数据安全和云数据管理。正如Forrester研究公司的分析师Michelle Goetz所示:“这些数据管理工作之前从未有一家公司能够真正打通、实现。”期间出现了很多单点功能的工具,包括一些开源工具,但市场上没有出现任何一家与Informatica 规模相当且对其形成冲击的厂商。

 

 

Amalgam Insights的分析师Lynne Baer在近期的一篇博文中有一段很好的综述,他阐述了Informatica底层的CLAIRE机器学习引擎是如何推动Informatica产品战略的。CLAIRE自身不是一个产品或工具,但它是机器学习各项功能的综合体,由Informatica CLAIRE引擎驱动,可跨越企业的业务和IT部门,在无服务器架构、多云和混合云环境下实现企业范围内的协同。这样的实例还包括:自动解析、转换、对易变的结构化数据进行联结;给数据加标签,使数据可以被分类标识;数据治理、标识隐私数据;标记潜在的数据质量问题或数据去重的位置;扫描数据集以生成数据质量规则;为数据打分,使数据可以在业务术语表中被加上标签;为发现数据提供机器协助。

 

我在一份简报上看到Informatica阐明其数据质量和数据集成功能为什么如此强大。这篇简报在开头部分描绘了数据的喷涌问题和数据的本质。一旦你打开社交媒体或物联网的数据阀门,你就会一次性摄取T级的数据。作为多种结构的数据,模式还要复杂得多。

 

迄今为止,还没有这样的实例:对于普通的CSV客户文件或产品订单文件,即使模式不一致,也可以简单、直接地识别姓名和数值型字段,例如:订单号、库存单位(SKU)、部件号、电话号码、税号或社会保险号。为此,数据准备工具应运而生,它使用一种适度水平的机器学习技术进行模式匹配,从而识别出各列,并确定如何对不同数据集的列进行移项或合并。这种方式面临的挑战在于,要对数据结构更为复杂和多变的文件进行关键性的处理,如果没有机器的协助,单凭人工根本无法解析这些文件。

 

 

▼▼▼

那么,Informatica如何将人工智能应用到它的产品系列中呢?从Informatica全球用户大会上发布的一系列产品来看,Informatica在托管式云服务中,为从数据源到目标的映射字段添加了更智能的匹配建议功能;在大数据中添加了“模式漂移”探测功能;支持自动创建“情境式”的客户360视图,基于客户行为和过往偏好给出关系推断和建议 ;为数据治理规则的生成提供人工智能协助;并将机器学习功能纳入数据目录服务,从而帮助用户完成数据发现和标注。

 

Informatica阐明了这样一个问题:由于数据量在不断增长,数据类型也越来越多,对企业而言,人工智能变得必不可少,它可以避免企业陷入垃圾数据之中。而另一方面:随着企业开始实施自己的人工智能或机器学习项目,这些项目在很多地方都存在着脱轨的风险。这些项目的出发点源于一个事实,即人工智能模型对数据有着强烈的渴望。尽管我们在一些孤立的个案中发现,人工智能或许并不总是需要海量的数据,但在大多数情况下,模型需要依靠数据来训练

 

相比于在静态数据科学模型中使用被损坏的数据,在机器学习或深度学习模型中,使用错误的数据或规模不够大的数据列队来训练和运行这些模型,所造成的负面影响无疑要大得多。所以说,我们绕了一圈,最终又回到了原点。人工智能模型需要大量的数据。没有数据,就没有强大的人工智能。强大的数据管理能力是企业人工智能项目成功的关键。在拥有大量数据之后,企业需要利用人工智能将有用的数据分离出来。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!