数据分析与数据科学的未来

爱⌒轻易说出口 提交于 2021-01-12 04:23:00

https://zhuanlan.zhihu.com/p/113824886


根据IADSS联合创始人Usama Fayyad博士,在2019年波士顿ODSC大会上的主题演讲后的采访,我们了解到了数据科学当前和未来的问题以及可能的解决方案。

凯特·斯特拉奇尼(Kate Strachnyi):鉴于人们在数据中所扮演的角色千差万别,因此将来会采用哪些行为改变或使用哪些工具

Usama Fayyad:我认为组织中的工具和行为变更可能以比实际方式更昂贵的方式进行,这意味着它们正在经历聘用数据科学家的好与坏。他们中的一些人看到了价值,有些人看到了他们聘用中的不合适,现在他们不得不通过解雇或替换来从中调整,以获取更高的价值。我认为由此产生的结果是,项目组要开始进行更彻底的评估。如果你没有一个好的数据科学家,那么距离聘请另一个好的数据科学家的时间也就不远了。

那么,如果你的部门一开始或者已经没有好的科学家在职,那你应该从哪里开始呢?这就是为什么你需要招募人才,对吗?你如何解决?我们认为,通过制定标准,对每个职员的角色,职位以及所需要的培训进行良好的描述,实际上才能使人们更容易地通过很多简历,然后选择那些看起来很有前途的工作,选择可能有价值的面试,知道在面试中可能会问些什么。我们分享了很多候选人的反馈,他们说:“嘿,我在十个不同的地方接受了同一份工作的面试。除了围绕编程的两个小问题外,面试几乎没有什么共同之处。”

凯特·斯特拉奇尼(Kate Strachnyi):好吧,我要说的是,如果有一个数据科学家需要回答的十个常见问题,你可以考虑将这些问题的答案发布到Google的某个地方。

Usama Fayyad:当然。这就是为什么没有其他替代方法可以进行实时跟踪,从而使你更加深入。仅仅问常见问题是不够的。当你进行视频采访时,有一些工具可以检查这些行为,以查看是否有人在看其他地方,或者其他人是否坐在后台窃窃私语。令我惊讶的是,现在有了技术,人们可以使用AI来检测是否在受监督的视频采访中有标记某项内容,并且是否有公司提供这些服务。当你收到一个红旗时,你会停下来并说:“你真的知道这个地区吗?让我问你一些后续问题。”通常,作弊的人会很快崩溃。

凯特·斯特拉奇尼(Kate Strachnyi): 与我们所说的有关,有很多人想成为数据科学家,但是他们也在AI中发挥了很多技术创新作用,可以帮助数据科学家完成工作。那么,你是否认为,机器人正在接替我们的工作,并且技能差距将会缩小?这是个问题吗?

“ AI并不是要用机器人代替人类。它是要把机器人从人类身上带走。”

Usama Fayyad:我认为这是MIT数据实验室或MIT媒体实验室提出的座右铭:“ AI并不是要用机器人代替人类,而是要把机器人从人类手中带走”。因此,我认为AI和许多此类技术正在使他们的工作更加轻松。实际上我根本不相信他们有能力取代我们的工作。可以替代的工作是非常平凡,非常机械化,非常重复的任务,这类工作我认为机器会比人类做得更好。我们需要人类,因为到目前为止。我们不知道如何构建一种具有大多数人拥有的东西的机器,这是常识,并且能够在新情况下快速做出判断。

我喜欢用自动驾驶来举例子。我认为短期内我们不会看到自动驾驶。这项技术可能需要30多年的时间。但是我确实相信,今天在很多领域,这些AI算法都可以为我们提供很多帮助。因此,避免分心的驾驶员发生碰撞,提前给予警告并进行刹车操作,这些是十分有用的。对于许多人同时泊车的情况来说,可以帮助你完成任务的工具现在可以自动化,这是一件好事。因此,在这些区域中,你可以自动执行许多操作,但是到目前为止,我们还无法构建能预见我们可能遇到的情况的机器。之前没有看到过能迅速做出反应,能将来自另一种类似情况的知识映射到该情况并有效利用的例子。我有很多类似这种情况的例子,这也就是我为什么不相信自动驾驶将如何发生的原因,至少在我的一生中如此。但是我认为这些机器已经足够先进,可以执行许多平凡的任务,并在我分心,无能或有其他问题时为我提供帮助。

凯特·斯特拉奇尼(Kate Strachnyi): 好的。所以你的意思是我们现在很安全吗?

乌萨马·费耶德(Ysama Fayyad):是。实际上,从历史上看过去的两个AI冬季,由于所有的炒作,我认为将会有一个新的AI冬季,我们创造的工作要比淘汰的工作多得多。因此,你打开了一堆新的领域,人们可以在其中执行许多更高价值的工作。

凯特·斯特拉奇尼(Kate Strachnyi): 从人类活动要求中消除单身主义可以使人类变得更加敏感,富有创造力和积极主动。应该对行业的许多领域都带来好处,而不是害处。你同意吗?

乌萨马·法耶德(Usama Fayyad):我完全同意,实际上,我是完全支持的。我将使用一个非常基本的示例,该示例与数据科学关系不大,但却是相关的。一百多年前的会计处理打开了这些庞大的分类帐,需要花几天时间计算数字并仔细检查有没有记错。此外,还有各种各样的技巧可以避免错误,并仔细检查这些尘土飞扬且无法访问的分类帐。如今,如果没有软件来完成跟踪数字,累加数字,做所有正确的事情,创建资产负债表等所有日常工作,那么没有人会想到做会计这项工作。对我来说,这是一个例子,现在会计师可以考虑更具战略意义的事情。我们可以考虑诸如“这笔费用有必要吗?”之类的事情,“这有意义吗?”,“我们可以在这里省钱吗?”,“我们可以更好地利用资产吗?”等他们从来没有时间考虑的问题。这才是真正理财的价值所在。

凯特·斯特拉奇尼(Kate Strachnyi): 数据技术对企业期望的影响是什么?

人们通常会在图形和摘要级别使用数据,而诸如机器学习算法之类的机器则需要每个小事务及其周围事物的细节。

乌萨马·法耶德(Usama Fayyad):我们所看到的最大的事情是数字化浪潮。我认为,在很多数字化或所谓的数字化转换工作中,这几乎是我的挚爱,人们开始将许多手动任务数字化,使它们更准确,重复性更低,且更快。因此,发生的事情是它们造成了我们所谓的“即时技术债务”,因为你现在已经建立了数字化机制,并且忘记了诸如“如何捕获正确的数据?”之类的问题。“我该如何表示这些数据?” “如何存储这些数据?” “如何在正确的时间检索它?” 和“这是什么级别的数据?”。人们通常会在图形和摘要级别使用数据。

那是人类完全不消耗,但是对于学习算法是必需的东西。所以,对我来说,现在正在发生的事情是人们正在重新思考,在告诉我们,好吧,如果我真的在进行适当的数字化,我想确保我投入正确的大脑和正确的智力,以这样的方式实际设计它。这样,当我捕获正确的数据,正确地管理数据时,最重要的是,启用非常挑剔的机器学习算法,这些算法只能处理某种格式的数据,如果不是这种格式的数据就完全崩溃了。我认为这就是现在正在发生变化并变得更好的事情,尤其是对于大数据,这使得处理不同类型的数据变得容易。

凯特·斯特拉奇尼(Kate Strachnyi): 企业具有在信息安全与信息利用之间实现数据平衡的风险承受能力,作为首席数据官,你对此有何看法?

Usama Fayyad:一个巨大且非常重要的话题。我坚信你可以最大限度地利用,同时也最大程度的保护隐私。你只需要注意自己的操作方式即可。如此众多的组织沉迷于数据泄漏,攻击和黑客攻击。事实证明,大多数威胁是内部威胁。这些内部威胁中有许多来自有意或无意安装了不良软件,恶意软件等的人。这就是所谓的社会工程。即使你没有连接到外部,坏人也可以通过这种方式将其带入。实际上,非常著名的漏洞就是这样发生的,包括新闻中的一些著名漏洞。我要在这里说的是,一旦边界安全,就很安全。

事实证明,大多数数据威胁是内部的。数据应加密。只有真正有理由访问密钥的人才能访问密钥。

这是一个非常糟糕的假设。顺便说一句,对于物联网和物联网,这已经成为一个非常糟糕的假设,因为在这个世界上没有周界。因此,正确的做法很简单,对吧?数据应加密。只有真正有理由访问密钥的人才能访问密钥。而且,对密钥的管理必须足够活跃,以确保没有人因为历史原因而对密钥进行计数,而且按键始终保持刷新状态。可以立即更改密钥,以便在发生不良情况时可以立即拒绝人们访问。顺便说一下,这些技术今天已经可用,只是没有被懒惰所使用。因此,需要你正确执行此操作并确保它是正确的访问权限。

没有人真正需要看它。查看数据集的机器学习算法的优点在于,它不需要我们认为的任何私人信息。例如,PII(个人身份信息)对算法没有用。如果你有名称或社会安全号码,该算法会将其丢弃,因为它是每个数据记录的唯一标识符。除非它是一个错误的算法,否则它没有预测价值。但这会收集总体的预测模式,即人们在使用此产品和此功能时,往往会遇到这类问题。或者,我们的客户正在寻找东西,这是我们将销售翻番的机会。因此,可以通过算法来从数据中收集这些信息,这些算法可以安全地运行,而无需人工实际访问。在不危害数据隐私性的前提下,你只需要拥有一个受到良好控制和架构化的故事,就可以说明谁何时何地访问数据了。

获取更多优质内容,可前往:疫情当下,宅家也能好好提升自己,为未来蓄能——蓄势待发!

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!