目前,由于数据挖掘技术的门槛较高,实现起来复杂度较大,因此一般一个数据挖掘项目通常就是建立一个模型,这个模型要尽量有更广泛的应用范围。这样做其实会导致模型的适应能力下降,而多个模型适用效果就远远好于一个模型。
在需求侧,业务场景是多种多样的,模型的需求量很大。就是一个业务场景也往往不是一个模型就能完全解决的,而是需要一系列的模型。例如在精准营销场景中,使用模型可以帮助我们快速的定位潜在目标客户,提高营销成功率。通常的做法是简单的建一个全国所有客户的模型,但是各地区的营销政策和消费特点可能不同,即使同一地区,不同客户群体的关注点也是不一样的,这样一个模型用所有的结果就是放到哪里都不太适用。而如果能分地区、分客群的建立多个模型,适用性就会提高很多,况且一般需要营销的产品也不是只有一种,可能是几十种甚至更多,这样需要的模型量就更多了。再例如在金融信贷业务中,现金流的管理至关重要。为了准确预测现金流,可以拆分为收入端和支出端分别建模,在收入端和支出端还可以细分,比如按产品划分或者其他方式划分等,综合下来也需要十几、几十个模型才能实现对现金流的精准预测。因此在需求侧,往往需要批量的模型才能达到更好的预测效果
而在供给侧,目前主流的建模方式是手工建模(使用 SAS 等工具或 Python 开源包)。每一个模型都要人工数据探索,数据预处理,建模调参,耗时耗力,一个模型就至少需要几周甚至几个月的时间。同时建模师的成本也是比较高的,平均下来单个模型也是高居不下。以下表中三家美国公司数据分析团队的模型成本为例,我们很保守的估计一个数据挖掘人员的年薪是 10 万美金(实际上远不止这么低),单位模型成本至少要在 5 万美金以上。无论是从时间因素还是经济因素上看,手工建模是无法实现批量建模的。也正因如此,现在数据挖掘项目一般都是只建一个模型,模型落地效果也常常不尽人意。
如果有了自动建模能力,那就完全不同了。它可以极大程度的提高建模效率,减少人工的工作量。自动建模能够自动实现数据探索、预处理、模型选择、调参、评估一系列流程的技术。借助自动建模工具,数据分析人员只需要完成业务理解,数据准备过程,剩下的需要反复迭代进行的建模过程尽可交给工具来完成,无需再手动进行。采用自动建模技术,能够将几周的建模时间缩短为几小时甚至几分钟。建模过程变得简单且很快以后,批量建模就不再是问题,一天就可以建多个模型,每个模型可以只适应一个局部或者一个小问题,批量的模型组成一个模型体系就可以有更强的适应能力。此外,自动建模技术对人员要求也降低不少,不再需要受过专业训练的数据科学家,普通的初学者或程序员都可以借助工具来完成数据挖掘工作。批量自动建模,只需要一个操作人员就可以同时进行。采用批量自动建模,模型成本也会大幅度下降,模型不再昂贵,可以广泛应用。
对进一步数据挖掘和 AI 技术感兴趣的同学还可以搜索“乾学院”,上面有面向小白的零基础“数据挖掘”免费课程。
来源:oschina
链接:https://my.oschina.net/u/4398116/blog/4503955