数据科学——概述(专栏)
图灵奖得主Richard Hamming先生有这样一句名言: The purpose of computing is insight, not numbers.(计算的目的不在于数字,而在于洞察事物) 数据科学,是大数据和云计算浪潮冲击出来的一块宝玉! “一千个人眼里有一千个哈姆雷特”,对于数据科学有很多不同的解读,相关概念很多:数据驱动(data driven)、分布式计算(distributed computing)等,但是他们都围绕着一个主题: 如何从实际生活中提取数据,然后利用计算机的计算能力和模型算法从这些数据中找出一些有价值的内容,为决策提供支持 。这正是数据科学的核心内涵。 传统的数据分析手段是所谓的商业智能(BI,business intelligence)。这些方法通常将数据按不同的维度交叉分组,并在基础上,利用统计方法分析每个组别里的信息。比如商业智能中最常见的问题是:“过去3个月,通过搜索引擎进入网站并成功完成注册的新用户里,年龄分布情况如何?若将上面的用户群按年龄分组,各组中多大比例的用户在完成了至少一次消费?” 我们来举个实际的例子: 图片都是我自己做的(不太会用这个编辑器)!方便大家理解 数据科学的理论体系 如下: 在数据科学实践中,我们将使用较为复杂的机器学习或统计学模型对数据做精细化的分析和预测。主要难点在 工程实现 和 模型搭建 两方面。