男怕入错行,女怕嫁错郎。同样是IT行业,既有6000块月薪横扫一片的外包人形代码机器,也有刚毕业就年薪30万都招不到的互联网算法工程师。
那顶级数据工程师在面对一堆数据的思考方式是什么样的呢?本文主要讲解数据分析的基本概念、基本分析建模方式、以及两种验证方法,最后谈论数据分析和深度学习的区别。
数据分析概念
- 数据分析指用适当的统计、分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以洋细研究和概括总结的过程。
数据分析基础分析
- 数据分析中的基础分析主要解答事物的统计特征,以及概率的相关问题。它首先研究是否可以通过均值、方差等简单的统计量来说明问题;其次,分析数据是否符合某种分布,如果能给出数据分析的有效分布,就可以合理地计算事物的概率。
数据挖掘建模
- 一般情况下,应由易到难地选择建模方式,解决实际问题。比如针对一组数据,我们首先要考虑基本的统计量以及概率分布是否能达到数据分析的目标;其次思考能否运用数据挖掘的方法来对数据进一步的分析;最后探讨深度学习思路能否更好地解决问题。总之,兵无常之势,水无常形。而现在多少人上来就是直接深度学习的。
结果验证
-
常用的两种方法:1.多维度对比法;2.冗余验证法。
-
多维度对比法是指对于某一项数据,从线和面的维度进行对比。从线的维度对比该指标今天的数据和昨天的数据,或过去一周的数据是否又较大的波动或者异常;从面的维度,对比该指标的统计结果与本次统计的其它数据是否存在冲突。比如某网站今天搞营销活动,用户数量增加了两倍,但是请求数却没有多大变化,则此时可能存在异常。
-
冗余验证法是针对某些重要指标,或能直接影响公司战略决定的指标,请多位分析师做同一项数据统计,或者用不同的方式统计相同的指标,并对结果的差异,找出统计中可能存在的问题。
深度学习和数据挖掘
-
数据挖掘主要解决分类、聚类、关联的相关问题。深度学习和数据挖掘类似,也是用来研究分类和识别的问题。
-
他们之间的最大区别是:前者能自动提取数据的特征,并对非线性数据集具有良好的效果,有些文献把数据挖掘称为浅层学习。深度学习常用在图像识别以及声音识别的场景中。
怎么样才能成为顶级数据分析师呢?
参考文章
- 《Python绝技-运用Python成为顶级数据工程师》
- https://www.zhihu.com/question/29265587
来源:CSDN
作者:小小何先生
链接:https://blog.csdn.net/weixin_39059031/article/details/103706056