谈谈我所了解的数据分析行业(下)

放肆的年华 提交于 2020-03-23 19:37:00

3 月,跳不动了?>>>


作者 | Captain Milo

之前通过介绍数据分析工作的分类和方法论,展示了技术与业务分离形成的“局限性”,以探讨企业中谁能更好的承担数据分析职能的问题。现在来谈谈如何衡量数据分析的效益

04
价值观和困境

先说个提纲挈领的题外话:我一直觉得人们在发表意见时,普遍水平是“只提出问题,不回答问题”,这个比例大概占到“二八法则”的80%那一档。再好一点的是,“提出问题,分析原因”,但这个档次里多是吸引眼球,制造焦虑的那类所谓“爆款”文章。一个值得讨论的问题,其本身就有足够罗列的内生性和外生性原因,能够引经据典、梳理线索,其实已经达到“数据分析”的入门素养了,很可惜。

真正优秀的文章是“提出问题,分析原因,给出解答”,也就是所谓的“干货”文章。我很佩服这些敢于发声的意见领袖,在现今这个意识形态边界拉紧的社会,下结论般展示自我,是需要承担大量非议和诽谤的,幸好根据“峰终定律”来说,他们在结尾深刻的掷地有声,在许多日子之后依然会被人们铭记,带给这些人始终向往美好社会的勇气。

那真的很好。不过我活出了自己的一套理解。

这个世界上的非凡的头脑里最顶尖的那批,都致力于研究过“统一场理论”:欧几里得,牛顿,爱因斯坦,哥德尔,霍金,阿西莫夫,丁仪,谢尔顿……(好像乱入两位)。万物是否遵循同一个神秘而又统一的物理定律?

同时,现在人工智能的前沿也似乎碰到了类似的情况,任何领域通过建立子问题的学习模型,纵然都能在复杂问题上获得穷极几代人力也得不到的可行解,但关键是谁也弄不清AI在“黑匣子”里做了什么——这是否说明“问题”(All the Questions)的“答案”,如“生命”的“意义”一样不在于目的,而在于过程?

回顾那些真正给我带来升华的作品,其本身并不是为了回答我的问题,或者说我没有带着问题而去接触的那些作品,往往带给我最深重的“灵感打击”,所以这正是我要试图写出的文字,追求的作品,甚至是想要成就的事业——

我不会回答你问题,也不带刻意的社会性目的,我把我的经历就这么亮出来。你要明白,问题一直在你心里,答案就飘荡在你过往和以后的日子里,而你从我这里路过,看懂的不过是你自己。

嗯,提纲挈领的话说完了,交代这么多,是因为它包含的意义在我从入门到熟练的数据分析过程中,有着极为深远的影响。而我依此在工作中做出的选择和反思,将决定了你看到的数据分析的价值,也正是我想说的——数据分析的价值不是由数据分析从业者决定的,也不是如BAT般的巨头就能下结论的,而是千千万万个你,你们,大家所汇聚的共识,才对这个行业真的有意义。

首先是价值观,谈两个项目经历:

  • 菜鸟的“反欺诈”之路

记得是头一回任职“数据运营”的时候,当时公司刚购买某DSP(互联网广告)价值几十万的服务,效果显著,网站访问比以前高出1/3,而且据运营和销售部门反映,来咨询意向的客户也大幅增加。我的任务就是用统计访问的系统帮产品改进页面,只是闲着的时候我就爱细分用户,看看这个城市的新增用户数,看看那个操作系统的用户在访问哪个页面,看看中午吃饭点的访问用户会不会在食品项目有交互。

这一看我就发现不对,某几个新增流量的细分地域的用户访问热图呈现间隔打点式,且访问不同页面的频率也是固定秒数。其实到这里也很“正常”,流量掺水似乎是营销界的默认手段,更别提咨询业务的用户快把客服打爆了不是嘛,至于“反欺诈”三个字当年我是听也没听过。

“无方向,无责任”,但我有的恐怕就是用不完的好奇心,没有方法论我还有人性可循,于是我在新增KPI行为下继续统计,发现人均完成KPI量骤增几倍,按业务类比就好像一个咨询了宝马奔驰奥迪的家用车用户,还同时问了五菱宏光、依维柯等十余种面包重卡,同是低频高价值的交易,这种过分热情可不正常。接下来我跟运营一起二次回访那些来自营销方的咨询用户,发现无一不是在表达热情之后没有下一步意向,并且通过短时间连续回访发现是一个羊毛团队的多人在扮演真实客户,而这一切不足够引人怀疑的原因就是行业的定势思维,往往按系统日志记录的KPI结算这一单服务,这才让人有机可乘。最后我将这些证据提交后,让乙方赔偿了几十万的合同损失。

回头来看,我坚持做了符合职业操守但是职责以外的事,得到了高级别的重视,本部门得到表扬,公司也避免了金钱和人力的无谓损失,皆大欢喜吗?多个部门任务量减少,负责谈这笔合同的同事引咎辞职,又“得罪”了乙方这样一个数字营销行业的大佬企业,以及各部门以后害怕配合数据工作的谨慎心态……

当然可以说,一件错误工作就应该被纠正而不是默许,可人性首先是“风险厌恶”的,收益大的同时受损的人也多,我秉承着的职业操守,换个角度又何尝不是满足我个人的好奇心?还要强调的是,这件事能做成的核心,我的反思是我有一位股东级别的领导,关键时刻敢一揽公司大体又知专人专用,其中利害关系稍有工作经验便懂。

数据分析工作就是以极小的成本,撬动巨大的收益,很像是金融工具在经济领域的作用,所以必须要有秉公无私的环境和信息通道的顺畅。数据分析的威力也只可能由上到下来保证,但同时数据分析师不在一线或离开业务本身又很难发现问题,这是后话了。

  • “机会成本”不是收益?

与之呼应的,来说一个“有方向,有责任”的项目。背景是业务组与算法组产生的矛盾:算法组下架了多件同品类下的高价商品,理由是经过计算,这些商品废弃总额较高。而业务组认为只留下低价商品使得陈列不“丰满”,但也说不出什么有力的反驳,也不轻易相信计算结果。

我所在的小组负责核验结果并提出建议,我因为使用Python所以早早计算完了结果,在等待另一名同事算完后交叉互验。但是我忽然发现,被下架的那些商品废弃总额确实比其同类商品高,但高的程度和两者的售价之差相比不那么“成比例”,这种现象让我感到业务组的经验直觉是可以量化验证的,而量化专业人士的经验决策,一直是我认为的传统业务数字化转型中最该做的事情

于是我考虑不按当前结果提出建议,要深入分析一下。但这时另一名同事也计算完毕,而他认为我们的任务就是验证算法组的计算结果是否正确,其它无需考虑,并且自认组长身份径自去汇报结果,无权参会的我只得继续我的验证。

通过构造价格黄金面的分析,我发现客户的购买集中在价格带中部稍偏高的部分,所以我观察到的不成比例的现象,就是因为低价格商品也有很多废弃量,但是单价低不足以体现在废弃总额上,导致单价高的商品在废弃总额排名上比较靠前,而沿用淘汰前10%的商品的取值,又是脱离业务的粗滥“拍板”。

现在客户的选择倾向有向高价格培养的潜力,如果只凭废弃这单一因素就下架这部分商品,造成价格带在受众部分断档,势必影响未来远期收入,还会让客户有门店供货能力不足的观感,从而不再复购。这种机会成本的损失,只要经过一段时间的购买变化的监测,便可以用于改进下架的策略,从而兼顾业务和算法两面。

经济学和数据分析都是我看世界的方法论,因此我坚信机会成本应该被量化,变成显性收益。较之上一个案例,这次恐怕没有“错误”可言,同时作为企业,“没有错误即可”的工作观念是易于接受的,几乎不会有上帝视角的机会去比较“显而易见的”和“看不见的”。但对我来说,我证明了并不是所有的业务直觉都是deja vu,通过数据分析师量化实证后一样可以科学的用于决策。

其次是曾遇到的困境,说三个场景:

  • 数据分析 or 数据幻觉

先划一个重点:现在国内互联网公司的数据分析工作基本就是断链市场下的数据幻觉。

这是我做每一件数据分析工作背后最恐慌的问题。我将试图从供需市场的特征来推导我的结论:

  • 新技术是用来发展人性的善还是用来放大人性的恶;
  • 中高低收入的人群是梨形分布还是金字塔分布;
  • 隐私数据是倾向于透明还是监管;

使得:1、需求市场总体呈现用户需求同质化,低端化;2、供给市场主要商业模式是“玩概念,铺市场,资本套现”;

资本驱动企业进行粗放型试错,试错成本转嫁给被迫受需求洗脑的用户,然而用户被割了一茬还有一茬,并不会以选择权逼迫企业做出多么精细化的改变。这样的断链市场里的企业工作,做数据建设点到即止,进行分析工作不在意反馈,因为“做完了总有指标会涨,做错了收益不会降,做假了(或者说高大上了)人人都开心”的数据幻觉,将会是更有可能存在的状况。

或许在非从业人员看来,国内互联网企业已经满眼都是“AI+BI解决企业痛点”、“人工智能帮你运筹帷幄”、“5G和大数据让万物互联”,但你真的进入一些叫得出名字的企业(除了AT之外的第二梯队开始算起),才能感受到消费互联网本质上就是劳动密集型企业。数据部门利用的技术还太工业领域,技术友好型企业才能提供技术迭代落地的环境,这和其他互联网部门本就有商业领域的成熟方法论不同,正如彭博社的一个分析师说的——

玩线上游戏、在线购物、食品外卖的大量人口,并不能使一个国家成为技术或科学领导者。

  • 驱动决策 or 解释决策

在我的方法论介绍里已经提到过这一组比较,这里想展示一个新的想法:面试常被提到的“玩数据的”、“数据增长黑客”,是不是驱动数据的范畴?

原先我很抵触做增长,是觉得自己是受了“酒香不怕巷子深”的匠人思想的影响,更鄙夷“把梳子卖给和尚”的供需倒置。但我也会反思,对其带有色眼镜的判断是不是阻碍了可能获取的有益信息。

如今我的思考结果更中性化,我认为像增长这样结果导向的思考过程,难以避免总将相关性解释为因果性,也就不能称为驱动决策。

如果你是准程序员而非代码拷贝师,思考一下程序员写代码是不是为了设计软件?这个类比最接近我要解释的含义。

  • 技术革新的超前和用工能力的滞后

云服务和编程技术全栈化提供了数据全面的、统一的部署环境,5G和物联网又让线下业务数据也能被标准采集。数仓构建技术我还没接触过,我一直不喜欢表结构索引的数据库,图数据库是我更欣赏的,更符合现实世界表现的,同时我认为应该区分开业务分析用的图数据库,和机器学习用的较抽象的数据库。至于数据科学的分析框架就更充足了,易用高效的语言也越来越多,不再只是Python和R的天下了。

而互联网企业典型的架构:产品、业务、职能三部门,掌握了数据的一方将打破话语权平衡,赢得去评价其他部门的机会。目前我遇到一种情况是各部门自产自销,数据分析面向本部门,这种情况难以用到大数据的全盘威力,最终沦落为“跑数的”;另一种是独立的数据部门,但也会造成既当选手又当评委的问题,难以从收益角度服众,常常推诿扯皮。

所以我说超前,指的是数据使用技术的超前,而治理和评价数据的方法论没有一起到位。

05
未来趋势

让我们再回到最初的企业面临的问题:

  • 谁来承担数据分析职能?
  • 如何衡量数据分析效益?

如果依照我的畅想,在企业发展期,数据中台缺失,这时应当直接将中台前置,数据分析和业务部门一同进退,成为“数据产品”或“数据运营”,负责收集数据并提供业务决策,接收技术部门的数据回流,架构上处于两大部门之间,降低业务部门和技术部门之间的交流成本。同时自身要像产品PRD,运营SOP一样去沉淀方法论(可以是像BI类产品或者运营策略分析模板),以期在数据规模化和标准化后,业务部门能独立使用的程度。

在企业成熟期,“中间件”使命结束,数据治理和架构研究交给独立部门后的数据科学家,在开展理论型研究工作的时候,为了不影响生产环境,也可以寻求数据部门领导下的数据中台的建设。这时产品运营负责一般性分析的方法论选型和可视化分析报告,并接替技术部门反馈数据(最好已成平台产品),数据分析师不再需要存在,产品经理和策略运营承担了这部分应用型数据分析的角色,数据利用与数据部门的业绩效益脱钩,更多地走向支持和衡量——因为有历史的方法论沉淀和案例回溯,就可以对比出纯数据分析部分的有效产出。

在企业衰退期,从认知业务到认知数据,应该有部分核心员工接受这样的价值观的培训和转变,将业务剥离留下数据认知。在新市场开拓之时,他们就可以利用上面的一套关系和过程快速接管全盘业务。

不过令我倍感失望的是,现实世界中数据分析工作我只能看到:业务向数据分析师缺乏ETL技术,就丧失数据解释权;缺乏数据科学技术,就丧失策略的话语权。最后要么排斥技术,开始“拍脑袋”、“攒经验”,搞人际关系成长;要么逐渐工具人化,沦为“表哥表姐”。技术向数据分析师不对业务负责,靠提供算法和模型,脱离商业环境最终也只能增加双方的沟通成本。如造船的人不懂水性,不能亲自撑船,偏要怪坐船的人使用不当。

数据分析一直是我认知世界的一种视角,技术业务分离我是万万不敢苟同,在过去这些工作经历中,我不仅会和产品经理一起去拜访客户,收集原始需求,也会自己独立来开发一款产品,了解产品的生命周期的各个环节,希望的就是分析结果接地气,任何时候都可以“我上我也行”。

我的这种坚持的结果,最终或许是失业罢。

获取更多优质内容,可前往:疫情当下,宅家也能好好提升自己,为未来蓄能——蓄势待发!

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!