深度解析——什么是数据分析

    趁着大过年的,这段时间很悠闲,咱们来思考一个深刻的问题:数据分析究竟是什么?这是一个坑,跳进去很容易出不来,但是,自己如果不学着从这个坑里面爬出来,以后遇上别人给你挖一个类似的坑,就很可能跳不过去。
    像“数据分析究竟是什么?”这种类似的问题有很多,比如:
1、在面试的时候被问到:谈谈你对数据分析的理解,你为什么选择这个职位,这个职位长期发展的前景如何?
2、各种数据分析群里的讨论:Data Scientist是什么?出路在哪里?为什么做 Analytics 的活 title 却是 Data Scientist?
3、同事之间的交流:咱们明年的项目计划怎么填,下一年要做什么?
    等等诸如此类的,问法虽然不同,但讨论的内容其实是类似的:数据分析(Data Analytics)究竟有什么用?
    我们先来回顾一下,在工作中做决策的几个阶段。
第一阶段:没有数据,更没有分析
    不管是产品也好,还是运营也好,总要做出各种决策,例如某个功能要不要做、要不要和某个渠道合作、怎么合作,是换量还是买量等等,非常多的决策问题。在项目刚开始的阶段,因为团队还是很小,十几个人左右,这时候一般凭的是从上到下的决定,靠的是经验和感觉。
    这种类型的决策,就是没有数据,也没有分析。因为最后效果如何,没有一个数据上的衡量标准,或者只有简单粗暴的几个数据:DAU、MAU、有多少人用(购买),收入多少,成本多少,最后赚了多少等。
第二阶段:有数据,看起来好像有分析
    很快,团队意识到,拍脑袋做出的决策,很容易导致拍大腿,没有量化的指标,也不知道产品功能的上线或者运营方案的实施,是否达到了预期的效果。
    于是,招了几个大数据开发工程师,开始采集各种数据,在产品中加入各种埋点,收集各种用户的行为数据,同时把用户各种维度的数据,例如机型、地域、操作系统、网络类型、推广渠道等等上报到数据仓库里面。
    然后,大数据开发工程师根据以往的经验,把每个功能的DAU、MAU、留存、召回、转化等等报表做出来,还有各种特殊需求的报表,放在一个报表系统里面,满目琳琅,很全面。
    这个阶段,我们已经达到了数据分析的第一个目的,就是知道了过去,也就是明白过去发生了什么事情,想要知道过去发生了什么,很简单,把报表系统做好即可。但是一碰上一些特殊的事件,例如某天某个功能的DAU下降了,咋回事呢?不知道怎么回事了。
    这时候,我们自然而然地想到,要通过数据去解决问题。慢慢地,我们进入了第三个阶段。
第三阶段:有数据,有分析,有原因
    这个阶段开始引入hypothesis的概念,我们不但要知道发生了什么(reporting),还要知道为什么会发生 (hypothesis driven)。知道为什么会发生很重要,首先这个是你老板经常要你回答的问题。其次,知道为什么发生,可以告诉我们,以后做类似的事情,可能会发生什么。
    要回答为什么发生,只需要一种数据分析方法即可,那就是对比分析,做起来,就有三个手段了。
    第一个手段,就是多维度对比分析,前面我们收集了那么多维度的信息(机型、品牌、地域、操作系统、版本等等),多维度对比分析,也经常被称为用户画像分析,通过多种维度的对比,我们很容易就发现了某个指标的变化,是由于哪几个维度的变化而导致的。
    第二个手段,就是相关分析,相关分析通过对比多个指标之间的相关性,找出指标之间的相关关系,例如广告费用和每日新增用户数之间的关系一般是强正相关的,应用内广告的频次的数量一般和留存率是强负相关的等等,通过相关分析,可以把要分析的指标转移到另外一个指标去,例如我们分析为什么日活跃用户数降低了,如果发现应用内广告的频次增加了,留存是降低了,那么日活说不定就收到影响了,这时候,我们把这个影响量化,基本上就可以回答为什么这个问题了。
    第三个手段,就是A/B test了,这个比较具有难度,首先,要做A/B Test需要前端和后端的支持,而且,这个测试,是和核心功能无关的工作,因此,经常得不到各个部门的支持。但是,做A/B Test非常有必要,因为,它可以找到因果性,也就是证明了,为什么会发生。有没有发现,我前面说的话,都是可能、说不定的词语,做了A/B Test,你就可以拍胸脯用“肯定”这个词了。没做实验,谁都没有发言权。
    实验这个词,是否有点高端?这是一个经常在大学里面听到的词,大学里面谁经常干实验这个事情?没错,就是科学家,因此,数据分析为什么称为数据科学?现在知道了吧。也就是说,你要做到使用实验,来验证数据分析的结论,要做到这种程度,才可以称为数据科学。
    这里我们还需要注意一下,科学(Scientist)的定义并不是说,采用的分析方法多么高大上(例如回归、神经网络、聚类、有监督、无监督等等),而在于其解决问题的方式:通过对现有问题做出各种假设,然后通过实施各种A/B Test的科学实验,验证假设是否正确。
    总结一下第三个阶段的核心,第二个阶段是知道过去发生了什么事情,而第三个阶段,则是知道现在发生了什么事情,也就是可以通过数据去解释业务中的问题。如何了解目前业务中的问题呢?一般我们会通过专题分析,不停地去对比数据之间的差异性,找出业务问题发生的原因。
第四阶段:知道发生了什么、知道为什么发生、知道接下来应该做什么
    数据分析的终极阶段,就是我们不但知道发生了什么 (reporting),知道为什么发生 (hypothesis-driven),还知道接下来应该做什么 (product/strategy leadership)。
    这个阶段有很多难点:本身搞清楚应该做什么就很难,还需要把这些东西 sell 出去,就更是难上加难了,但是这恰恰是数据分析的作用之一。不管数据分析做出了什么结果,如果没有把结论应用到实际product change里面去的话,都是纸上谈兵。
    对于大多数的数据分析岗位来说,阶段二是基础,阶段三是应该做到的,阶段四是好像能做到一些,但是还有很大提高余地的。而数据分析的作用和影响力,就来源于阶段四。这也是为什么很多数据分析的职位看起来要求很低,但是要做得好却很难。因为第四阶段做得如何,实在是太难量化了。
    数据分析第四个阶段的核心,就是不仅知道了过去以及现在的业务状况,还需要指导业务的下一个走向,也就是未来应该做什么。通过数据分析确定下一步应该做什么,可以让组织达到最大化的提高。
     
    最后,我们来总结一下,数据分析的作用。很简单,用赵本山春晚小品的节目名字就可以总结,那就是《过去、现在和将来》。通过报表(reporting),可以知道业务过去发生了什么,通过专题分析(hypothesis driven),可以知道目前某个业务问题为什么产生,最后通过数据分析结论,推动产品的改进(product/strategy leadership),知道将来应该做什么。
大数据分析实战 发表于 2018-02-22 11:53:00