我估计:除了图像处理,从事工业大数据分析时, 95%以上的工作都可以用线性回归、决策树、方差分析、频谱分析、最大似然估计、取平均数等基本的统计或数据处理方法完成。但是,人们讲到这些方法时,却往往会把重点放在深度学习、模式识别等。
现实中,这些高级方法往往是 “杀鸡用牛刀”,反而不好用。因为这些方法,难以与人的知识和认识结合起来。人们乐于宣传这些方法的原因,除了便于发表文章,就是便于保密。从事相关工作的朋友必须明白;自己要对自己的时间负责。最好用简单的办法分析问题。
但是,做数据分析工作其实很不容易。即便对数学和统计学功底好的人来说,人才的 “成才率”恐怕不会高于10%。那么,困难到底在什么地方?要理解这种困难,还是从《黑天鹅》中的那个故事谈起。作者问道:
一个硬币丢了 99次,每次都是正面朝上。请问第100次正面朝上的概率是多大?
学霸的标准答案是:第 100次正面朝上的概率与前面99次的结果没有关系。所以,概率是50%。而老油条的答案则是:前面连续99次都朝上了,你还会认为正面朝上的概率是50%吗?前提不成立了!
现实中, 数据分析的难点,在于认清正确的前提。
错误使用统计分析方法的现象非常普遍。我在宝钢工作时,看到钢铁行业同仁们写的论文,就对办公室的年轻人说:真想把这些论文作为反面案例,告诉大家什么是错误的分析方法。在这些例子中,有的回归分析的前提不成立,有人在选取样本时犯了初级错误。
这种现象并不奇怪。
我参与研究生面试时,经常遇到这样的事情:给学生出一道复杂的计算题,基本上都能正确地计算出来。但是,如果问基本的概念,很多人就回答不出来了。更有意思的是:如果把计算题出得特别简单、不再需要采用复杂公式时,多数学生居然回答不出来了!
我们现在的教育,总是考核在 “标准前提下,给出标准答案”。学生没有怀疑“前提”的习惯。这样的学生有知识,却不会用知识。
回到前面的问题。用线性回归可以清晰地分析一个变量的作用。但前提是其它变量的干扰较小、且具有随机性。解决这个问题的办法之一,是尽量固定其他变量。科学试验往往就是这么做。
但工业现场往往受各种约束,总会有很多干扰。而且,这些干扰并不是随机的。变量选择有问题时,小的非随机干扰,就会对分析结果产生很大的影响。所以,做数据分析时,必须时刻警惕非随机系统干扰的影响,并设法剔除它。
处理和发现非随机的系统干扰很难。原因是这样的因素太多。比如,任何一个变量的采集过程,都可能存在非随机系统干扰。而识别这些干扰,需要更多的数据项。这样,分析问题时面对的数据项就会越来越多。人的注意力就容易淹没在数据的海洋中。更糟糕的是:受数据条件制约,有些系统干扰可能就是不可见的。
现场中的有些干扰往往难以排除。我曾经遇到过这样一件事:
某钢种的性能波动非常大。强度 700MPa级的钢种,波动的标准差就高达60MPa。我分析后认为:这是某环节的系统干扰导致的。于是,我就设计了一个实验室试验、设法避开这种干扰。后来,同事在实验室里做了这个试验。他们做了几十对试样,每对试样的强度差不超过3MPa.
对前提做出判断的时候,往往需要较为全面的专业知识。这是制约数据分析人才 “成才率”提高的主要原因。
利用统计软件,做一次回归分析只要几秒钟的时间。数据分析师的绝大多数时间都用来对数据合理性进行分析。如果自己缺乏专业知识,可能几分钟就要去请教别人。别人岂不要烦死了?
合格的数据分析师,不仅要善于与数据打交道,更要善于理解物理对象和物理过程。