做合格的工业数据分析师

我估计：除了图像处理，从事工业大数据分析时， 95%以上的工作都可以用线性回归、决策树、方差分析、频谱分析、最大似然估计、取平均数等基本的统计或数据处理方法完成。但是，人们讲到这些方法时，却往往会把重点放在深度学习、模式识别等。

现实中，这些高级方法往往是 “杀鸡用牛刀”，反而不好用。因为这些方法，难以与人的知识和认识结合起来。人们乐于宣传这些方法的原因，除了便于发表文章，就是便于保密。从事相关工作的朋友必须明白；自己要对自己的时间负责。最好用简单的办法分析问题。

但是，做数据分析工作其实很不容易。即便对数学和统计学功底好的人来说，人才的 “成才率”恐怕不会高于10%。那么，困难到底在什么地方？要理解这种困难，还是从《黑天鹅》中的那个故事谈起。作者问道：

一个硬币丢了 99次，每次都是正面朝上。请问第100次正面朝上的概率是多大？

学霸的标准答案是：第 100次正面朝上的概率与前面99次的结果没有关系。所以，概率是50%。而老油条的答案则是：前面连续99次都朝上了，你还会认为正面朝上的概率是50%吗？前提不成立了！

现实中，数据分析的难点，在于认清正确的前提。

错误使用统计分析方法的现象非常普遍。我在宝钢工作时，看到钢铁行业同仁们写的论文，就对办公室的年轻人说：真想把这些论文作为反面案例，告诉大家什么是错误的分析方法。在这些例子中，有的回归分析的前提不成立，有人在选取样本时犯了初级错误。

这种现象并不奇怪。

我参与研究生面试时，经常遇到这样的事情：给学生出一道复杂的计算题，基本上都能正确地计算出来。但是，如果问基本的概念，很多人就回答不出来了。更有意思的是：如果把计算题出得特别简单、不再需要采用复杂公式时，多数学生居然回答不出来了！

我们现在的教育，总是考核在 “标准前提下，给出标准答案”。学生没有怀疑“前提”的习惯。这样的学生有知识，却不会用知识。

回到前面的问题。用线性回归可以清晰地分析一个变量的作用。但前提是其它变量的干扰较小、且具有随机性。解决这个问题的办法之一，是尽量固定其他变量。科学试验往往就是这么做。

但工业现场往往受各种约束，总会有很多干扰。而且，这些干扰并不是随机的。变量选择有问题时，小的非随机干扰，就会对分析结果产生很大的影响。所以，做数据分析时，必须时刻警惕非随机系统干扰的影响，并设法剔除它。

处理和发现非随机的系统干扰很难。原因是这样的因素太多。比如，任何一个变量的采集过程，都可能存在非随机系统干扰。而识别这些干扰，需要更多的数据项。这样，分析问题时面对的数据项就会越来越多。人的注意力就容易淹没在数据的海洋中。更糟糕的是：受数据条件制约，有些系统干扰可能就是不可见的。

现场中的有些干扰往往难以排除。我曾经遇到过这样一件事：

某钢种的性能波动非常大。强度 700MPa级的钢种，波动的标准差就高达60MPa。我分析后认为：这是某环节的系统干扰导致的。于是，我就设计了一个实验室试验、设法避开这种干扰。后来，同事在实验室里做了这个试验。他们做了几十对试样，每对试样的强度差不超过3MPa.

对前提做出判断的时候，往往需要较为全面的专业知识。这是制约数据分析人才 “成才率”提高的主要原因。

利用统计软件，做一次回归分析只要几秒钟的时间。数据分析师的绝大多数时间都用来对数据合理性进行分析。如果自己缺乏专业知识，可能几分钟就要去请教别人。别人岂不要烦死了？

合格的数据分析师，不仅要善于与数据打交道，更要善于理解物理对象和物理过程。

推荐内容

做合格的工业数据分析师

迈入强AI时代，科大讯飞如何找到价值支点？

淘丁分享：人工智能与人类智能的区别与趋势

深度分析B站百大up主数据：高更替率背后，知识、游戏、美食越来越卷了……

不再按月披露用户净增数，联通困境的根源在于3G时代错失良机

元宇宙的庞大市场预期将促进生成式AI快速发展

奇安信发布2021年财报及2022年一季财报

九牧王一季度亏损5746万，投资失效所致

鲸直播回顾 | 大咖共话数据赋能“东数西算”

押注虚拟时尚1000亿市场，张一鸣的野心藏不住

马斯克将入主Twitter 拜登的“梦魇”要回来了？特朗普：我不屑

这场“智慧助老”活动，现场没来一个老头老太太，但是——

上海80岁聋哑老夫妻被转运，女儿落泪求助！记者联系联通后——

王卡之后，腾讯再和电信合作搞大事！

携号转网之下，三大运营商日赚3.87亿，谁的贡献最大？

亚马逊云科技发布中国企业上云出海趋势

运营商怪象：你以为打的9分服务是优秀，其实和0分一个样！扣钱没商量！

争议中的“牛市赢家”，LD CAPITAL 是怎样炼成的？

谷歌称之为“下一代 AI框架”， Pathways真有那么强吗？

戴尔商用全场景：打开“时空”里的生产力

数字化助力品牌高质量发展，数说故事受邀出席周大福93周年峰会

黑客攻击白俄罗斯国家铁路系统影响运营

共109个！河南公布首批数字化转型典型应用场景名单

「数据新星」Databricks 崛起启示录

人工智能应用加持，戴尔科技升级混合办公新体验

BAT数字藏品大战，打到太空了

朋友圈：十年一觉社交梦

科大讯飞年报解析：营收日进5000万，连续10年涨幅25%，连续13年分红

抢滩陌生人社交：挚文破圈

Keep不需要刘畊宏

工信部启动示范项目申报，广电5G可加入

诚毅软件中标中国广电经营分析系统二期项目

中国广电2022年度光缆产品集采购项目招标

中兴通讯首季开局稳健 实现营收279亿 净利22亿

B站、快手、抖音之后，小红书怎么做音乐社区？

新华三智慧IT：夯实加速数字化转型的绿色“根基”

网络安全产品提供商雪诺科技完成数千万元天使轮融资

大而全还是小而美，财税SaaS的两种选择

中国电信集团副总刘桂清兼任重要职务

5月1日起施行，取消初中毕业后普职分流

《数字化工厂 价值链数据管理技术要求》团体标准发布，奇点云参与起草

知乎屡被传裁员后业绩连续亏损！

白话版，聊聊“深度学习”

接过了国产化替代这杆大旗 星环科技的自研更有底气

破局而立的以太全光网，凭什么站在企业级园区网络的“上风处“？

吴说每周矿业资讯：0418-0424 美国制裁俄罗斯矿业

社交购物元宇宙七朋元视界创新元宇宙新型购物体验

2021年亚马逊Alexa设备出货量锐减 导致智能音箱市场回落

主流媒体人 | 元宇宙和媒体传播的未来！

腾讯「NokNok」APP上线

做合格的工业数据分析师

不再按月披露用户净增数，联通困境的根源在于3G时代错失良机

迈入强AI时代，科大讯飞如何找到价值支点？

淘丁分享：人工智能与人类智能的区别与趋势

深度分析B站百大up主数据：高更替率背后，知识、游戏、美食越来越卷了……

元宇宙的庞大市场预期将促进生成式AI快速发展

超市行业正在“突破”亏损

「奥特莱斯」里的学问，绝非「折扣」这么简单

达美乐距离港股上市，缺了一个美团？

做生鲜电商难，在哪里都难

一年买533吨黄金，这届年轻人变身“囤金兽”

从周受资到高准：字节跳动如何筛选CFO？

融资丨「卧兔网络」完成数千万元A轮融资，君品资本、云想科技投资

疫情下的电商大考

融资丨「如祺出行」完成超10亿元A轮融资，广汽集团领投

融资丨「花田萃」完成数百万美元融资，青山资本独家投资

海外创投丨数字货运网络提供商「Convoy」完成2.6亿美元E轮融资，Baillie Gifford、T. Rowe Price共同领投

融资丨「风变科技」完成数千万元B+轮融资，中银粤财独家投资

融资丨「Wahool」完成近千万美金两轮融资，投资方为金沙江创投和策源创投

融资丨「蓝固新能源」完成近2亿元A轮融资，海松资本领投

马斯克背后的神秘家族办公室

除了快手与抖音，“云想科技们”也在加速“出圈”

融资丨「可以科技」完成新一轮融资，安克创新领投

融资丨「明智医疗」完成数千万元A轮融资，打造肿瘤真实世界大数据平台

融资丨「瑞泰生物」完成数千万A轮融资，惠每资本领投

奇安信发布2021年财报及2022年一季财报

九牧王2021年净利下滑47.25%退守老本行

九牧王一季度亏损5746万，投资失效所致

传全球最大SSD主控出货商慧荣探索出售交易，收购方已表示兴趣

中兴通讯首季开局稳健实现营收279亿净利22亿

《数字化工厂价值链数据管理技术要求》团体标准发布，奇点云参与起草

接过了国产化替代这杆大旗星环科技的自研更有底气

2021年亚马逊Alexa设备出货量锐减导致智能音箱市场回落

中兴通讯首季开局稳健实现营收279亿净利22亿

《数字化工厂价值链数据管理技术要求》团体标准发布，奇点云参与起草