“奇点临近,AI将赋能每一个人,加速实现数据普惠。”

不久前,在StartDT Day数智科技大会上,StartDT首席数据科学家、GrowingIO创始人张溪梦带来 《AI进化,奇点临近》 主题演讲,以数据科学家视角分享了自己在AI浪潮下的数据行业观察。


(资料图片仅供参考)

张溪梦认为,从采集、存储、清洗到建模、分析、应用,数据的全链路依旧重要。一个企业必须得有准确、稳定、可靠的数据,才能在上面建立AI模型,否则会出现“垃圾进、垃圾出”。同时,张溪梦指出, 未来,企业内部数据与生成式AI结合,将形成企业竞争的护城河。

本文由张溪梦的演讲编辑而成。

文末扫码可下载张溪梦演讲PPT,点击“阅读原文”收看直播回放。

数据是AI的根基

最近半年,行业非常火的一个主题是生成式AI大模型。其实AI一词在过去十年里被提到很多次,今天我们所谈论大模型的算法、神经网络其实在三十年前就提出来了。而今天算力等各方面在非常快速地进化,给我们产生了更多机会。

说到IT和DT科技的进化,自1980年以来,我们整体经历了六个不同的进化阶段。

首先是80年代(在中国是90年代),个人电脑的出现给每个人带来巨大赋能。当时我买了第一台PC,上面有Office等各种软件,专业人士就获得了计算能力。只不过在当时只有少部分人有,估计全球也只有不到1亿的人能使用个人电脑。

90年代开始出现互联网,让人类有机会接触历史中产生的各种信息。以前获取信息是非常困难的,查一个电话号码还要找非常厚的电话簿。同时,互联网还给我们带来一个巨大的机会,人与人之间的交流变得非常便利。有了互联网以后,我们可以随时随地打电话,线上交流变得无所不在。

到了2008年、2009年以苹果为代表的智能手机出现了,逐渐把以前PC给我们这些科技从业者的“特权”变得普惠,每个人在任何时间、任何地点都能享受科技带来的信息红利。

移动时代之后是云计算的出现,企业的系统能24小时在线,处在全球各个角落的每一个专业人员都能连接自己的系统与服务器。

以前在数据仓库中,如果不在内网或机房附近,流程相对来说是封闭与断裂的。有了云以后,特别是企业服务软件的出现,让企业员工在任何时间地点都能办公。

我们现在在讨论的AI要结合硬件IoT的发展来看,这个(数据智能)时代在中国至少扎实落地了四五年时间,只不过今天生成式AI突然给我们带来了不同以往的惊喜。

再下边是元宇宙阶段。Facebook在这个领域投了很多钱,甚至把自己公司名改成了Meta。但前两天我见了几个投资人,他们说元宇宙还有些早,把每个人的生活完全搬到线上,将整个人虚拟化还需要一些时间。

经历了这六个时代,加上过去七八年的创业积累,我们发现今天所有生成式AI的根基还是数据。

AI降低技术门槛,推动数据普惠

人类历史的发展,让我们现在有了海量数据。数据的类型不外乎为:文本、代码、图像、语音、视频,还有虚拟现实、3D场景的构建。 这些数据通过AI加持形成了很多场景。

比如在文本上,我们可以用文本进行营销内容的运营,帮助销售提升效率,帮助客服更好理解客户需求,进行更个性化的服务。

在图像上,现在很多营销创意可以直接通过生成式AI来形成,你可以让AI画一幅莫奈和张大千(风格)结合的画,再结合营销热点,进行推广营销。

在语音上,不久前孙燕姿表达了自己对“AI孙燕姿”的看法。以前歌曲创作需要大量制作人,现在将AI和歌手结合已经形成一种新的娱乐现象。

在代码上,过去20年我一直做数据分析方面的工作,数据库有一种语言是SQL,数据分析师和数据开发工程师通过写SQL的方式进行数据分析。但今天你直接对AI说一段话,比如有一个数据库,有两张表,字段是什么,我想知道销售业绩和平均客单价,然后AI就会写一段代码出来,来帮助你完成查询和分析。

我个人认为生成式AI写的代码水平跟有两年工作经验的数据分析师差不多,非常干净、逻辑条理清晰,代码规范比普通人更好。

因为底层有了海量数据,如今在AI加持下,(业务场景)会产生更多变化,这其中有很多创造价值的机会。

回到StartDT(奇点云、GrowingIO), 我们有一个初心是数据普惠。 行在和我在创业的时候, 都希望将以前只有超大型科技企业才具备的数据分析或洞察的能力,带给更多企业。

一直以来,我们的产品团队在努力将软件设计得越来越简单易用。过去我们已经将数据的处理分析在低代码化、无代码化上做了很多工作,未来在AI加持下,产品无代码、低代码的能力将更强。

我们对领域内专家(例如数据科学家、数仓工程师等)的技术门槛要求也会因而降低,同时,数据应用场景将大幅增加,加速数据价值普惠。

奇点临近,AI将赋能每个人

虽然我们刚才讲了很多远大的AI场景,但有两点是不会变的:

其一,数据的采集、存储、清洗、建模、分析、应用,全链路依旧稳固存在。 一个企业必须得有准确、稳定、可靠的数据,才能在上面建立AI大模型,否则会出现“垃圾进、垃圾出”。

其二,合规。 企业在积极探索生成式AI的同时,必须做到合规。不仅内容要可控、准确,数据的存储、采集等都要合法合规,不能侵犯个人隐私。

现在大模型非常流行,而大模型需要巨量数据,大概在ZB级别,普通企业很难投入这么大的资源。因此像百度、阿里这样的企业才可能研发真正通用的大模型。

而大模型之上的行业模型,与大家所在的企业关系更多。因为行业模型需要大数据来进行训练, 而大数据往往是企业内部的专有数据,因此一旦大数据与生成式AI结合,未来将形成企业竞争的护城河。

我个人认为,AI的算法不会形成竞争壁垒,因为现在很多东西都在开源。但企业数据,特别是与业务、行业相关的,是企业自有的独立资产,可以放到一层行业模型上,生成很多新的场景应用,让自己的客户使用更简单,让业务更高效,产生更多价值,同时这些小体量的数据还能普惠到更多用户和自己的企业。

结束之前,我再分享Gartner在今年5月初发布的一份报告。报告中呈现了生成式AI和数据对未来行业影响的预测:

在2024年将有40%的企业会将AI结合应用到其业务中;

2025年,30%的企业会将AI应用到整个IT研发的流程中;

2026年,生成式AI结合企业自身的底层数据会产生60%的设计,全球有1亿的专业人员会与虚拟的同事在一起协同工作;

2027年,大约有15%的软件会完全由机器和AI生成,而没有任何的人工干预。

可见,未来是一个软件、内容、创意大爆发的时代,而这些都要基于很扎实的数据根基才能做到。

奇点云非常期待这个时代的到来,我们相信: 奇点临近,AI一定能赋能给每个人,最终做到数据普惠。

推荐内容