随着新一轮技术浪潮的兴起,以计算机、通信、互联网等为技术支撑的信息时代,正逐步过渡到以人工智能、云计算、大数据、物联网为关键技术引领的智能新时代。智能化、湖仓一体化、超融合化等发展趋势,被越来越多地落地实践。


【资料图】

5月11日, 受华为GTS邀请,神州信息上地大数据研究院院长、神州信息首席数据官、DAMA大中华区理事黄万忠参加了华为数据平台技术Workshop,做了《从数仓发展史浅析湖仓一体技术现状与发展趋势》的主题分享与交流。

随着云原生技术已在金融、政府等行业落地开花,云原生基础设施不仅可以丰富数字化应用场景的多元化实践,也将为企业发展提供可持续的内生动力,而“智能湖仓”便是其中最为重要的技术架构之一,与神州信息“数云融合”的技术目标也高度一致。

此次技术Workshop,与会的华为技术专家一起重点讨论了如下几个热点技 术问题:

1.业界对湖仓一体的发展趋势有什么动向洞察,哪些是关键趋同的,哪些是分开发展的。

2.业界湖仓一体的标准定义是什么?或者说至少做到什么方面才算是湖仓一体了。

3.湖仓一体是个工程问题,还是个理论问题?

4.涉及湖仓一体有什么技术发力点(难点),有什么业界的探索思路。

5.湖仓一体同云原生的关系是什么?云原生环境下如何构建湖仓一体的架构。

6.大模型时代下对湖仓带来哪些影响。

7.AI能力如何赋能湖仓。

黄万忠表示 ,从数据库阶段,到以Teradata为代表的数据分层和主题域的MPP数据仓库阶段,再到MPP与Hadoop并存的阶段,甚至到数据中台的理念横行的阶段,以及现在的智能湖仓,都是数据分析路径的演进,是企业数据分析从战术智能到运营智能的转变,从传统的即席查询和统计分析,转向更加多元的数据挖掘与流式查询。

黄万忠表示,数据湖就像挖个大坑,修个湖,把各种数据一滚脑灌进去囤起来,而且要持续灌,持续囤。 而Lake House湖仓中“新鲜”数据可以流到仓里,而仓里的“不新鲜”数据,也可以流到湖里,低成本长久保存,供未来的数据挖掘使用,围绕周边环湖移动。

2020年,databricks提出湖仓一体架构,用于数据湖的低成本存储上实现与数据仓库中类似的数据结构和数据管理功能。该体系基于开放架构,将构建在低成本云对象存储之上、Schema数据模式、ACID事务的数据湖和数据仓库结合起来。

Databricks Lakehouse 将数据仓库的 ACID 事务和数据治理与数据湖的灵活性和成本效益相结合,从而对所有数据启用商业智能 (BI) 和机器学习 (ML)。 黄万忠详细介绍了Databricks Lakehouse的技术特点,同时与另一个湖仓体系Starburst做了深入的技术对比。 Teradata技术团队、Presto、Trino有着千丝万缕的关系。

黄万忠借此介绍了行业内实现智能湖仓的三种思路,一是融合,二是编织,三是真正的一体,实现方式各有利弊。 同时,在基于公开数据的前提下,对比了腾讯云、阿里云、华为云等国内湖仓产品技术特点。

黄万忠同时解析了湖仓关键技术组件Delta Lake、Hudi、Iceberg的技术特性,并且介绍了神州信息在某交通行业基于HUDI的湖仓一体架构的案例,和在某金融机构基于Apa che Iceberg的湖仓案例。

未来神州信息上地大数据研究院和数据团队将在智能湖仓上持续进行技术投入,奉行多云策略,与华为等国内顶级云服务商展开技术合作的同时,打造神州信息的智能湖仓中间件,为客户提供“the Data + Ai”的大数据分析服务。

推荐内容