近日,2023年云栖大会在杭州举行,阿里云开源大数据产品在此次大会上发布了年度更新。此次更新涉及多个方面,包括开源大数据产品的全面Serverless化,创新性地推出Flink与Paimon搭档的新一代流式湖仓,以及将AI技术引入大数据平台体系等。
阿里云开源大数据平台负责人王峰在大会上回顾了阿里云开源大数据技术的演进历程。他表示,自2009年以来,阿里云开源大数据平台已经经历了三个阶段的发展:1.0时代以大数据上云为代表,2.0时代则以数据湖和实时化为特点,而如今阿里云开源大数据平台已经进入3.0时代,实现了云原生架构的深入落地,并将核心计算组件Flink、EMRSpark、StarRocks和存储组件OSS-HDFS等全部实现Serverless化。
阿里云开源大数据产品总监陈守元表示,通过底层技术优化,阿里云开源大数据产品已经实现了用户使用成本的显著降低,引擎性能相较于开源版本提升了1~3倍,综合性价比提升超过2倍。此外,数据分析正从传统Hive模式向湖仓架构升级,而阿里云已经预测到实时化是湖仓分析下一步的演进方向。因此,阿里云基于黄金搭档Flink+Paimon,打造出新一代的流式湖仓新方案,为用户提供一站式数据入湖、实时加工和探查分析能力。
阿里云流式湖仓新方案已经在5亿条数据入湖场景中得到了实际应用,并与开源Hudi方案进行了对比。结果显示,阿里云流式湖仓方案的Upsert性能提升了超过4倍,Scan性能提升了超过10倍。这表明阿里云流式湖仓新方案在实际应用中具有显著的优势。
在当前AI全面爆发的背景下,阿里云开源大数据平台也积极地将AI技术引入大数据平台体系中。升级后的智能化运维工具EMRDoctor、FlinkAdvisor已经广泛应用于客户和阿里云内部平台运维,平均集群问题识别时间减少了30%,集群资源有效利用率提升了75%。这些改进使得阿里云开源大数据平台实现了智能化运维和数据管理。
此外,阿里云还推出了Milvus全托管服务,为多模态数据提供向量检索能力,从而加速客户的AI应用。
总结来说,阿里云开源大数据产品在本次云栖大会上展示了其在技术、应用和运维等方面的全面优势,不仅引领了行业的发展趋势,也为广大用户提供了更加高效、便捷和智能的大数据解决方案。
相关标签: