随着云计算和AI时代的来临,数据处理技术得到越来越广泛的运用。国家超级计算济南中心(下称“济南超算”)与华为深度携手合作,给AI时代装配了“新引擎”。华为OceanStor全闪存的加持让超算界皇冠更加闪耀。
AI大模型快速发展,
大模型需要强大的算力和存力在人类探索AI人工智能的道路上,大模型横空出世,为通向通用人工智能开辟了一条全新的途径—“大算力+大参数”。一时间,ChatGPT、文心大模型、GLM-130B、盘古大模型等AI大模型不断兴起,在辅助诊断、气象预报、AI创作、金融风控等领域取得广泛应用。AI一路走来,依靠着强大的基础设施高歌猛进,从单机到集群再到超算,特别是AI大模型和超算的联系越来越紧密。依托背后强大的超算资源, AI大模型相关应用上市的时间不断缩短。为支持百亿甚至千亿万亿的大模型训练,超算中心不仅要有强大的算力,更加需要高速可靠的存力,以应对AI时代对存储的更高诉求。
回首过往15年以来HPC存储增长的多种驱动因素,可以发现它与AI的飞速发展密不可分,进而催生出以数据分析生态为主的HPC解决方案,而近年来,为了抢占大模型技术制高点,世界各地开始更新和兴建AI超算中心,如美国的Perlmutter、Dojo、欧洲的Leonardo、国内超算中心等。济南超算中心作为中国最大全闪超算中心标杆,在AI智算领域更是有着先发优势。
从计算到数据到与AI结合,是HPC市场发展的必然。从传统HPC建模/仿真应用向新的HPDA/AI/ML/DL应用演进,其主要特点是从计算密集型负载向数据密集型负载转变,有助于研究人员、工程师和业务数据分析师从最佳性能的HPC基础设施中,更快地获取研究结果并对其进行分析总结。
AI大模型将对传统超算中心带来诸多挑战,极大地提高行业门槛,可以看到大模型训练投入的成本巨大,包括GPU算力、服务器成本、存储成本、人力投入等成本。以ChatGPT为例,ChatGPT每日处理1300万独立访问量,根据估算,1750亿参数的 GPT-3 的总训练成本高达 1200 万美元。因此要不断加大超算中心计算和存储基础设施资源投入,以支撑未来AI大模型高速发展。
国家超级计算济南中心发展势头迅猛,
构建引领全球科技发展的“最强大脑”科技强国政策的背景下,我国开始大力发展和推进HPC事业,截至2021年,科技部批准建立了国家超级计算济南中心、国家超级计算天津中心等十四所国家超级计算中心。
目前,济南超算正在主导山东省“超级计算大科学工程”,研制建设全球算力领先的新一代超级计算机,通过根植山东、覆盖全国、辐射全球的超算互联网建设,构建“E级超算、人工智能、工业互联网”等大科学装置集群,形成国际一流的“超算大脑”,力争成为推动国家基础科学进步和重大技术攻关,助力山东省走在“新动能”的最前沿。
面对挑战,
济南超算积极追求HPC存储架构转型AI大模型等新型应用进入到超算科研领域,推动济南超算改革创新发展,由单一计算服务向计算加多元数据处理服务转变。
济南超算在即将到来的AI超算创新改革中,面临如下变化与挑战:
首先,数据量的激增带来传输与存储成本的挑战。数据量的激增主要有两个原因:一是参与计算的原始数据不仅多且杂;二是数据多环节处理计算带来数据的过度膨胀。伴随着AI大模型等新兴产业的爆炸式增长,模型规模不断增大,模型输入从文本等单模态走向多模态,数据量呈1000倍增长,超算需要处理更多数据,而在线传输这些数据可能需耗费数周,拷贝TB-PB级数据时更是要耗费数月,这些都是超算中心在转型过程中无法规避的难题。
其次,存储资源抢占导致整体计算效率不高。当前多数超算场景为多任务、多并发计算,一些作业对带宽要求很高,另一些对IOPS要求高,多任务并发造成存储资源抢占,则会导致整体计算效率被拉低。
另外,可以预见AI大模型训练时会对海量训练小文件读取,需要满足千卡并发的高性能要求,避免训练数据读取成为关键路径,因此对IOPS要求较高。
此外,济南超算业务在与传统数据中心类业务融合过程中,也面临着数据管理及数据孤岛的挑战。在提供如AI智算、虚拟化和灾备等多元化服务时,面对万级用户群体及各种数据形式的读写(如文件存储、虚拟化的块存储、AI的向量存储等),都会增加管理难度,且数据间易呈现割裂的孤岛状态。如何让数据流动起来进而促进跨域创新,是济南超算急需解决的问题。
济南超算携手华为OceanStor全闪存,
打造标杆级新型超算中心,为AI智算转型做准备华为OceanStor全闪存超高性能、超高吞吐量满足多平台、多类型作业需求,为济南超算发展降本增效。为满足济南超算的HPC平台、AI平台及云平台各集群间存储需求的差异性,平台规划建设存储系统容量220PiB,涵盖高性能存储系统、块、NAS存储,可满足各类应用对存储的需求。其中高性能文件存储系统配套的全闪存储系统容量15PiB。
华为OceanStor全闪存凭借TBps级带宽,千万级IOPS超算主存系统,完全能满足超算综合场景高带宽及高IOPS等性能需求,提升业务效率,加速业务创新,整体带宽超1000GB/s,有效解决资源抢占拉低整体作业效率的问题。同时,采用数据图像压缩算法,进一步提升了存储空间的利用率,大大降低了海量数据的存储成本,为超算中心的持续发展降本增效。
华为OceanStor全闪存绿色节能,科技助力“碳达峰”。无论是基于国家政策的导向,还是超算中心降本增效的考量,绿色节能已逐步落地到生产和经营的方方面面。在数据中心层面,采用华为OceanStor全闪存是理想的解决方案,可以极大缩减数据中心空间和能耗的开支,由此带来的高资源利用率和高成本效益是驱动全闪存系统出货量增长的重要因素。
华为和客户合作数据流动方案,解决客户数据存储难题。华为OceanStor全闪存已经充分适配并能高效支撑起超算业务,面向未来的合作层面,济南超算与华为成立了存储创新中心,在数据流动、数据服务和数据安全等方面展开深入研究并孵化产业;面向超算领域层面,济南超算与华为提供了技术创新方向和解决方案,共同打造全球领先的智能数据与存储的示范点、产业基地。依托华为OceanStor存储,济南超算将具备国内HPC领域容量最大、性能最高的全闪存阵列集群,可以解决济南超算当前面临的块、文件互访难题,打通数据流通,促进数据跨域创新,为济南超算未来AI大模型等创新业务探索持续助力。华为提供API接口并联合济南超算共同定制开发,实现基于数据流动任务和策略,实现数据流动的服务化和可视化。华为与济南超算共同基于客户数据属性标签化进行定制开发,实现数据流动的安全管理。
AI和超算作为机器智能与算力的代表性技术,是计算机科学浪潮中两朵耀眼的浪花,二者的融合交汇必将带来巨大的能量。顺势而为,华为与济南超算合作将为后续加速AI创新奠定基础,济南超算之所以选择华为OceanStor全闪存,与其高效、节能的端到端超算存储解决方案和技术创新能力密不可分。
华为OceanStor全闪存具备敏捷性、高效率、可用性、安全性等特点,与我国全面推动的“新基建”战略高度契合。此外,华为OceanStor全闪存高密度、低功耗的特点可以显著降低超算中心PUE,赋能济南超算完成HPC存储架构转型升级,加速产业生态创新发展,以“超算速度”助推济南超算成为全球超算中心的领跑者。
相关标签: