首页>>新闻资讯>>云计算

大模型、云计算、区块链……前沿技术热度刚起,上海企业已经领先半个身位

2023-11-23 09:16:54 16

今年,超600万上海市民投保2023年沪惠保,绝大多数人都只是手机上点几下就操作成功,不再需要和保险代理人面对面签协议。原本复杂的买保险流程,如今却如此简便,背后的金融科技力量支撑中,少不了上海科技企业优刻得的“数据沙箱”,这一技术能使沪惠保与医保局数据对接,在保证隐私和安全的前提下,让市民的参保流程缩短至几分钟。

一份至少40多页的银行信贷报告,依赖人工填写至少需要3分钟,在“曹植”大模型的辅助下,完成同样一份报告仅需6秒,效率提高了30倍。

9月7日至9日,2023外滩大会将在上海举行。作为2023外滩大会的关键议题,当前核心技术和未来前沿科技如何衔接落地,成了业界关注的趋势重点。大会召开前夕,记者在走访上海本地科创企业的过程中发现,近几年来,上海在大模型、区块链、云计算等前沿科技领域的先期探索,正逐步进入“结果”期,甚至与不少地方拉开了“半个身位”的差距。

抓住跨时代技术的风口

“大模型不是越大越好,这一点已经在业界达成了共识,只有要高质量训练数据的‘投喂’,哪怕是样本小一些,大模型的输出效果反而很好。”达观数据董事长陈运文表示,在有些通用大模型还在烧钱拼参数的时候,不少垂直领域的大模型已经走通了商用道路,其中不乏上海企业的身影。

众所周知,科技进步从来不是简单的量变过程,一旦突破“奇点”将以指数级速度进化。因此如何找到前沿科技的“千里马”,尤为考验科技企业的眼光。早在2020年6月,GPT-3刚刚诞生,AI大模型的概念还鲜为人知,陈运文就开始率先试用,效果并不满意,不过他却看好大模型的潜力。两年后,ChatGPT(GPT-3.5)的横空出世,虽然与GPT-3只隔了0.5个代际,效果却是天壤之别,这让陈运文意识到:“这是一个跨时代的技术,或许能撬动整个社会与行业的变革。”

即便ChatGPT诞生迅速走红,不少人还只是将其看作是聊天工具,但达观数据却想把握住ChatGPT背后NLP(自然语言处理)的技术风口,全力投入自主研发国产大模型。

今年1月开始,达观数据调集了近200位工程师的团队参与研发“曹植”大模型,不仅要买高性能GPU芯片,还要学会组网形成算力网络,训练模型也要从小数据开始打磨,逐渐将规模扩大到中、大、超大的模型。据了解,“曹植”大模型的训练数据规模远超于一所大学图书馆的藏书量,光研发大模型的硬件投入超千万元。

经过半年的攻坚,今年7月,国内首个垂直行业专用的自主可控的GPT大语言模型——“曹植”大模型在人工智能大会上正式发布,这也是国内首批可落地的产业应用级模型。在陈运文看来,ChatGPT在3月开始火出圈的时候,达观数据已经领先半个身位。目前,“曹植”可准确完成多种类型、复杂结构的长文本写作。以信贷报告为例,一份银行信贷报告至少40页,以前靠人工逐一填写,如今“曹植”大模型能自动完成报告,只需要人工写大纲以及核实数字即可。

上海人工智能行业翘楚商汤科技也在大模型领域早有布局,早在4月就推出商汤“商量SenseChat”,是国内最早的基于千亿参数大语言模型之一,前不久正式向公众开放服务。此外,商汤还联合多家国内顶级科研机构发布书生·浦语InternLM-123B,在全球51个知名评测集中整体排名全球第二。

借助通用大模型的强大算力,商汤在不少垂直领域也是行业大模型的“隐形冠军”。据了解,基于商汤“日日新”大模型孵化出的医疗语言大模型“大医”,已在全国多家医院成功落地。商汤与郑州大学第一附属医院合作,基于海量药学知识和专家经验,定向研发行业前沿的用药咨询大语言模型,与上海交通大学医学院附属新华医院合作开发了慢性病患者的智能随访功能。

夯实人工智能的底座

大模型的兴起也在带动云计算技术的发展。传统观点认为,国产大模型面临的三方面挑战是算力、数据和算法,但优刻得副总裁刘杰表示,还有一方面能力也是国产大模型的短板,即系统工程能力,这就为数据产业提供了新的机遇。

他向记者举例,比如某算法需要一千张显卡的训练集群,每台服务器是8张卡,那么一个千卡的集群就是100多台服务器,如何把这100多台服务器组成一个可供大模型训练所需要的集群,并实现尽可能接近100%的运算效率,需要将任务分配最优化,这就是一个非常复杂的系统工程,要求平台对硬件、软件、计算等多方面专业都十分熟悉。

这种系统工程能力的高低,将直接决定模型训练和使用成本的高低。也因此,人工智能企业开始寻求具有系统工程建设能力的云计算企业优势互补。

优刻得原本有着云计算服务和无损网络运营经验,和自建数据中心的优势,很快便切入了AIGC解决方案这一赛道。近年来,得益于数字经济的不断壮大,优刻得也迅速发展。这家注册成立于2012年的企业,如今已经完成科创板上市,成为国内云计算第一股,在云计算、数据流通、隐私计算等方面实现了率先布局。

“对于数字化转型来说,云计算企业更像是一个底座,一个信息化的基础设施,我们更多的是去给各类企业、政府提供所需的底层资源,包括数据中心、算力、存储、网络等。”刘杰说。

伴随着大模型、元宇宙、区块链等技术浪潮的不断席卷,云计算产业迎来一轮又一轮的发展机遇,很多上海数据科技企业如优刻得、星环科技得以迅速成长。根据IBM发布的2020年云计算市场的报告中,全球云计算市场的规模预计将在2020年达到3700亿美元,市场增长率将达到17%。

打破数据联通的壁垒

当然,云计算领域很重要一部分内容是隐私计算。相较于大模型这类兴起的人工智能技术,以“区块链+隐私计算”为代表的数据流转技术在上海已有成熟的应用。

1982年,图灵奖得主、中科院院士姚期智提出了经典“百万富翁”问题:两个百万富翁在街头相遇,双方想要一较财富高低,但都不愿暴露自身财富有多少,如何在没有第三方帮助的情况下,推断出谁更富有?从这个问题开始,隐私计算、多方安全计算等技术分支不断发展,现在已经可以在众多的生活场景中逐步落地,虽然使用者可能并不会感觉到它们的存在。

比如在购物时,你是否会收到商家发放的优惠券、满减券?这可能就是商家根据你的信用、消费习惯、消费水平等多方面数据,分析后再发放给你的消费券。但这些数据并不一定就是商家自有的,可能涉及支付方、银行方、商户等多方的数据,商家如何在不侵犯顾客信息隐私的前提下,得到更多数据的联动,就需要隐私计算的支持。

再比如政务机关之间,虽然各自都掌握大量的公共数据,但如果想要打破壁垒,实现数据联通却非常之难,这对于各个基层政府部门的技术要求过高。如果能用去中心化的方式实现数据联通,则可以增加数据的使用效率,真正发挥数据的价值,更好地为民服务。

近年来,蚂蚁链、Conflux(树图)等上海区块链企业不断涌现,在产业上链、城市上链方面提供技术支持。蚂蚁链技术总监魏长征介绍,2021年,蚂蚁链率先提出面向数据流转的“链原生隐私计算”技术理念,并推出数据隐私协作平台“FAIR”,在出厂设置中就将隐私计算与区块链融合到了单个系统内。目前,“区块链+隐私计算”已经成为业界认可的有效解决方案。隐私计算的发展直接关系到区块链的应用推广。复旦管院信息管理与商业智能系教授窦一凡告诉记者,区块链是一种去中心化的分布式存储技术,如果实现大规模推广,例如在医疗、金融、商业领域,必然会涉及敏感信息的合规使用,这就对数据安全提出了非常高的要求。

窦一凡介绍,自2016年开始,网络安全法、数据安全法、个人信息保护法等法规相继出台,2022年底“数据20条”发布,当前国内有关数据产业发展的法律边界已经逐渐明晰。“产业怎么能够在边界内做得更好,我们还拭目以待。”

栏目主编:李晔 题图来源:图虫创意 图片编辑:项建英

来源:作者:查睿 吴丹璐

相关标签:

发表评论:

评论记录:

未查询到任何数据!