南方财经全媒体记者 吴立洋 上海报道
近日,南方财经全媒体记者注意到,国内诸多主流公有云服务商,均出现一定程度云端GPU算力缺货的情况。
有下游GPU需求方向记者表示,近期受AI热潮影响,GPU云服务市场确实存在短期内供不应求的情况。
(资料图片仅供参考)
GPU算力的相对短缺一方面源自上游供给的不足,2022年8月芯片设计公司英伟达宣称,被美国政府要求限制向中国出口两代旗舰GPU计算芯片A100和H100;另一方面,在由Chat GPT掀起的“全业大模型”AI热潮下,应用需求进一步扩张,缺乏GPU储备的企业不得不转向云端寻求算力支持。
面对市场供需差,服务商和应用商都在寻求各自的解决方案。在供应端,服务商们正想方设法优化自身的供应方案,4月14日,腾讯云正式发布面向大模型训练的新一代HCC高性能计算集群,该集群搭载了英伟达H800GPU,后者是英伟达为应对美国禁令为中国市场开发的H100特供版,华为等相关厂商也在积极探索算力并网等方面的优化方案。
在需求端,人工智能公司、游戏公司等GPU需求大户也在寻求最佳的算力购买方案,综合考虑成本、稳定性等因素选择服务商或购置多路云服务。
“一卡难求”
GPU即图形处理器,是专门为图像和图形相关运算工作的微处理器,由于擅长大规模并发计算,因此也被应用于AI训练等需要大规模并发计算场景。OpenAI的研究表明,2012至2018年6年间,在最大规模的人工智能模型训练中所使用的计算量呈指数级增长。
但由于GPU产品售价高昂,且对相关算力需求往往以项目制方式进行,因而搭配自身算力资源或完全购买云服务商的GPU算力是很多中小规模应用商的选择。
目前,在AI带来的算力需求下,相关云服务商的GPU供给存量正被快速消耗。
南方财经全媒体记者查询腾讯云官网发现,提供英伟达A100 GPU的云产品已显示售罄状态,包含其他区域在内,可提供相关服务的仅有英伟达P4、T4、V100等型号的GPU。
在京东云官网,提供GPU云算力的华北-北京与华东-上海区域也同样缺少A100 GPU服务,但随后京东云官方客服联系南财记者表示,官网显示只有P40型号的GPU,如果需要更高的算力配置,可以联系运营人员提供定制化服务。
而在阿里云商店界面,仍有少量A100可供选购,但阿里云客服人员在与记者的交流中也坦言:官网只要显示可购买,机房就可以足额进行虚拟化,但如果购买产品到期后没有续费算力被释放,也不能保证二次购买时有货。
“能买到就说明还有货。其他的就不方便透露了。”对于南财记者关于阿里云GPU供给情况的问询,阿里云相关负责人如此回应道。
“从去年8月美国对中国实施A100与H100禁运后,GPU的供给就一直处于相对紧张的状态,价格也随之水涨船高。”上海某互联网公司云服务业务从业者向记者表示,在AI热潮算力需求暴涨的背景下,无论是市场上流通的GPU还是云端算力,在短期内都面临一定的供不应求境况。
供应端的压力首先来自于GPU成品的禁运封锁。2022年8月31日,芯片设计公司英伟达宣称,美国政府要求其限制向中国出口两款旗舰GPU计算芯片A100和H100。但很快,英伟达就给出了特供中国市场的产品A800,在A100基础上将GPU高速互联总线带宽从600GB/s降低至400GB/s,在不影响单卡性能的基础上,限制了GPU大规模拓展互联。
今年3月,英伟达宣布H100显卡全面投产,并针对AI市场推出了新的双GPU产品H100 NVL,可提供高达188GB HBM3显存,单卡显存容量达94GB,适用于运行大型语言模型(LLM)。
此外,英伟达也同步宣布将基于H100为中国市场开发第二款特供版GPU H800,且H800在限制带宽后依然符合美国政府的限制出口规定。彼时据媒体报道,阿里巴巴、腾讯、百度三家国内厂商均已使用H800产品。
而在国内自研GPU方面,由于被列入美国实体清单等因素影响,华为晟腾、寒武纪思元、壁仞科技BR100等GPU产品在设计和量产等方面仍多处受到掣肘。
“GPU一般都是数字芯片,制程相对先进,有赖于高速开关技术,因而相较于其他产品的研发难度要更高。”无锡某半导体行业从业者向记者表示,相关数字芯片往往规模庞大,完全的正向设计很困难,目前部分公司的做法是购买相关电路模块设计版权然后进行复制。但即便能够购买到相关版权,由于当前芯片设计往往采用了忆阻器的“黑盒子”技术,进行高效复制同样困难重重。
云端算力方面,在A100与H100被禁运后,很长一段时间内大部分云服务商所能提供的云服务主要还是依赖此前储备的GPU存量,虽然A800等特供版产品和国产GPU也能提供一定算力支撑,但数量和并网能力等方面的限制依然困扰着供需双方。
供需变局
而在本轮GPU供给短缺发生前,国内厂商其实一直在进行算力“过冬”的准备。
“包括游戏公司在内,国内大部分IT企业在美国禁令正式执行前,都一直在购买GPU。”作为算力消耗大户,上海某游戏公司相关负责人告诉记者,对于中小开发者而言,小体量的产品开发可能靠4090等消费级显卡即可完成,少数需要使用A100以上级别的场景也并不难解决,因而受到相关供需关系变化影响相对有限。
某上市游戏公司技术负责人也向记者表示,由于企业自身是云服务商大客户,合作关系相对稳定,因而目前算力供给也并未受到过多波及。
但供需市场的变化也在促使相关厂商不断调整算力支撑方案。上述上海游戏公司负责人向记者表示,公司早在数个月前就购入了A100的多路国内云服务,并用阿里、腾讯、华为、AWS、GCP等多家供应商的云服务,还在不久前加入了微软Azure。
以近日风头正盛的微软Azure为例,据其官方发布的信息显示,借助OpenAI的GPT大模型,微软已经能够面向企业推出Azure OpenAI云服务,帮助企业发掘大规模的AI与商业场景结合的潜力。而在Azure的官网界面,“将高级编码和语言模型应用于各种用例”被高调地放置于“精选”产品页。
一位游戏AI创业企业负责人告诉记者,他们的公司正是在这两个月从阿里云和AWS全量迁移到了Azure。
“他们给了很多优惠,资源也很足。”该负责人坦言。
上述上海游戏企业负责人也表示,提供GPT的API接口是Azure的优势之一,但也存在并发能力差的问题,当前对于不同体量、不同算力需求的公司,GPU供给还未能收敛到特定标准化解决方案,这也正是很多企业在实际业务中采用不同供应商并行策略的原因。
“因为不同供应商提供的服务各有其擅长领域,且在市场竞争下,也给需求方留下充分的议价空间。”他进一步表示。
而在需求端不断调整算力获取方案的同时,国内供给方也在积极进行着优化与迭代。
4月11日,浙江移动宣布通过与华为合作,旗下算力网络与杭州人工智能计算中心成功对接,实现了基于昇腾GPU的AI算力并网,全面降低了模型训练时间、推理时间和使用成本。
三天后,腾讯云正式发布新一代HCC高性能计算集群,搭载英伟达H800 GPU。据腾讯方面表示,腾讯云新一代集群的算力性能较前代提升高达3倍,是国内性能最强的大模型计算集群。
阿里云CTO周靖人曾在公开发言中表示,GPU很重要但不是全部:“大模型的训练往往需要几千甚至上万张GPU卡共同协作来完成,卡与卡之间的连接,机器与机器之间的连接,如何构建一个高吞吐、低延迟的网络,以及高效的存储,都是智算基础设施的重要环节。如果没有这些环节,光有GPU的卡,就很难跑出规模超级大的模型。”
同样是在最近,微软开源了一个可在模型训练中加入完整RLHF(人类反馈强化学习)流程的系统框架——DeepSpeed Chat,据介绍,该框架通过混合引擎,支持在2.1天内训练一个OPT-66B的模型,且成本仅为1620美元——该方式比现有系统快15倍以上,消耗的算力成本大幅下降。受该消息影响,当天股市数据中心板块一度下挫2%左右。
“除了加快研发光刻机从芯片供给层面解决问题,从云服务供给优化到需求端市场的自发调整,都在为应对短期的算力供需问题进行探索与尝试,这需要整个供应量上下游的共同努力。”上述无锡半导体行业从业者说。
更多内容请下载21财经APP