面对需求的压力,整个AI计算能力行业正在重新校准★。此变革的前沿体现在智能计算中心的兴起。这些中心集成了计算、存储和网络设施★,能够直接反映当前大型模型计算能力的状态★。来自行业的声音普遍认为,虽然智能计算中心的数量较多,但用于大模型的计算能力却依然不足。尽管计算能力短缺,但资源又未能得到充分利用,智能计算中心在这一方面的表现并不理想。
许多智能计算中心虽然建设用到的是国内或Nvidia的GPU,但这些集群的利用率参差不齐★。政府和这些中心的运营者都意识到这一问题★,面对计算能力挑战★,投资计划需谨慎控制★。国家层面,已出台十余项政策以促进智能计算中心的建设★,比如东数西算与数字中国建设总体布局规划。令人关注的是,国家发展改革委最近明确,任何新建智能计算中心若购买境外GPU将不予能源消耗配额支持,而购买国产GPU则可能在国家计算网络中的关键点获取能源配额支持以实现东西协同★。目前★,智能计算中心的主要投资模型包括政府出资项目★、企业独立投资★、以及大学或研究机构的投资★。有些中心甚至通过向银行贷款来购买GPU★,阿里巴巴★、腾讯和百度等公司为这些贷款提供担保。
然而,尽管对十万GPU集群的需求在增加★,LLM市场却显得冷静。根据《经济观察报》的统计,截至2024年10月9日★,中国网络安全管理局已审批188个生成AI模型★,但其中超过30%的模型未披露进一步进展★。仅仅约10%的模型仍在积极训练★,而近一半的模型已转向AI应用开发。这些迹象显示,预训练大模型的需求逐渐集中,国内市场的复杂性也超过了其海外 counterparts。
根据Chindata Group(一个大规模数据中心解决方案的运营商)的透露,他们对智能计算持乐观态度,预计到2027年将会出现爆炸式的需求增长,预计到2030年,所有推理需求都将由大型数据中心满足。截止到2024年中,国内已完成或在建的智能计算中心已超过250个,其相关招标事件在2024年上半年达到791个,同比增加407.1%。
未来,企业与政府应共同努力,推动智能计算中心的建设与优化,并建立合理的资源配置机制,以期达到更高效的计算能力利用率★,促进AI行业的健康可持续发展。返回搜狐,查看更多
国内市场面临计算能力瓶颈,生态系统不完整,以及囤积GPU等行为造成的矛盾★,形成了计算能力短缺与资源利用不足的悖论★。这是因为将GPU填充到数据中心和为大模型训练构建计算集群是两回事★。根据AsianFin的数据★,在上半年,中国智能计算中心部署的17亿个GPU中,仅5600万个被有效使用,造成32%的利用率★。其他数据显示,行业计算基础设施的平均部署率低于60%。这一资源的低效利用引起了各方的关注。
总的来说,在这场对AI计算能力的战略性投资与建设中★,人们需要警惕潜在的浪费和资源错配。业内专家指出,在大型语言模型的训练过程中,GPU的使用效率尚未得到充分挖掘;许多企业只能聚焦于如何更科学★、更高效地利用现有资源,从而破解计算能力的短期难题。AI的快速发展★,也为自媒体创业带来了新的可能,利用简单AI等AI产品,不仅能够智能预测和解析数据★,还可以帮助企业在内容创作和生产中获得更高的效率和更好的交互体验。
随着OpenAI推出ChatGPT以来★,尽管大型语言模型(LLM)的开发节奏似乎减缓,但这可能是下一个增长浪潮前的沉寂★。基于Scaling Law的信念★,像xAI★、Meta和OpenAI等公司正在积极谋划100★,000个GPU或更多的计算集群。例如★,Elon Musk在七月宣布,其位于田纳西州孟菲斯的超级计算集群开始使用100,000个Nvidia H100 GPU★,称之为世界上最强大的AI训练集群。两个月后★,Musk透露该集群名为Colossus,将再增加10万个GPU,其中5万个为更先进的Nvidia H200★。
随着越来越多的地方政府增加对这些中心的投资★,以推动基础设施建设,智能计算中心的建设受到了广泛关注与支持。百度AI计算部负责人王彦鹏指出,现阶段,十万个GPU的集群已成为大型模型竞争的门槛。从技术角度来看,大模型所需的计算能力大致可以通过模型大小和所需数据量的乘积来推算。以GPT-4为例跪求尊龙账号登录★,其参数达到万亿级别,使用大约2万至3万GPU的集群进行训练。根据Scaling Law的理论,GPT-5的集群预计需要十万GPU★,参数量可能增加3至5倍。
随着计算中心面临各种挑战,公司的投资决策需要科学谨慎★,不能跟风盲目建设★。尤其是在资源配置不合理的情况下跪求尊龙账号登录★,国家对多种新政策的引导显得尤为重要。比如,工业和信息化部实施的“大数据中心绿色低碳发展行动计划”已对各地的布局、能效★、水利使用及绿色电力使用设定了严格规定并呼吁淘汰高能耗型项目。
目前,拥有GPU并不意味着就能获得进行大规模模型训练所需的计算能力。这种计算能力的获得,依赖于64、128★、256等服务器群的集群,这些服务器通常配备8个GPU。而对于希望开展基础大型模型训练的制造商来说,几千个GPU的集群已成为基础标准。无论是美国的OpenAI 和Elon Musk的xAI,还是国内的企业,都在计划构建数万个GPU的集群。
在2023年★,随着大型语言模型(LLM)的火热发展,GPU的需求暴涨★,甚至出现了许多黄牛在社交圈中发布急购,30%定金,只有线年,这一画风却悄然转变★,市场状况回归理性,如今的买家可以看到高品质,立即可购价优的广告,曾经在二手市场上水涨船高的GPU价格开始回落。
以Nvidia的H100系统为例★,官方定价约为30万美元★,但在灰色市场中曾一度高达超过300万元人民币★,吸引了大量买家★。不过,随着新的产品如基于Blackwell的GB200推出,计算能力单位成本下降,二手市场的价格现已趋于230万元,盈利空间已不如以往★。
训练Grok3预计将在三到四个月内完成,目标是在12月推出。与此同时,OpenAI与其★“亲密合作伙伴”微软之间关于计算能力交付的问题也曾引发争议。两者之前合作开发的一项重要数据中心项目StarGate预计投资超过1150亿美元,并将容纳数百万个GPU。尽管如此★,OpenAI的首席执行官Sam Altman似乎对微软的合作速度并不满意,经过6.6亿美元的融资后,OpenAI与甲骨文(Oracle)达成协议,租赁位于德克萨斯州的新数据中心跪求尊龙账号登录★,未来也将在这里容纳数十万的Nvidia GPU。