开云(中国)Kaiyun·官方网站 登录入口
开云体育意味着数据量的指数级增长-开云(中国)Kaiyun·官方网站 登录入口

欢迎访问

开云(中国)Kaiyun·官方网站 登录入口
你的位置:开云(中国)Kaiyun·官方网站 登录入口 > 新闻 > 开云体育意味着数据量的指数级增长-开云(中国)Kaiyun·官方网站 登录入口

开云体育意味着数据量的指数级增长-开云(中国)Kaiyun·官方网站 登录入口

时间:2025-04-11 08:47 点击:130 次

开云体育意味着数据量的指数级增长-开云(中国)Kaiyun·官方网站 登录入口

  11 月 6 日,在百度智能云工夫沙龙时期,百度凸起系统架构师、百度智能云 AI 打算部肃肃东谈主王雁鹏示意,寰球科技巨头正在积极打造 10 万卡集群,冲刺 AGI;而国内构建 10 万卡集群则面对着三浩劫题:跨地域部署、多芯混训以及集群安详性。这些难题包括工夫和工程上的多重挑战。王雁鹏先容,进程多年的工夫积存和产业实践,百舸 4.0 已大略收场 10 万卡集群的高效管制,并通过 HPN 高性能集会、自动化混训切分计谋、自研团结通讯库等一系列居品工夫革命,惩处了上述难题。

  为什么需要 10 万卡集群?

  大模子竞赛骨子是算力竞赛

  自 OpenAI 发布 Chatgpt 两年来,大模子产业发展的脚步似乎慢了。联系词大洋此岸,xAI、Meta、OpenAI 等繁密科技巨头齐在积极布局 10 万卡乃至更大领域的智算集群。

  当地时分 7 月 22 日,马斯克书记位于好意思国田纳西州孟菲斯市的孟菲斯超等集群运行干与磨砺。该集群配备了 10 万个英伟达 H100 GPU,被称为“全国上最坚毅的 AI 磨砺集群”。两个月后,马斯克在 X 平台上书记该集群名为“Colossus(巨东谈主)”,将在改日几个月内再增多 10 万颗 GPU,其中 5 万颗将是更为先进的英伟达 H200。Grok 3 大模子正在超算中心中进行磨砺,磨砺瞻望在三到四个月内完成,谋略是在本年 12 月发布 Grok 3。

  另一家科技巨头 Meta 也不示弱。Meta 首席推论官马克 扎克伯格在第三季度财报电话会议上瓦解,Llama 4 模子正在一个由 10 万片 H100 GPU 构成的集群上进行磨砺,并瞻望在明岁首次推出。为了复古大模子,Meta 瞻望本年度成本支拨将高达 400 亿好意思元,比旧年增多了跳跃 42%。扎克伯格在财报电话会议中强调,来岁将进一步加大对 AI 基础技艺的投资。

  而大模子领头羊 OpenAI 与微软的“黄金搭档”却因为打算集群的录用进程产生了不对。此前微软与 OpenAI 合营共建一个代号为“星际之门”的巨型数据中心名目。这个名目瞻望成本跳跃 1150 亿好意思元,旨在容纳一台面向 AI 的配备数百万块 GPU 的超等打算机。据报谈,微软打算到来岁年底向 OpenAI 提供约 30 万个英伟达最新的 GB200 图形处理器。联系词面对紧追不舍的敌手,阿尔特(300825)曼似乎对微软的速率不适意。完成 66 亿好意思元融资后,OpenAI 运行寻求愈加颓靡的数据中心和云工作花式并与甲骨文达成了左券,将在德克萨斯州的一个新数据中心租用工作器。该数据中心被誉为全国上最大的数据中心之一,改日可能容纳数十万个英伟达 AI 芯片。

  王雁鹏示意,从好意思国科技企业的豪恣布局 10 万卡不错看得出,Scaling Law 定律现在看仍然有用。公开数据自大,GPT-3 的磨砺数据集包含 3000 亿个 token。而 GPT-4 的磨砺数据集包含约 13 万亿个 token。模子的握续升级,意味着数据量的指数级增长。而磨砺数据量的升级对打算集群也建议了挑战。10 万卡的磨砺集群恰是为了讲理模子参数增长所带来的高算力需求。

  10 万卡集群难在哪?

  跨地域部署、多芯混训、集群安详性是最大挑战

  10 万卡虽好,但部署如斯大领域的算力集群会面对很大挑战。

  举例,好意思国老旧的电网就无法跟上大模子的要领。由于集群耗电量强大,好意思国的繁密半据中心齐碰到了电网崩溃。一位微软工程师曾示意,为 GPT-6 搭建 10 万个 H100 磨砺集群时,所有电网发生了崩溃。据估算,一个 10 万卡集群每天的耗电量达到 300 万度,很是于北京市东城区一天的住户用电量。此外,10 万卡集群需要粗拙 10 万浅近米,很是于 14 个步调足球场的面积。淌若念念在单一建造中部署这样大的集群,将面对选址贫乏和限定死心等挑战。

  出于上述原因,好意思国科技公司的超大集群大多弃取跨地域部署。为了冲破单一数据中心的领域死心,谷歌和微软已入辖下手将大领域模子磨砺膨胀至多个数据中心园区。其中,谷歌的 Gemini 1 Ultra 模子已当先收场多半据中心磨砺。微软打算将其在凤凰城的 AI 磨砺基地膨胀至 10 座建造,自建 24 个数据中心,在多个超大领域园区互联,实施隐蔽全好意思的大领域诀别式磨砺。

  王雁鹏先容,由于电网配电死心、占地空间大等原因,十万卡集群需要跨楼、跨园区,致使跨城部署。而这种跨地域部署例必会增多集会通讯的复杂性。跨地域通讯需要惩处长距离通讯蔓延、拥塞适度等工夫问题。

  国内企业构建 10 万卡集群还面对着一个履行的贫乏:芯片。国内企业面对算力供应不安详的挑战,较难构建单一大领域磨砺集群。履行情况是,企业里面会出现合并厂商不同代际芯片,或者不同厂商芯片共存的情况。这些芯片如何进行混部磨砺,同期保证混部磨砺的后果亦然难题。

  此外,跟着芯片集成度的束缚提高,芯片的故障率也会相应高涨,英伟达 H 系列芯片的故障率比 A 系列高 3-4 倍。而况算力集群领域越大,其故障率就越高。按照 H 系列芯片的故障率水平,十万卡集群每 20 分钟就会出现故障。较高的故障率对安详性磨砺保险建议了更高的条款。

  如何破局?

  如何惩处跨地域部署、多芯混训、集群安详性是国内 10 万卡部署的三浩劫题?王雁鹏先容,以百度为代表的厂商正在破解这些难题。

  在跨地域方面,针对由于传输距离变长所产生的高蔓延,百舸 4.0 照旧构建了十万卡级别的超大领域 HPN 高性能集会,通过提供更高效的拓扑结构、更优的多旅途负载平衡计谋及通讯计谋,大略收场几十公里的跨地域通讯。同期,在通讯后果上,通过优化的拥塞适度算法、团结通讯算法计谋,将带宽有后果升迁至 95%,收场了全齐无挫折。临了,通过 10ms 级别超高精度集会监控,保险了集会安详性。

  在多芯混训方面,百舸大略将不同场所、不同领域的异构算力进行合伙管制,构建起多芯资源池。当业务提交使命负载时,可自动进行芯片选型,依据集群剩余的芯片资源,弃取性价比最高的芯片来运行任务,从而最大化地期骗集群的剩余资源。最终,可收场高达 95% 的万卡多芯混杂磨砺遵循。

  在集群安详性方面,百舸提供全面的故障会诊技能,不错快速自动侦测到导致磨砺任务荒谬的节点故障。同期,百度自研的 BCCL(百度团结通讯库),大略快速定位故障同期提供自动化的容错才略,重新调养任务到健康节点,连续完成磨砺,现在照旧将故障复原时分从小时级裁减到分钟级。

  王雁鹏示意,公有云是企业进行大模子磨砺的主流花式。在 10 万卡集群出现之前,为讲理企业大模子的磨砺需求,云厂商往往遴荐工作一个企业,搭建一个集群的花式。联系词,这种花式存在昭着裂缝,即每个集群齐是为特定企业工作,在企业的磨砺任务不处于岑岭期时,集群中的打算资源可能会处于闲置情景,变成资源的糜掷。而当 10 万卡集群出现后,云厂商就不错依靠这个大型集群为繁密企业提供工作,把柄不同企业的需求动态分派打算资源,这样不仅提高了资源期骗率,也裁减了企业使用云工作的成本,极地面增强了云厂商在阛阓中的竞争上风。

  “通过跨地域部署、多芯混训等工夫开云体育,云厂商不错有用裁减运营及算力成本,从而为企业客户带来愈加实惠的云工作。”王雁鹏说。

回到顶部
服务热线
官方网站:www.hzshlsy.com
工作时间:周一至周六(09:00-18:00)
联系我们
QQ:16568350533
邮箱:1ea62e34@outlook.com
地址:新闻科技园4537号
关注公众号

Powered by 开云(中国)Kaiyun·官方网站 登录入口 RSS地图 HTML地图

Copyright Powered by365建站 © 2013-2024
开云(中国)Kaiyun·官方网站 登录入口-开云体育意味着数据量的指数级增长-开云(中国)Kaiyun·官方网站 登录入口