Meta 的 AI 超级计算机——迄今为止的最大的 NVIDIA DGX A100 客户系统——将为 Meta AI 研究人员提供 5 exaflops(百亿亿次) 的 AI 性能,并且配备先进的 NVIDIA 系统、InfiniBand 网络和软件,可实现数千块 GPU 的优化。
Meta 平台对 NVIDIA 大加赞赏,之所以选择NVIDIA的技术,是因为他们认为这是迄今为止最强大的研究系统。
1月25日发布的AI 研究超级群集 (AI Research SuperCluster 简称RSC) 已经在训练新模型在推动 AI 发展。
完成部署后,Meta 的 RSC 有望成为安装 NVIDIA DGX A100 系统的最大客户。
Meta在一篇博客中说道:“我们希望 RSC 能够帮助我们构建全新的 AI 系统,例如它可以为大规模群体(其中每个人讲不同的语言)提供实时语音翻译支持,以便他们可以在参与研究项目时开展无缝协作,也可以一起畅玩 AR 游戏。”
训练 AI 的大型模型
RSC 将在今年晚些时候完全构建完毕,然后,Meta 计划将其用于训练包含超过万亿参数的 AI 模型。这可以推动自然语言处理等领域的发展,助力处理实时识别不良内容等工作。
除了大规模性能之外,Meta 还能以极高的可靠性、安全性、隐私性和灵活性,处理“各种各样的 AI 模型”,用作 RSC 的关键标准。
Meta 的RSC包含数百个 NVIDIA DGX 系统,这些系统由 NVIDIA Quantum InfiniBand 网络相连,来加速其 AI 研究团队的工作。
原理揭秘
这一新型 AI 超级计算机目前使用了 760 个 NVIDIA DGX A100 系统作为其计算节点。它们总共包括 6080 块 NVIDIA A100 GPU,这些 GPU 通过 NVIDIA Quantum 200Gb/s InfiniBand 网络相连,可提供 1895 petaflops(每秒千万亿次浮点运算) 的 TF32 性能。
尽管新冠肺炎 (COVID-19) 带来了挑战,在构建Meta RSC 的过程中,借助 NVIDIA DGX A100 技术,仅用了 18 个月,RSC就从一个纸上的想法变为一台可以正常运行的 AI 超级计算机(如以下视频所示)。
[插入 Meta 视频]
链接:https://pan.baidu.com/s/1ATr_CzWxM6VMOjELWRfTHw
提取码:gb85
20 倍性能提升
这是 Meta 第二次选择 NVIDIA 技术作为研究基础设施的基础。2017 年,Meta 使用 22000 块 NVIDIA V100 Tensor Core GPU 构建了第一代 AI 研究基础设施,该基础设施可每天处理 35000 项 AI 训练任务。
Meta 的早期基准测试表明,与上一代系统相比,RSC 训练大型 NLP 模型的速度要快达 3 倍,运行计算机视觉作业的速度要快达 20 倍。
在于今年晚些时候推出的第二阶段中,RSC 将扩展至 16000 块 GPU,Meta 认为这些 GPU 可提供高达 5 exaflops 的混合精度 AI 性能。Meta 打算扩展 RSC 的存储系统,以每秒 16 TB 的速度提供高达 1 EB 的数据。
可扩展架构
NVIDIA AI 技术适用于各种规模的企业。
NVIDIA DGX 包含全套 NVIDIA AI 软件,能够轻松地从单个系统扩展至基于内部私有云或托管供应商运行的 DGX SuperPOD。客户还可以通过 NVIDIA DGX Foundry 租赁 DGX 系统。
[插入 DGX视频]
链接:https://pan.baidu.com/s/1hzzlL4mbmNckyhMoanHGMw
提取码:6ppu
SI3457CD品牌:Vishay/威世年份:2022产地:中国SI3457CD标签验标回复遴选:1、邓润华:标签无异常,可以2、···
GRM31CR61C476ME44L品牌:Murata/村田年份:2021产地:日本GRM31CR61C476ME44L标签验标回复遴选:1、邓润华···
BMI270品牌:Bosch Sensortec/博世传感年份:2024产地:菲律宾BMI270标签验标回复遴选:1、邓润华:博世标签···
STM32G031K8U6品牌:STMicroelectronics/意法半导体年份:2024STM32G031K8U6标签验标回复遴选:1、邓润华:···
DG9431DV-T1-E3品牌:Vishay/威世年份:2005产地:中国DG9431DV-T1-E3标签验标回复遴选:1、邓润华:标签无···
···
CW2217BAAD品牌:CEllWISE/赛微年份:2024CW2217BAAD标签验标回复遴选:1、邓润华:可以2、方洪涛:看好3、···
FODM3063R2年份:2021产地:中国FODM3063R2标签验标回复遴选:1、方洪涛:看标没事2、黄德华:仙童的,整体···
1050281001品牌:Molex/莫仕年份:2022产地:中国1050281001标签验标回复遴选:1、邓润华:工厂标签,可以2···
TPS63060DSCR品牌:Texas Instruments/德州仪器年份:2021产地:马来西亚TPS63060DSCR标签验标回复遴选:1、···
MAX20402AFLE/VY+T品牌:Analog Devices/亚德诺年份:2023产地:中国台湾MAX20402AFLE/VY+T标签验标回复遴选···
TB67H45FNG品牌:Toshiba/东芝年份:2022TB67H45FNG标签验标回复遴选:1、方洪涛:看货为主,标重打,但不是···
HPG12P14SRT153T品牌:Amphenol Advanced Sensors年份:2020产地:中国HPG12P14SRT153T标签验标回复遴选:1···
···
···
MIMX8MM6DVTLZAA品牌:NXP Semiconductors/恩智浦年份:2023MIMX8MM6DVTLZAA标签验标回复遴选:1、供应商判···
A1393SEHLT-T品牌:Allegro/急速微年份:2024产地:中国A1393SEHLT-T标签验标回复遴选:1、黄德华:可以2、···
B82793C0475N265品牌:TDK EPCOS年份:2023产地:中国B82793C0475N265标签验标回复遴选:1、方洪涛:看可以···