电子设计应用基础报告 电子线路板项目可行性研究报告

小编 2024-12-19 电子应用 23 0

电子线路板项目可行性研究报告

电子线路板项目可行性研究报告

核心内容: 电子线路板项目投资环境分析,项目背景和发展概况,项目建设的必要性,行业竞争格局分析,行业财务指标分析参考,行业市场分析与建设规模,项目建设条件与选址方案,项目不确定性及风险分析,行业发展趋势分析

单位名称: XX电子有限公司

项目名称: 电子线路板项目

项目投资额: 13000.00 万元

项目建设性质: 新建项目

主要建设规模及内容: 项目总投资13000万元,对原有两栋厂房进行改建,占地面积约8000平方米,总建筑面积约35000平方米。项目建成后,预计年生产24万平方米双面线路板。

关联报告

电子线路板项目建议书

电子线路板项目申请报告

电子线路板项目商业计划书

电子线路板项目建设实施方案

电子线路板项目可研报告可行性报告

电子线路板项目市场调研及前景预测分析报告

报告说明: 本报告是针对行业投资可行性研究咨询服务的专项研究报告,此报告为个性化定制服务报告,我们将根据不同类型及不同行业的项目提出的具体要求,修订报告目录,并在此目录的基础上重新完善行业数据及分析内容,为企业项目立项、上马、融资提供全程指引服务。

企业投资项目可研报告目录大纲:

一、概述

(一)项目概况

(二)项目单位概况

(三)编制依据

(四)主要结论和建议

二、项目建设背景、需求分析及产出方案

(一)项目建设背景

(二)规划政策符合性

(三)项目建设必要性

(四)企业发展战略需求分析

(五)项目市场需求分析

(六)项目建设内容、规模及产出方案

三、项目选址与要素保障

(一)项目选址

(二)项目建设条件

(三)要素保障分析

四、项目建设方案

(一)技术方案

(二)设备方案

(三)工程建设方案

(四)建设管理方案

五、项目运营方案

(一)生产经营方案

(二)安全保障方案

(三)运营管理方案

六、项目投融资与财务方案

(一)投资估算

(二)盈利能力分析

(三)财务可持续性分析

七、项目影响效果分析

(一)经济影响分析

(二)社会影响分析

(三)生态环境影响分析

(四)资源和能源利用效果分析

八、项目风险管控方案

(一)风险识别与评价

(二)风险管控方案

九、研究结论及建议

(一)主要研究结论

(二)问题与建议

十、附表、附图和附件

电子行业专题研究报告:Scaling law依然有效,自研AI芯片后劲十足

(报告出品方:华创证券)

一、大模型 Scaling 仍在持续,推动大规模并行计算

(一)GPU 与深度学习相辅相成,开启新一轮 AI 浪潮

深度学习开启新一轮 AI 浪潮,大模型接续发力。2006 年图灵奖得主 Hinton 在《Science》 提出了深度神经网络,掀起了基于深度学习的新一轮 AI 浪潮,奠定了大模型发展的基 础。深度学习兴起的背景是计算能力的提高和大数据时代的到临,能够让机器自动地从 原始数据中学习。从原始数据中提取高层次、抽象的特征是非常困难的。深度学习另辟 蹊径,让计算机通过比较简单概念来构建复杂的概念,能够让计算机从经验和数据中得 到提高的技术,在计算机视觉、自然语言处理等领域取得了一定的成果。深度学习早期 主要用于解决机器学习中的表示学习的问题,但是由于其强大的能力,逐渐被用于解决 一些通用人工智能的问题,如推理、决策等,当前主流的大模型技术本质上是由深度学 习的延伸发展而来的。

深度学习训练、推理过程需要大量并行运算。深度学习广泛应用的模型是神经网络,主 要是因为神经网络能够使用反向误差传播算法,可以很好地解决贡献度问题。深度学习 狭义上就是很多层神经网络。深度神经网络通过训练以后用于推理任务,其中训练过程 主要是让模型通过输入的数据不断学习,即调整模型的参数,包含前向传播和反向传播 2 个过程;推理过程主要是指训练好的模型对输入数据进行预测,仅包含前向传播过程。 不论是前向传播还是反向传播均需要大量的并行运算。

GPU 采用高度并行架构,适用于深度学习大规模并行计算。CPU 用于处理操作系统、 应用程序运行中各类计算任务,需要很强的通用性;GPU 可以更高效地处理并行运算任 务。从架构上看,CPU 与 GPU 主要存在几大区别: (1) 并行处理能力:CPU 拥有较少的计算单元(ALU),但是具有复杂的控制单元 (Control),擅长逻辑控制和串行计算。GPU 拥有大量的计算单元(ALU)和 线程(Thread),大量 ALU 可以实现大的计算吞吐量,超配线程可以同时处理 多个任务,能够较好处理内存延时问题,从而专注于大规模并行计算。 (2) 内存架构:CPU 拥有较大的 Cache,可以缓存大量后续可能需要访问的数据, 从而降低读取数据的时间。GPU 缓存很少,且其缓存目的与 CPU 不同,是为更 多的线程服务的,如果有很多线程需要访问一个相同的数据,缓存会合并访问 需求然后去访问 DRMA,获取数据后再发到对应的线程。GPU 拥有更多的寄存 器能够支持大量的线程。 (3) 指令集:CPU 的指令集通用性更强,适合执行各类任务;GPU 的指令集主要用 于图形处理和通用计算。CPU 可以在不同的指令集之间快速切换,而 GPU 只是 获取大量相同的指令并进行高速推送。 (4) 功耗和散热:CPU 功耗相对较低,散热要求也相对较低;GPU 由于其高度并行 特性,其功耗通常相对较高,需要更好的散热系统来保证稳定运行。

GPU 追求高吞吐量,CPU 追求低延时。GPU 与 CPU 的架构之间的差异是因为追求不 同的目标。GPU 的设计目标是最大化吞吐量,相比单个任务执行的速度,其更关心多任 务的并行度,允许一次将尽可能多的任务送到 GPU,然后通过大量的 Core 并行处理任 务。CPU 以序列化地方式处理任务,其目标是在尽可能低的延迟下完成任务,同时保持 任务之间快速切换的能力。

(二)AI 大模型掀起新一轮 AI 技术变革,大规模分布式 AI 算力需求迫切

AI 算力需求增长迅速,拉动大规模分布式 AI 算力基础设施需求快速增长。深度学习掀 起新一轮 AI 浪潮,算法、算力和数据三大要素协同迭代,推动 AI 模型能力不断提升。 在过去十多年时间里,受限于摩尔定律,CPU/GPU/TPU 等处理器的算力增长速度远不 及 AI 算力需求增长速度。面对迅速增长的 AI 算力需求,大规模分布式计算能够将复杂 的任务分解到单个处理器上,用以解决单芯片性能不足的问题。未来随着大模型的广泛 使用,大规模分布式 AI 算力需求有望持续高增长。

深度学习算法并行运行三大方式:数据并行、流水线并行和张量并行。 (1)数据并行:数据并行可以解决单节点算力不足的问题。该并行方式使用多个并行 设备来加速训练,每个设备上部署相同的模型,将训练数据划分到不同设备上。各设备 利用本地训练数据进行训练,完成前向传播和反向传播。在反向传播过程中,不同设备 上的模型会生成局部梯度,需要对不同设备上相对应的局部梯度进行聚合,计算平均梯 度,然后利用平均梯度更新模型参数,从而确保各设备上模型的参数是一致的。该聚合 过程往往由集合通信 AllReduce 操作完成,通信的数据量规模和模型参数规模成正比, 对于千亿、万亿规模参数的大模型来说通信数据量是很大的。 (2)流水线并行:深度神经网络由多层神经网络组成,大模型广泛采用的 Transformer 模型架构也是如此。流水线并行是将多层神经网络切分成多个阶段,再把不同阶段映射 到不同设备上,使得不同设备去计算神经网络的不同部分。正向传播时,每个阶段的计 算节点完成计算之后将结果传送到下一阶段的计算节点,同时,下一阶段的计算节点接 收上一阶段计算节点的结果并开始计算;反向传播时,当最后一个计算节点的梯度算完 以后,将结果发送给上一阶段计算节点,同时,上一阶段计算节点接收最后一个阶段计算节点梯度的结果,并进行本阶段的梯度计算,然后继续往前传播。该并行策略让每个 设备只需计算模型的一部分,可以解决单计算节点内存不足的问题,不过其需要不同计 算节点之间进行数据传输,传输的内容包括正向计算的激活值和反向计算的梯度值。这 种通信在一个迭代里至少会发生几十次,但通信量一般不大,对网络的性能要求相对较 低。 (3)张量并行:该并行方式是联合多个计算节点同时做一个张量运算,如:矩阵乘法。 单个计算节点对局部的张量进行计算,然后对多个计算节点做全局的 AllReduce 同步。 张量计算结果的大小不仅和模型参数规模有关,还和训练使用的数据 batchsize 相关,通 常都非常大,并且在一次迭代里会发生很多 AllReduce。因此,张量并行对网络带宽的 需求最大。

考虑三大并行策略的特点,在训练大模型时通常混合采用三种并行策略。首先,单节点 内部多张 GPU 卡之间优先采用张量并行,充分利用单节点内部 GPU 之间 NVLink 高带 宽通信能力。其次,当模型过大时,超出了单节点的内存空间,因此在多节点之间使用 流水线并行策略。最后,为了进一步加快模型训练速度,使用数据并行策略。

二、解构英伟达 AI 布局,探寻 AI 产业发展方向

AI 算力集群通常由 AI 服务器、高速交换机构成。AI 加速器是 AI 算力的最小单元,一 台服务器通常包含多个加速器。为了方便管理,多台服务器组成一个机柜,并通过架顶 交换机进行互连。在架顶交换机满载的情况下,可以通过在架顶交换机间增加骨干交换 机(Spine Switch)进一步接入新的机柜。最终,完成对成千上万个加速器互连,利用 上文所述的三种并行策略:张量并行、流水线并行和数据并行来提供大规模分布式 AI 算力,容纳更大的模型和数据,加快训练和推理速度。在 AI 大模型训练过程中,前向 计算、反向计算和通信占据了主要时间,因此为了加快训练速度需要在算力、运力上同 步进行提升。

英伟达在系统和网络、硬件和软件进行全方位布局,构建深厚竞争壁垒。在计算芯片方 面,英伟达布局了 CPU、GPU 以及 CPU-GPU SuperChip 等产品;在网络领域,英伟达 构建了两种类型的网络:一种是 NVLink 总线域网络,用于算力 Scale Up 扩展;另一种 是 InfiniBand 和 Ethernet 网络,用于算力 Scale Out 扩展,其中基于 InfiniBand 的 Quantum 产品用于构建 AI Factory,基于 Ethernet 的 Spectrum 用于构建 AI Cloud。此外, 英伟达开发了以 CUDA 为核心的软件架构,与其硬件进行配套使用,从而更好地发挥 硬件的性能。英伟达凭借其在系统和网络、硬件和软件的全方位布局,使其在 AI 生态牢牢占据主导地位。

(一)GPU 算力提升之路:微结构提升或有望成为算力提升主要途径

(1)CUDA Core 阶段:2010 年,英伟达在 Fermi 架构中,英伟达对处理核心进行了改 进和调整,引入了新的设计特性如:更好的调度和管理机制、更高效内存访问以及更多 的可编程功能。在 Fermi 架构之后,硬件层面上 GPU 的处理核心为 CUDA Core,软件 层面上使用 CUDA(计算统一设备架构)充分发挥 GPU 的性能。CUDA Core 主要用于 并行计算,理论上 CUDA Core 越多,算力也就越强,因此在随后的 Kepler、Maxwell 架 构上大量增加 CUDA Core。 (2)Tensor Core 阶段:2016 年,英伟达推出 Pascal 架构,其 GPU 开始朝着深度学习 方向发展;2017 年,推出 Volta 架构,新引入了 Tensor Core 模块,该模块可实现混合精 度计算,动态调整算力,从而在保持准确性和提供更强安全性的同时提高吞吐量。在随 后的每一次架构中不断对 Tensor Core 进行优化。 (3)Transformer 引 擎 阶 段 :2022 年 , 英 伟 达 推 出 Hopper 架 构 , 并 引 入 了 Transformer 引擎,可以显著加快 AI 算力,用于应对日益增加的模型参数。H100 的 Transformer Engine 使用 NVIDIA 第四代 Tensor Core 技术,旨在加速由 Transformer 作为 基础模块构建的模型训练速度。这些 Tensor Core 可以应用混合的 FP8 和 FP16 格式,从 而显著加速 Transformer 的 AI 计算。2024 年,英伟达推出 Blackwell 架构,推出了第二 代 Transforer 引擎,将定制的 Blackwell Tensor Core 技术与 NVIDIA TensorRT-LLM 和 NeMo 框架创新相结合,可以加速大语言模型和专家混合模型的推理和训练。

通过对英伟达历代 GPU 发展历程分析,我们可以知道其性能主要提升来自以下几个方 面:(1)CUDA Core、Tensor Core 等新架构的提出;(2)CUDA Core、Tensor Core 等核 心数的提升;(3)专门为大语言模型和混合专家模型设计的 Transformer 引擎。以 H100 相比 A100 的进步为例,H100 的提升源自以下几个方面:(1)H100 配备 132 个 SM,比 A100 的 108 个 SM 增加了 22%;(2)采用新的第四代 Tensor Core,每个 H100 SM 的速 度提升了 2 倍;(3)Tensor Core 采用新的 FP8 数据格式和相应的 Transformer 引擎将性 能提升 2 倍;(4)H100 的时钟频率将性能提升 1.3 倍。究其背后的原因,我们认为是随着深度学习成为 AI 的主流技术,Transformer 成为大模型的基础架构,AI 模型并行计算 的基础范式日渐趋于稳定,从而可以在硬件层面上针对广泛使用的算法进行微架构设计, 推动算力不断提升。未来随着 AI 技术逐步趋于成熟,相关架构可能会趋于统一,届时 硬件层面上针对算法定制化设计或许是 AI 芯片算力提升的主要方向。

(二)高速互连:构建全系列高速互连系统,打造 AI 超级计算机

单芯片算力和内存有限,无法承载大模型,通过多种互连技术将多颗算力芯片互连在一 起提供大规模的算力、内存。GPU 互连主要分为业务互连、Scale Up 网络互连和 Scale Out 互连,各自承载的业务流各不相同,具体细分来看: 业务网络互连:承载的是诸如需要计算的输入数据,输出结果,以及在各类存储系统中的模型参数、checkpoint 等。需要进行极大范围的互连,并且和云上的存储、业务接口 等互通,采用以太网技术,通常支持各类 RDMA。 Scale Out 网络互连:训练的 DP、PP 并行计算切分流程,通常要把集群横向扩展到超多 的 GPU 机柜,当前的训练规模已经发展到 10w 卡,目前国际的标准趋势是,采用专门 优化的以太网技术 UEC(Ultra Ethernet Consortium)协议。 Scale Up 网络互连:以推理的大显存并行计算流量和训练的张量并行(TP)以及专家并 行(MoE)流量为主,有在网计算的需求(可以对 All reduce 在 Switch 节点上进行加 速)。在一定规模内互连,由于其对于性能的超高要求,采用专门设计的协议,比如 NVIDIA 的 NVlink 及 NVSwitch 技术,另外一个近期成立的协议联盟是 UALink(Ultra Accelerator Link), 由 AMD、 Broadcom、Cisco、Google、HPE、Intel、Meta 和 Microsoft 共同发起,目前在行业内得到了广泛响应。

1、NVLink:从内部高速互连走向超级网络

(1)NVLink:支持 GPU 之间的高速数据传输和协同工作

随着 AI 算力需求不断增长,多 GPU 并行成为一种趋势,可以支撑大模型的训练和推理。 对于多 GPU 系统而言,一个关键的挑战是如何实现 GPU 之间的高速数据传输和协同工 作。然而,传统的 PCIe 总线由于带宽限制和延迟问题,已经无法满足 GPU 之间通信的 需求。2018 年,英伟达推出了 NVLink 用于解决该问题。它允许 GPU 之间以点对点方 式进行通信,绕过传统的 PCIe 总线,实现了更高的带宽和更低的延迟,为多 GPU 系统 提供更高的性能和效率。单个 GPU 的 NVLink 带宽从 Pascal 架构的 160GB/s,提升到 Blackwell 架构的 1800GB/s。

(2)NVSwitch 芯片:提高通信速度,加速计算过程

第一代 NVSwitch 与英伟达 V100 GPU 和第二代 NVLink 一起推出,可以连接多个 NVLink,实现在单个机架内和多个机架间以 NVLink 的最高速度进行多对多 GPU 通信。 自第三代 NVSwitch 起,NVSwitch 芯片具备 SHARP 加速功能,可以提升通信效率、加 快计算过程。

以 H200 八卡服务器为例,如果不使用 NVSwtich 芯片,成本会降低一些,但是每个 GPU 必须将 900 GB/s 的连接分成 7 个专用的 128 GB/s 的连接,与其他 7 张 GPU 进行点 对点连接。这意味着 GPU 通信的速度取决于通信的 GPU 数量。若借助 NVSwitch 芯片, 服务器中的每个 GPU 都能以 900 GB/s 的速度与其他任何 GPU 同时进行通信。 NVSwitch 是无阻塞的,使得 GPU 之间通信的峰值速率与通信的 GPU 数量无关。

NVSwitch3 芯片新引入了 SHARP 功能,可以对多个 GPU 单元的计算结果进行聚合和更 新,从而减少网络数据包并提高计算性能。

(3)NVLink 交换机:构建 NVLink 网络

2022 年,英伟达将 NVSwitch 芯片独立出来,并制作成 NVLink 交换机,可以在单个机 架内和多个机架间连接成 NVLink 网络,可以解决 GPU 之间的高速通信带宽和效率问 题。每个服务器都有独立的地址空间,为 NVLink 网络中的 GPU 提供数据传输、隔离 和安全保护。当系统启动时,NVLink 网络通过软件 API 自动建立连接,并可以在运行 过程中更改地址。

InfiniBand 网络和 NVLink 网络是在高性能计算和数据中心应用中使用的两种不同的网 络技术。它们有以下区别: 架构和设计:InfiniBand 网络是一种采用多通道、高速串行连接的开放标准网络技术, 支持点对点和多播通信。NVLink 网络是由英伟达(NVIDIA)开发的专有技术,旨在实 现 GPU 之间的高速直连。 应用场景:InfiniBand 网络广泛应用于高性能计算集群和大规模数据中心,主要用于 Scale Out 网络。NVLink 网络主要用于大规模 GPU 集群、HPC 等领域,主要用于 ScaleUp 网络。 带宽和延迟:InfiniBand 网络提供高带宽和低延迟的通信,提供更高的吞吐量和更短的 传输延迟。NVLink 网络为 GPU 之间提供更高的带宽和更低的延迟,以支持快速数据交 换和协同计算。 对于通信强度较高的工作负载,NVLink 网络的性能优势非常显著。在 HPC 中,Lattice QCD 和 8K 3D FFT 等工作负载获得了显著优势,因为 HPC SDK 和 Magnum IO 中的通 信库中设计了多节点扩展功能。 NVLink 网络在训练大型语言模型或具有大型嵌入表的推荐系统时也能提供显著的性能 提升。

(4)NVLink C2C:CPU 与 GPU 互连,大幅增加了 GPU 可用内存容量

2022 年,推出 NVIDIA® NVLink®-C2C,这是一种超快速的芯片到芯片、裸片到裸片 的互连技术,将支持定制裸片与 NVIDIA GPU、CPU、DPU、NIC 和 SOC 之间实现一 致的互连,助力数据中心打造新一代的系统级集成。借助先进的封装技术,NVIDIA NVLink-C2C 互连链路的能效最多可比 NVIDIA 芯片上的 PCIe Gen 5 高出 25 倍,面积 效率高出 90 倍,可实现每秒 900 GB 乃至更高的一致互联带宽。NVLink-C2C 主要优势 包括:高带宽、低延迟、低功耗高密度、支持多种行业标准等。

以 GH200 为例,高带宽 NVLink-C2C 上的扩展 GPU 内存功能使 GPU 能够高效地访问 所有系统内存。所有 GPU 都能通过 GPU- GPU NVLink 或 NVLink-C2C 访问所有可用的 内存资源,包括 LPDDR5X 和 HBM3。推理大型语言模型(LLM)需要大量内存来存储 模型权重和推理过程中的中间结果。随着推理批量大小的增加,为满足对 LLM 日益增 长的需求,内存需求也随之增加。为了解决内存需求,可以扩展到多个 GPU 或使用 CPU 内存来卸载部分模型层。然而,使用 x86 CPU 时,访问系统内存进行张量卸载可 能会受到 PCIe 的瓶颈限制。NVIDIA 的 NVLink-C2C 为 Hopper GPU 提供了对LPDDR5X 内存的高带宽访问,这显著减少了张量卸载执行时间,使得 LLM 的推理能 够以 GPU 的吞吐量进行。根据性能模拟结果,当批量大小为 1 时,配备 HBM3 的 GH200 在 LLM 推理性能上提高了 2 倍,因为 GH200 中 HBM3 的 GPU 内存带宽高于 H100 PCIe GPU。随着批量大小的增加,推理所需的内存量也在增加。在批量大小为 4 时,基于 PCIe 的推理解决方案性能下降,因为 PCIe 成为主要瓶颈,而 GH200 的 NVLink-C2C 则能够以高带宽向 H100 GPU 传输数据,相比于 PCIe 的方案提供了 4.5 倍 的吞吐量。

(5)GB200:NVlink 集大成者,高速互连打造超级 AI 计算机

GB200 支持 NVlink 域中 36 颗和 72 颗 GPU,分别构成 GB200 NVL36 和 GB200 NVL 72 机柜。GB200 NVL36/72 机柜主要由 Computer Tray 和 Switch Tray 构成。

以 NVL72 机柜为例,其包含 18 个 Computer Tray 和 9 个 Switch Tray。其中,Computer Tray 包含 2 块 Grace Blackwell 超级芯片,每块超级芯片包含 1 个 Grace CPU 与 2 个 Blackwell GPU,CPU 与 GPU 之间通过 NVLink-Chip-to-Chip(C2C)接口进行互连,该 接口提供 900GB/s 的双向带宽。单颗 GPU 配置 192GB HBM3e 内存,单颗 CPU 配置 480GB LPDDR5X 内存。通过 NVLink C2C 高速连接,单个 Computer Tray 可提供 1.7 TB 的快速内存,应用程序可以一致地访问统一内存空间。这简化了编程并满足万亿参 数 LLM、多模态模型等大容量内存的需求。 Switch Tray 即 NVLink 交换机,主要用于构建 GPU 之间高速互连的 NVlink 网络,让 GPU 之间能够进行高速通信并且支持 SHARP 网络计算,从而让多个 GPU 之间能够共 享更大的内存空间。每个 NVLink Swtich Tray 提供 144 个 100 GB 的 NVLink 端口,因 此 9 个 Switch Tray 可完全连接 72 个 Blackwell GPU 上的 18 个 NVLink 端口。GB200 采 用了第五代 NVLink,单个 NVLink 域中连接多达 576 个 GPU,总带宽超过 1 PB/s,快 速内存为 240TB,能够实现更高性能的加速计算。

2、IB 交换机:构建无损的 RDMA 网络,支持 Scale Out 网络互连

RDMA 可以显著提高传输效率,满足 AI 网络高吞吐、低延迟等要求。AI 算力网络流 量与传统数据中心流量迥然不同,其具有超大流量、超低时延、零容忍丢包和严格时间 同步等特点。传统的传输控制协议/互联网协议需要靠内核发送消息进行网络通信,在 数据传输过程中存在较高的数据移动和复制开销,降低了数据传输效率。与之形成对比 的 RDMA 协议能够通过网络接口访问内存数据,不经过内核,具有高吞吐、低延迟、 无 CPU 占用等优点,可以提升数据传输效率。

RDMA 主要包含 3 种协议:InfiniBand(IB)、基于以太网的 RDMA(RoCE)和基于 TPC/IP 协议栈的 RDMA(iWARP)。 IB:专为高性能计算从链路层到传输层定制了全新的架构,具备高带宽、低延迟和无损 的特征。不过,IB 体系独立封闭,需要采用专用的交换机、网卡、线缆等,不能和现有 的以太网设备兼容,采购成本相对高昂。 RoCE:RoCE 是基于以太网协议栈进行拓展,能够支持 RDMA 操作。RoCE 当前有 2 个主要版本:RoCE v1 和 RoCE v2。RoCE v1 不能支持路由,也没有拥塞控制机制,难 以在数据中心中使用。RoCE v2 是 RoCE v1 的改良版本,支持路由并定义了拥塞控制机 制。RoCE 在性能上较 IB 有所降低,但是其性价比更高,在一些超大规模数据中心商用 部署。不过,RoCE v2 标准是 UDP 协议,虽然其效率比较高,但不具备类似 TCP 协议 的重传机制等来保障可靠传输,一旦出现丢包,必须依靠上层应用发现后再做重传,这 样会极大降低 RDMA 的传输效率。 iWARP:该技术是基于 TCP 协议,在有损网络场景相比 IB 和 RoCE v2 具有更好的可靠 性,但是大量 TCP 连接会耗费很多的内存资源,且其复制的流控制会导致性能问题, 导致其并未能大规模推广使用。

总之,IB 可以提供卓越的性能、低延迟和可扩展性,在高性能计算领域表现出色并占据 较大优势。相比之下,RoCE 由于更容易利用现有以太网基础设施,具有较低的成本, 受到科技巨头们的青睐。

三、AI 产业群雄并起, AI 自研后劲十足

英伟达一家独大,产业巨头并起而抗之。AI 本质上是一个并行计算的问题,提升单个 节点的算力及构建高速的互连系统是尤为关键。英伟达由于其早期布局 GPU,及时地 抓住了此轮以深度学习为技术代表的 AI 技术发展浪潮,其单个 GPU 算力不断提升,并 开发了 NVLink、IB 交换机等配套的产品,以及 CUDA 等软件生态的持续完善,促使大 规模 AI 算力按照黄氏定律的趋势快速演进,凭借着其在 GPU、网络和系统、软件三个 方面的布局,在 AI 产业链中占据了主导地位。

随着 ChatGPT 掀起的大模型 AI 浪潮兴起,AI 算力需求大幅跃升,全球科技龙头均不希 望在 AI 竞赛中处于劣势地位,甚至想在此轮 AI 浪潮中拔得头筹,进而在此轮 AI 浪潮 中获取更大的利益,促使英伟达 AI 算力卡呈现供不应求的局面。面对紧缺的 AI 算力产 品供应、高昂的资本开支以及尚未见顶的 AI 算力需求,云厂商未雨绸缪、纷纷想把握 住 AI 算力的主动权,进而在 AI 浪潮中取得更大的优势。以谷歌、博通、亚马逊、 AMD、微软、Meta、Marvell 等为首的北美科技巨头企业,试图在 AI 芯片、高速互连 领域逐个对英伟达体系进行突破,非英伟达体系的 AI 算力产业正在崛起,未来有望取 得一定的市场份额。

(一)AI 自研芯片:AI 算力成为核心要素,科技巨头追求自主可控

AI 自研芯片众望所归,北美巨头加码投入。ChatGPT 掀起新一轮的 AI 发展浪潮,大模 型的性能遵守 Scaling law 法则即大模型的最终性能主要与计算量、模型参数量和训练数 据量三者的大小相关,AI 算力成为此轮 AI 发展的核心驱动力。北美科技巨头纷纷加码 AI 基础设施,面临着资本开支快速增长带来的财务压力,但又表示当前不投 AI 算力的 风险大于过度投资 AI 算力的风险,北美巨头如不采取措施可能限于两难境地,AI 自研芯片或有望成为破局之道。

AI 自研芯片优势明显,北美科技巨头陆续推出自研产品。AI 自研芯片应需而生:(1) 降本增效:自研 AI 芯片具有更高的性价比,可以在一定程度上减少资本开支,而且能 够让科技巨头公司相对于英伟达、AMD 等 GPU 厂商拥有一定的议价权。(2)供应安全: AI 自研芯片开拓了新的算力供应渠道,可以一定程度上降低 GPU 芯片供应受限的风险。 (3)自主可控:自研 AI 芯片可以更加灵活地控制技术路线和发展节奏,避免受到供应 商或者合作伙伴的限制和影响。(4)增强竞争优势:科技巨头可以通过自研 AI 芯片打 造自己的核心竞争力,从而提高其在 AI 领域的话语权和影响力。在规模及成本等多种 因素考量下,北美云厂商 Google、AWS、Microsoft、Meta 等有逐年扩大采用自研 ASIC 趋势,先后推出自研 AI 芯片,未来几年自研 AI 芯片有望迎来快速发展的黄金期。

全球两大 AI 定制芯片玩家对其定制 AI 芯片业务展望乐观。博通在 2024 年 9 月 5 日的 业绩说明会上表示,FY2024Q3 其定制 AI 加速器业务同比增长 3.5 倍,对 AI 业务增长 保持乐观,并将 FY2024 年 AI 营收指引从先前的 110 亿美元调整到 120 亿美元,预计 FY2025 AI 业务将保持强劲增长;长期来看,公司认为其超大规模客户有更多的 AI 算 力需求,有望加快 AI 芯片地部署。Marvell 在 2024 年 4 月 Accelerated Infrastructure for the AI Era 上预计 FY2025 其 Custom Compute 和 Connectivity 业务营收有望达到 15 亿美 金;目前正在为 2 家客户定制 AI 芯片;表示 2023 年全球 Accelerated custom compute 市 场规模为 66 亿美元,预计 2028 年将达到 429 亿美元;在 2024 年 8 月 29 日业绩说明会 上表示,AI 定制芯片进展顺利,2 颗芯片已经进入量产;鉴于公司 AI 业务在 FY2025H1 增长强劲,FY2025H2 有望加速增长,预计 FY2025 年 AI 业务收入将超过公 司此前在 AI 活动中的指引,并预计 AI 定制项目将继续增加。

海内外科技巨头扩大自研 ASIC,ASIC 服务器占比逐年提高。据 Trendforce 数据,北美 云厂商亚马逊、Meta 等持续扩大自研 ASIC,中国本土企业阿里巴巴、百度、华为等积 极布局自主 ASIC 方案,促使 ASIC 服务器占整体 AI 服务器的占比在 2024 年预计提升 至 25%左右。

(二)UALink:UALink 打造开放高速互连标准,旨在打破英伟达 NVlink 垄断

科技巨头组团打造 UALink,旨在取代英伟达 NVlink。2024 年 5 月,AMD、博通、思 科、Google、惠普、英特尔、Meta 和微软宣布他们已经为 AI 数据中心制定了新的互连 技术 UALink(Ultra Accelerator Link),建立 AI 加速器间高速低延迟的开放通信标准, 以打破英伟达 NVlink 的垄断。UALink 将通过以下方式提高性能: 低延迟和高带宽:通过 Infinity Fabric 协议,UALink 将实现低延迟和高带宽的互连, 适用于 AI 和 ML 集群中的高性能计算需求。 大规模扩展:UALink 1.0 版规范将允许在 AI 容器组中连接不超过 1024 个加速器,支持在容器组中挂载到加速器(例如 GPU)的内存之间进行直接加载和存储。 开放性和兼容性:UALink 联盟旨在创建一个开放的行业标准,允许多家公司为整 个生态系统增加价值,从而避免技术垄断。

UALink 的最大潜在受益者可能包括微软、亚马逊、谷歌和 Meta 等科技巨头。这些公 司已经投入大量资金购买英伟达 GPU 以支持云服务和 AI 模型训练、推理,并期望摆脱 对英伟达的依赖,已经陆续推出 AI 自研芯片。UALink 提供了一条复制 NVLink 和 NVSwitch 功能的途径,可以促进彼此之间进行合作与成果共享,从而有望加快自研 AI 芯片的进度,逐步降低对英伟达的依赖程度。

(三)以太网:以太网优势日益凸显,加速广泛部署于 AI 算力中心

以太网未来有望成为 AI 网络的主流方案,超以太网联盟和英伟达 Spectrum-X 两大阵 营初步形成。以太网是 IP 网络最成熟和主流的技术,被广泛应用于园区网络、数据中 心和云计算环境以及广域网等场景,具备开放的生态系统,使用标准的以太网设备、线 缆和接口卡等,具备性价比高,后期维护成本低等优势,然而其在延时、带宽等方面逊 于 IB 网络。不过,通过专门针对 AI 网络进行优化,以太网能够满足 AI 网络的严格要 求,并且能够支持更大的域,头部玩家正在使用以太网来构建 AI 基础设施,如:AWS 将以太网用于其生成式 AI 基础设施,为配备 Trainium2 GPU 的 Ultracluster2(以太网) 配备了 60K+ GPU 规模。Meta 正在使用以太网构建其 GenAI 基础设施,其中包含一个 24K GPU 集群。字节跳动已使用以太网部署了一个拥有 10K+ GPU 的 AI 集群。未来随 着 AI 算力的快速增长,性价比更高、生态开放的以太网有望成为主流的 AI 网络方案, 目前超以太网联盟(UEC)和英伟达 Spectrum-X 平台两大阵营竞相发力。

新一代 AI 以太网技术不仅保留了成本优势,还具备灵活性和开放性,并利用强大的以 太网生态系统,有望成为 AI 时代的全新网络架构。AI 以太网技术通过动态路由、智能 调度和高级拥塞控制等创新,满足了 AI 应用对高带宽、低延迟和高可靠性的严苛要求, 重塑了其在现代数据中心中的价值。随着网络设备商、AI 芯片制造商以及互联网企业 对以太网技术的持续投入,各种 AI 以太网技术百花齐放。IDC 预测,生成式 AI 数据中 心以太网交换机市场将以 70%的年复合增长率呈指数级增长,将从 2023 年的 6.4 亿美 元增长到 2028 年的 90.7 亿美元。

超以太网联盟由 AMD、Arista、博通、思科等硬件厂商以及微软、Meta 等云厂商牵头 成立,利用以太网的生态优势,致力于打造满足 AI 和 HPC 网络需求的新一代标准用于 取代 RoCE 协议超以太网联盟,创建一个“基于以太网的完整通信堆栈架构”,提高网 络吞吐量、降低延迟,增强网络的可靠性和稳定性,为人工智能和高性能计算等领域的 发展提供更加坚实的网络基础,同时保留以太网/IP 生态系统的优势。UEC 的目标是提 供一个完整的通信协议栈,解决跨越多个协议层的技术问题,并提供易于配置和管理的 解决方案。UEC 利用其成员在大规模部署 AI 和 HPC 工作负载方面的丰富经验,提供了 一个全面且令人信服的解决方案。

英伟达 Spectrum-X 使用 NVIDIA BlueField-3 SuperNIC 网卡与 NVIDIA Spectrum-4 交换 机协同工作,并特别增强了数据中心环境中的 GPU 到 GPU 通信(也称为东西向网络流 量),在拥塞控制、无损网络和负载均衡方面进行了优化,使得其能支持加速计算的严 格要求,具体如下: 基于遥测的拥塞控制:通过将高频遥测探针与流量测量相结合,Spectrum-X 拥塞控制可 确保工作负载得到保护,并确保网络提供性能隔离。这意味着各种类型的 AI 工作负载可以同时在共享基础设施上运行,而不会对彼此性能产生负面影响。 无损网络:Spectrum-X 将配置网络实现无损,从而确保不丢弃数据包并最大限度地降低 尾延迟。尾延迟是指一组并行任务中速度最慢的任务所经历的延迟,这将决定操作的整 体完成时间。 动态负载均衡:Spectrum-X 使用细粒度动态路由来最大限度地提高网络利用率,并确保 以太网的最高有效带宽。动态路由通过在整个网络中实现逐包负载均衡,避免了传统以 太网中静态路由(等价多路径,即 ECMP)或 flowlet 路由的陷阱,而无需深度缓冲区 或突发吸收。由于负载均衡意味着数据包可以乱序地到达目的地,NVIDIA BlueField-3 SuperNIC 则确保重新排序数据包,并将其放置在主机内存中,从而对应用程序透明。

随着 AI 产业迅速发展,AI 算力、运力需求大幅提升,数据网络需要具备更强的稳定性、 高性能、高可控以及低成本等特性,传统品牌交换机不同设备厂商互通性偏低,网络运 维难度大,管控不能统一,一旦发生错误也很难实现快速定位,并且不利于未来的设备 升级和功能扩展。白盒交换机、裸机交换机以更低成本、更高开放性等优势,受到众多 大型云厂商的青睐,未来数据中心交换机有望进一步白盒化、裸机化。其中,裸机交换 机仅提供裸机交换机,白盒交换机提供裸机交换机和操作系统。裸机交换机相比白盒交 换机更有成本优势,这一优势根本上是由售后服务剥离所带来的,适用于海外数据中心 龙头厂商如:亚马逊、谷歌、Meta 等。

白盒交换机、ODM 直销交换机销售额快速增长,份额仍在提升。IDC 数据显示 2024Q2 年全球以太网交换机市场规模达到 102 亿美元,同比-14.1%,环比+15.4%。其 中,数据中心部分市场收入同比+7.6%,环比+15.8%。白盒交换机代表厂商 Arista 以太 网交换机 2024Q2 收入(其中 90.2%来自数据中心)同比+12.4%,环比+7.0%,使该公 司 2024Q2 的市场份额达到 13.5%,较 2023 年全年份额 11.1%有所提升;其在高速交换 机的市场份额逐步提高,后续或有望超过传统交换机龙头 Cisco。ODM 直销交换机 2024Q2 收入同比+66.9%,占数据中心细分市场收入的 19.1%,较 2023 年全年份额 14.3%有所提升。

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

精选报告来源:【未来智库】。未来智库 - 官方网站

相关问答

【怎么写 课程设计报告 有什么样的步骤流程】作业帮

[最佳回答]1、设计过程(方案论证及用EWB模拟分析).2、理论分析(公式计算,数据分析).3、将理论值与实际值比较,分析误差.4、电路稳定后测完数据、验收电路板并...

什么是 电子 报告 ?

1、电子版文件是把纸质文档内容以计算机软件如word、Excel、PP、CAD、photoshop、H5等软件编辑出来,可以通过邮件、U盘、网络或其他传送方式传送的文件。2、...

医院有 电子报告 还需要纸质报告吗?

需要。随着目前电子化进程的推进,政府机关和医院等企事业单位都在推行无纸化办公。但是无纸化办公并不意味着不需要纸质报告。比如说在我们的病案存档的时候,...

入职体检可以 电子报告 吗?

要看你入职的公司的要求。有的公司有合作的体检机构,会提前将体检名单给过去,你只需要去体检机构报名字就可以了,体检报告不需要你担心。有的公司则是只规定...

医院的 电子报告 和纸质版的一致吗?

医院的电子报告和纸质版的基本是一致的。体检报告里的内容是一样的,但是有点体检机构为了保护客户隐私,没有把乙肝检查和艾滋病,梅毒检查在电子报告中显示,只...

体检报告以手机 电子报告 为准还是纸质报告为准?

体检报告是以纸制报告为准,是因为:纸制报告可以建立职工档案,而手机电子报告不仅可以被修改,也不能做职工档案保存。体检报告是单位职工入职前,或是单位对职...

河池学院的 电子 信息工程专业如何,就业方向有哪些?

河池学院介绍专业排名-就业方向学科:工学门类:电气信息类专业名称:电子信息工程业务培养目标:本专业培养具备电子技术和信息系...毕业生应获得以下几个方面...

什么是 电子 体检?

电子体检是指通过互联网技术和数字化设备对身体健康进行全面检测和评估的过程。电子体检通常包括测量身体各项指标、采集生理数据、评估身体健康状况、提供健...

医院 电子报告 怎么下载

体检报告电子版可以通过以下几种方式进行下载:1.在医院官网上下载:许多医院会在其官网上提供电子版的体检报告下载服务,您可以通过医院官网上的下载链接或者...

什么是做 电子 表格 报告 ?

电子表格报告,用电脑操作,excell表格电子表格报告,用电脑操作,excell表格