投研报告 投研

技术贴(通俗易懂):从GPU到云,AI的物理世界是如何链接的?

可能有些朋友会奇怪,我怎么会发技术贴。其实投资高新科技,一点不了解技术/工艺是不行的;而且,发这个帖还有深一层意思,先卖个关子,后面再说。

0 次阅读

原文:X @LMDFinance

来源声明:本文由 @LMDFinance 首发于 X,本站转载仅供学习交流,不构成投资建议。

封面

可能有些朋友会奇怪,我怎么会发技术贴。其实投资高新科技,一点不了解技术/工艺是不行的;而且,发这个帖还有深一层意思,先卖个关子,后面再说。

大模型的对话窗口,我们都很熟悉;但窗口后面究竟隐藏的是什么,估计很多人不清楚。我曾是互联网垂直网站创始人,熟悉整个互联网整个后端硬件和链接,知道懂得这个对投资行为很有帮助。

少说废话,让我们从最核心的位置开始来了解这个硬件链条和连接:从微观的芯片封装到宏观的互联网服务,这些概念构成了现代 AI 算力基建的完整纵向生态。

它们的核心链接次序是:HBM ➡ GPU ➡ PCB ➡ 服务器(含 SPO) ➡ 机柜 ➡ 计算中心 ➡ 云。

一. 核心链接次序与层级关系

配图

以下是按照“由内到外、由微观到宏观”的物理与逻辑嵌套顺序:

1. 芯片与封装层(微观级)

1)HBM (High Bandwidth Memory,高带宽内存)

位置与连接:它通过硅通孔(TSV)技术垂直堆叠,并通过中介层(Interposer)与 GPU 核心并排封装在同一个芯片基板上(例如 NVIDIA 的 CoWoS 封装)。

作用:作为 GPU 的“超高速缓存”,极大地解决了 AI 计算中的“内存墙”瓶颈。

2) GPU (Graphics Processing Unit,图形/算力处理器)

位置与连接:融合了 HBM 之后,形成一个完整的 GPU 算力芯片实体(如 H100、B200)。它通过引脚或插槽连接到主板(PCB)上。

2. 板卡与组件层(部件级)

1) PCB (Printed Circuit Board,印刷电路板)

位置与连接:GPU、CPU、内存条等所有电子元器件都焊接或插在 PCB 上。在 AI 服务器中,多颗 GPU 会集成在一块专门的 GPU OAM 载板(UBB) 这种高性能 PCB 上。

2) SPO (Switch / Power / Optical,交换机/电源/光模块)

位置与连接:这是支撑服务器运行的核心组件。

Power(电源):直接固定在 服务器 内部或机柜背面,为 PCB 及芯片供电。

Switch(交换机芯片)与 Optical(光模块/光纤):作为网络接口,插在服务器的 PCB 扩展槽(如 PCIe/OAM)上,负责服务器之间的数据搬运。

3. 系统与物理基建层(宏观级)

1) 服务器 (Server)

位置与连接:由 PCB、GPU、CPU、SPO 组件共同组装成的一个独立箱体(通常为 2U-8U 高度)。它通过导轨推入 机柜 中。

2) 机柜 (Rack)

位置与连接:一个标准的物理铁柜(通常为 42U 或 48U 高度),垂直垂直堆叠摆放了多台 服务器。机柜内部配有专用的电源分配单元 (PDU) 和液冷/风冷散热管道。

3) 计算中心 (Computing Center / Data Center)

位置与连接:一个包含成百上千个 机柜 的大型物理建筑。机柜之间通过成千上万根光纤和核心交换机联结,形成一个庞大的物理算力集群(如智算中心)。

4. 虚拟化与服务层(逻辑级)

1)云 (Cloud)

位置与连接:计算中心 是它的物理物理载体。通过虚拟化软件(如 Kubernetes、KVM),将计算中心里所有服务器的 GPU、CPU、内存资源“打碎”并重新虚拟组合,最终通过互联网以服务(如 阿里云 或是 腾讯云 的 GPU 云服务器)的形式提供给全球用户。

二. 中间的其他重要硬件

配图

在上述链路中,为了让 AI 算力真正跑起来,还有几个极其关键的硬件起到了桥梁作用:

1. 中介层 (Interposer) 与 基板 (Substrate)

位于 HBM/GPU 与 PCB 之间:AI 芯片引脚极度密集,无法直接焊在普通 PCB 上,必须先通过硅中介层连接,再封装在 IC 载板上。目前这一层的产能(如 TSMC 的 CoWoS)是全球 AI 芯片缺货的核心瓶颈。

2. CPU 与 内存 (DDR5/LPDDR)

位于 服务器/PCB 层面:GPU 不能独立引导系统。每台 AI 服务器通常配备 1-2 颗高性能 CPU(如 Intel Xeon 或 AMD EPYC)作为“大脑大脑控制器”,负责任务调度和数据预处理。

位于 PCB 与 服务器 之间:在像 NVIDIA DGX 这样的服务器中,多颗 GPU 之间需要通过专门的 NVLink 交换芯片进行极速互联(如 NVSwitch),实现显存共享。

4. Retimer (信号重构时钟芯片)

位于 PCB 之上:由于 AI 计算数据量极其庞大且速度极快,高速信号在 PCB 电路板上传输极易衰减。Retimer 芯片用于放大和修复 PCIe 5.0/6.0 信号,确保数据不丢包。

5. 散热系统(液冷冷板/CDU液冷分配单元)

横跨 服务器 与 机柜:单颗 AI GPU 功耗已达 700W-1000W 以上,传统风扇已无法降温。服务器内部现在标配液冷冷板,机柜侧面或底部则配有 CDU(冷量分配单元),利用水循环带走热量。

6. 园区配套(UPS电源 / 柴油发电机 / 冷水机组)

位于 计算中心 层面:确保整个计算中心断电时能瞬间切换供电,并为整个大楼的液冷系统提供冷水流。

附:数据中心和云有什么区别

数据中心和“云”(云计算)的本质区别在于:数据中心是物理层面的硬件基础设施,而“云”是基于硬件之上的虚拟化软件服务系统。 简单来说,数据中心是看得见摸得着的“房产和服务器”,而云则是租户通过互联网使用的“数字服务”。

为了方便理解,我们可以用“发电厂”和“电网/电力服务”来做比喻:

数据中心就像是物理发电厂。它里面装满了发电机(服务器)、散热系统(空调)和变压器(网络设备),是一个实体场所。

云就像是电网服务。用户不需要自己盖发电厂或买发电机,只需插上插头,就能按需付费使用源源不断的电力。

核心区别对比

配图

它们之间的紧密联系

虽然两者概念不同,但云必须依赖数据中心才能存在。

数据中心是云的物理载体:所有的云端数据、云服务器,最终都存放在世界各地的某一个或多个物理数据中心的硬盘和CPU里。

云是数据中心的高级演进:现在的超大型数据中心,通过虚拟化技术将成千上万台服务器打包连接,从而转变成了向外提供高效服务的“云计算数据中心”。

您可以根据企业对数据隐私、合规性要求(如金融、政府行业更倾向于自建数据中心)以及对成本和业务扩展速度的需求,来选择是自建数据中心还是直接上云。

以上就是本文的全部内容,下次再讲这个跟投资有什么关系。若您觉得内容有帮助,建议收藏备用。您的收藏也是对我做内容的最大鼓励和支持,谢谢!

加入社区 · 第一时间获取观点

评论

登录注册 后参与评论。