北京金支点技术服务有限公司 - GPU 行业深度：市场分析、竞争格局、产业链及相关公司深度梳理【慧博出品】

GPU 行业深度：市场分析、竞争格局、产业链及相关公司深度梳理【慧博出品】 2023-07-17 15:02 作者或来源：慧博智能投研

GPU 作为显示卡的 “大脑”，是芯片领域的核心产品之一，并且 GPU 作为支撑众多科技领域发展的底层核心，是数据计算的核心底座，在商业计算、人工智能等诸多板块均有着较为广泛的使用，是科技行业的重要支撑。当前国内 GPU 市场仍由外商主导，近年来，受政策、资本和需求的三重共振，国产 GPU 赛道景气，国内企业加速追赶海外大厂。2022 年美国通过涉台法案、对中国禁售高端计算芯片等，使中美摩擦尤其是科技领域限制进一步加大，GPU 国产替代紧迫性和重要性进一步提升。

以下我们将对 GPU 行业进行分析，从概念入手，对 GPU 具备的优势、核心功能、行业发展历程、市场情况等方面展开具体论述，同时，将针对 GPU 产业链、重点布局企业及竞争格局进行分析，希望对大家了解 GPU 行业有所启发。

一、行业概述

1、GPU 定义

GPU 一般指图形处理器（graphics processing unit，缩写 GPU），又称显示核心、视觉处理器、显示芯片，是一种专门在个人电脑、工作站、游戏机和一些移动设备（如平板电脑、智能手机等）上做图像和图形相关运算工作的微处理器。

GPU 是显卡的处理器。显卡全称显示适配卡，又称显示适配器，用于协助 CPU 进行图像处理，作用是将 CPU 送来的图像信号经过处理再输送到显示器上，由主板连接设备、监视器连接设备、处理器和内存组成，GPU 即是显卡处理器。

2、GPU 在并行运算层面具备一定优势

当前主要兴起的计算芯片分别为 GPU、ASIC、FPGA 等，其中 GPU 最初专用于图形处理制作，后逐渐应用于计算。GPU 的工作通俗的来说就是完成 3D 图形的生成，将图形映射到相应的像素点上，对每个像素进行计算确定最终颜色并完成输出，一般分为顶点处理、光栅化计算、纹理贴图、像素处理、输出五个步骤。GPU 采用流式并行计算模式，可对每个数据行独立的并行计算。

CPU 基于低延时设计，由运算器（ALU）和控制器（CU），以及若干个寄存器和高速缓冲存储器组成，功能模块较多，擅长逻辑控制，串行运算。GPU 基于大吞吐量设计，拥有更多的 ALU 用于数据处理，适合对密集数据进行并行处理，擅长大规模并发计算，因此 GPU 也被应用于 AI 训练等需要大规模并发计算场景。

GPU 内部大量的运算单元核心，尽管单个核心缓存较小，逻辑功能简单，仅能执行有限类型的逻辑运算操作，但其多核心架构天然适合执行复杂的数学和几何计算，且科学计算领域通用性较高，相比 CPU，综合性能更好。当前缺点在于功耗过高，效率不足。

3、GPU 按应用端细分

GPU 按应用端划分为 PC GPU、服务器 GPU、智能驾驶 GPU、移动端 GPU。

PC GPU 可以进一步划分为独立显卡和集成显卡。独立显卡是一种与处理器（CPU）分离的 GPU，具备的专用内存，不与 CPU 共享，拥有自己的内存源和电源，因此性能更高，功率更大，产生热量更多。独立显卡常见于台式机、笔记本电脑，小型 PC 也可以包含独立显卡，主要的厂商包括英伟达和 AMD。集成显卡是一种内置于处理器的 GPU。集成 GPU 使用与 CPU 共享系统内存，由于集成显卡内置于处理器中，性能较低，因此通常功耗更低，产生的热量更少。集成显卡的处理器通常位于外形较小的系统中，例如笔记本电脑，主要产商包括 Intel 和 AMD。

服务器 GPU 通常应用在深度学习、科学计算、视频编解码等多种场景，主要的厂商包括英伟达和 AMD，英伟达占主导地位。

自动驾驶领域，GPU 通常用于自动驾驶算法的车端 AI 推理，英伟达占据主导地位。

4、GPU 的核心功能

（1）图形渲染

GPU 凭借其较强的并行计算能力，已经成为个人电脑中图像渲染的专用处理器。图形渲染具体实现要通过五阶段：顶点着色、形状装配、光栅化、纹理填充着色、测试与混合。

GPU 渲染流程为三维图像信息输入 GPU 后，读取 3D 图形外观的顶点数据后，1）在流处理器中构建 3D 图形的的整体骨架，即顶点处理；2）由光栅化处理单元把矢量图形转化为一系列像素点，即光栅化操作；3）在纹理映射单元实现纹理填充；4）在流处理器中完成对像素的计算和处理，即着色处理；5）在光栅化处理单元中实现测试与混合任务。至此，实现一个完整的 GPU 渲染流程。

（2）通用计算

2003 年，GPGPU（General Purpose computing on GPU，基于 GPU 的通用计算）的概念首次被提出，意指利用 GPU 的计算能力在非图形处理领域进行更通用、更广泛的科学计算。GPGPU 概念的提出，为 GPU 更为广泛的应用开拓了思路，GPGPU 在传统 GPU 的基础上进行了优化设计，部分 GPGPU 会去除 GPU 中负责图形处理加速的硬件组成，使之更适合高性能并行计算。

GPGPU 在数据中心被广泛地应用在人工智能和高性能计算、数据分析等领域。GPGPU 的并行处理结构非常适合人工智能计算，人工智能计算精度需求往往不高，INT8、FP16、FP32 往往可以满足大部分人工智能计算。GPGPU 同时可以提供 FP64 的高精度计算，使得 GPGPU 适合信号处理、三维医学成像、雷达成像等高性能计算场景。

5、GPU 中常见的数据格式和应用场景

计算机中常用的数据格式包括定点表示和浮点表示。定点表示中小数点位置固定不变，数值范围相对有限，GPU 中常用的定点表示有 INT8 和 INT16，多用于深度学习的推理过程。浮点表示中包括符号位、阶码部分、尾数部分。符号位决定数值正负，阶码部分决定数值表示范围，尾数部分决定数值表示精度。FP64（双精度）、FP32（单精度）、FP16（半精度）的数值表示范围和表示精度依次下降，运算效率依次提升。

除此以外还有 TF32、BF16 等其他浮点表示，保留了阶码部分但是截断了尾数部分，牺牲数值精度换取较大的数值表示范围，同时获得运算效率的提升，在深度学习中得到广泛应用。

6、应用程序接口是 GPU 和应用软件的连接桥梁

GPU 应用程序接口（API）：API 是连接 GPU 硬件与应用程序的编程接口，有利于高效执行图形的顶点处理、像素着色等渲染功能。早期由于缺乏通用接口标准，只能针对特定平台的特定硬件编程，工作量极大。随着 API 的诞生以及系统优化的深入，GPU 的 API 可以直接统筹管理高级语言、显卡驱动及底层的汇编语言，提高开发过程的效率和灵活性。

GPU 应用程序接口主要涵盖两大阵营，分别是 Microsoft DirectX 和 Khronos Group 技术标准。DirectX 提供一整套多媒体解决方案，3D 渲染表现突出，但是只能用于 windows 系统。OpenGL 的硬件匹配范围更广，同时在 CAD、游戏开发、虚拟现实等高端绘图领域得到广泛应用。此外还包括苹果的 MetalAPI 等。

7、CUDA 架构实现了 GPU 并行计算的通用化

GPGPU 相比于 CPU，其并行计算能力更强，但是通用灵活性相对较差，编程难度相对较高。在 CUDA 出现之前，需要将并行计算映射到图形 API 中从而在 GPU 中完成计算。

CUDA 大幅降低 GPGPU 并行计算的编程难度，实现 GPU 的通用化。CUDA 是英伟达 2007 年推出的适用于并行计算的统一计算设备架构，该架构可以利用 GPU 来解决商业、工业以及科学方面的复杂计算问题。CUDA 架构的里程碑意义在于，GPU 的功能不止局限于图形渲染，实现了 GPU 并行计算的通用化，把 “个人计算机” 变成可以并行运算的“超级计算机”。英伟达在推出了 CUDA 以后，相当于把复杂的显卡编程包装成了一个简单的接口，可以利用 CUDA 直观地编写 GPU 核心程序，使得编程效率大幅提升。现在主流的深度学习框架基本都是基于 CUDA 加速 GPU 并行计算。

CUDA 采用了一种全新的计算体系结构来调动 GPU 提供的硬件资源，本质上是应用程序和 GPU 硬件资源之间的接口。CUDA 程序组成包括 CUDA 库、应用程序编程接口（API）及运行库（Runtime）、高级别的通用数学库。

CUDA 经过多年优化，形成了独特软硬件配合的生态系统。其中包括诸多编程语言的开发环境，各种 API 的第三方工具链，自带的应用于代数运算和图形处理的 CUDA 库、庞大的应用程序库，从而实现轻松高效的编写、调试优化过程。

CUDA 提供了对其它编程语言的支持，如 C/C++，Python，Fortran 等语言。CUDA 支持 Windows、Linux、Mac 各类操作系统。

二、行业发展阶段回顾

GPU 的发展大致经历了五个阶段：

1、前 GPU 时代，图形处理器初具雏形

1981 年世界上第一台个人电脑 IBM5150 由 IBM 公司发布，其搭配黑白显示适配器与彩色图形适配器，是最早的图形显示控制器。20 世纪 80 年代初期，出现了以 GE 芯片为标志的图形处理器，GE 芯片的具备四位向量的浮点运算功能，可以实现图形渲染过程中的矩阵，裁剪，投影等运算，其出现标志着计算机图形学进入以图形处理器为主导的阶段。后续随着 GE 等图形处理器功能不断完善，图形处理功能逐渐由 CPU 向 GPU（前身）转移。

2、GeForce256 横空出世，GPU 正式诞生

20 世纪 90 年代，NVIDIA 进入个人电脑 3D 市场，并于 1999 年推出具有标志意义的图形处理器 GeForce256，真正意义上的 GPU 第一次出现。相较过往图形处理器，第二代 GPU GeForce 256 将 T&L 硬件（用于处理图形的整体角度旋转与光晕阴影等三维效果）从 CPU 中分离出来并整合进 GPU 中，使得 GPU 可以独立进行三维顶点的空间坐标变换，将 CPU 从繁重的光照计算中解脱出来。即便是低端 CPU，搭配了支持硬件 T&L 的显卡也可以流畅地玩游戏，这使得英伟达在市场竞争中能以产品价格获得较大优势，市占率持续提升。

顶点编程确立 GPU 编程思路：经过了 2000 年的显卡厂商洗牌。2002 年第三代 GPU 芯片陆续推出（如英伟达的 GeForce 4Ti 与 ATI 的 8500），其均具备顶点编程能力，可以通过赋予特定算法在工作中改变三维模型的外形。顶点编程能力的出现确立了 GPU 芯片的编程思路，使后续 GPU 芯片用于其他计算领域成为可能。但本时期 GPU 尚不支持像素级编程能力（片段编程能力），其编程自由度尚不完备。

3、GPU 用于通用计算，GPGPU 概念出现

2003 年 SIGGRAPH 大会上首次提出将 GPU 运用于通用运算，为 GPGPU 的出现打下基础。其后 3 年，通过用统一的流处理器取代 GPU 中原有的不同着色单元的设计释放了 GPU 的计算能力，第四代 GPU 均具有顶点编程和片段编程能力，完全可编程的 GPU 正式诞生。由于 GPU 的并行处理能力强于 CPU，因此 GPU 可以在同一时间处理大量顶点数据，使其在人体 CT、地质勘探、气象数据、流体力学等科学可视化计算处理上具备较大优势，足以满足各项实时性任务。后续伴随线性代数、物理仿真和光线跟踪等各类算法向 GPU 芯片移植，GPU 由专用图形显示向通用计算逐渐转型。

4、架构持续迭代，AI 计算关注度渐起

2010 年英伟达发布了全新 GPU 架构 Fermi，其是支持 CUDA 的第三代 GPU 架构（第一代与第二代分别是 G80 架构与 GT200 架构）。彼时英伟达在 Fermi 架构的设计上并未对 AI 计算场景做特定设置，但 GPU 芯片在 AI 计算领域相较 CPU 芯片已拥有了较大优势。随后在 2012、2014 年陆续发布的 Kepler 架构、Maxwell 架构中，尽管英伟达并未在硬件层面对 AI 计算做特定优化，但在软件层面却引入了深度神经网络加速库 cuDNN v1.0，使英伟达 GPU 的 AI 计算性能与易用性得到提升。

Pascal 架构发布，AI 计算专精版本到来：Pascal 架构在 2016 年 3 月被推出，是英伟达面向 AI 计算场景发布的第一版架构。其硬件结构中加入了诸如 FP16（半精度浮点数计算）、NVLink（总线通信协议，用于可用于单 CPU 配置多 GPU）、HBM（提升访存带宽）、INT8 格式支持（支持推理场景）等技术，而软件层面也发布了面向推理加速场景的 TensorRT 与开源通信函数库 NCCL，Pascal 架构在 AI 计算领域的前瞻性布局使得英伟达后续架构在竞争中具有着较大优势。

5、细分场景不断追赶，GPU 迎来高速发展期

继 Pascal 架构后，面对 Google TPU 在 AI 计算层面带来的压力，英伟达先后更新了 Volta（2017）、Turing（2018）、Ampere（2020）架构。AI 计算领域的技术代差在 Volta 架构通过引入第一代 Tensor Core 在训练场景进行了拉平，随后 Turing 架构的第二代 Tensor Core 在推理场景上进行了拉平，直到 Ampere 时代，NV 才算再次巩固了自己在 AI 计算领域的龙头地位。双方激烈竞争下，GPU 迎来高速发展期。

三、影响 GPU 性能的关键因素

1、微架构设计是 GPU 性能提升的关键所在

评估 GPU 物理性能的参数主要包括：微架构、制程、图形处理器数量、流处理器数量、显存容量 / 位宽 / 带宽 / 频率、核心频率。其中微架构设计是 GPU 性能提升的关键所在。

GPU 微架构（Micro Architecture）是兼容特定指令集的物理电路构成，由流处理器、纹理映射单元、光栅化处理单元、光线追踪核心、张量核心、缓存等部件共同组成。图形渲染过程中的图形函数主要用于绘制各种图形及像素、实现光影处理、3D 坐标变换等过程，期间涉及大量同类型数据（如图像矩阵）的密集、独立的数值计算，而 GPU 结构中众多重复的计算单元就是为适应于此类特点的数据运算而设计的。

微架构的设计对 GPU 性能的提升发挥着至关重要的作用，也是 GPU 研发过程中最关键的技术壁垒。微架构设计影响到芯片的最高频率、一定频率下的运算能力、一定工艺下的能耗水平，是芯片设计的灵魂所在。英伟达 H100 相比于 A100，1.2 倍的性能提升来自于核心数目的提升，5.2 倍的性能提升来自于微架构的设计。

2、GPU 微架构的硬件构成

流处理器：是 GPU 内基本运算单元，通常由整点运算部分和浮点运算部分共同组成，称为 SP 单元，从编程角度出发，也将其称为 CUDA 核心。流处理器是 DirectX10 后引入的一种统一渲染架构，综合了顶点处理和像素处理的渲染任务，流处理器的数量和显卡性能密切相关。

纹理映射单元：作为 GPU 中的独立部件，能够旋转、调整和扭曲位图图像（执行纹理采样），将纹理信息填充在给定 3D 模型上。

光栅化处理单元：依照透视关系，将整个可视空间从三维立体形态压到二维平面内。流处理器和纹理映射单元分别把渲染好的像素信息和剪裁好的纹理材质递交给处于 GPU 后端的光栅化处理单元，将二者混合填充为最终画面输出，此外游戏中雾化、景深、动态模糊和抗锯齿等后处理特效也是由光栅化处理单元完成的。

光线追踪核心：是一种补充性的渲染技术，主要通过计算光和渲染物体之间的反应得到正确的反射、折射、阴影即全局照明等结果，渲染出逼真的模拟场景和场景内对象的光照情况。通过采样 BVH 算法，用来计算射线（光线、声波）与物体三角形求交，与传统硬件相比，RTCore 可以实现几何数量级的 BVH 计算效率提升，让实时光线追踪成为可能。

张量核心：张量核心可以提升 GPU 的渲染效果同时增强 AI 计算能力。张量核心通过深度学习超级采样（DLSS）提高渲染的清晰度、分辨率和游戏帧速率，同时对渲染画面进行降噪处理以实时清理和校正光线追踪核心渲染的画面，提升整体渲染效果。同时张量核心通过低精度混合运算，极大加速了 AI 运算速度，让计算机视觉、自然语言处理、语言识别和文字转化、个性化推荐等过去 CPU 难以实现的功能也得以高速完成。

四、市场分析

1、GPU 市场规模及预测

根据 Verified Market Research 的预测，2020 年 GPU 全球市场规模为 254 亿美金，预计到 2028 年将达到 2465 亿美金，行业保持高速增长，CAGR 为 32.9%，2023 年 GPU 全球市场规模预计为 595 亿美元。

2、PC 显卡市场

独立显卡市场开始逐渐回暖。根据 Jon Peddie Research 的数据，2022 年独立 GPU 出货量下降至 3808 万台，同比下降 22.5%，22Q3 单季度出货 690 万台，同比下降 45.7%，是十年以来最大的一次下滑，独立显卡出货情况 22Q4 开始逐渐转暖。

集成显卡出货情况仍然不容乐观。2022 年集成 GPU 出货量为 2.83 亿台，同比下滑 29.8%。疫情期间的居家办公需求带动了笔记本电脑的消费增长，集成显卡的购买激增一定程度上过早消耗了市场需求，后疫情时代，笔记本电脑端需求减弱叠加供应商的过剩库存导致集成显卡出货不断走低。

2022 年独立显卡出货遭遇巨大下滑的原因有三点：（1）受宏观经济影响，个人电脑市场处于下行周期；（2）部分独立 GPU 参与虚拟货币挖矿，以太坊合并对独立 GPU 出货造成巨大冲击；（3）下游板卡厂商开启降库存周期。

（1）原因一：个人电脑市场依旧处于下行周期

个人电脑市场保持疲软状态。根据 IDC 数据，2022 年全年 PC 出货量为 2.92 亿台，同比下降 15.5%，2022Q4 全球 PC 出货量仅为 6720 万台，同比下降 28.1%。IDC 预测 2023 年个人电脑市场全年出货 2.608 亿台，全年同比下降 10.7%。按照 2023 年的整体出货量情况，对四个季度的出货情况做了进一步预测，预计 2023Q2-2023Q3 后个人电脑出货将迎来逐季度好转。

下游 PC 厂商库存情况得到改善。当前个人电脑市场正处在 PC 厂商去库存周期，根据 PC 厂商的财报披露，华硕和联想的库存天数已经开始减少，其余三家（惠普、戴尔、宏碁）的库存天数并未显著降低，由于所有厂商都在积极采取行动减少产量，预计下游 PC 厂商库存情况会进一步改善，2023Q3 可能恢复到正常库存情况。

（2）原因二：显卡挖矿市场出现转折，以太坊转向权益证明

以太坊 ETH 占据显卡挖矿主要市场。根据 MESSARI 数据，在采用 GPU 挖矿的前 7 名虚拟货币中，以太坊 ETH 挖矿收入占 GPU 矿工总收入的 97%。比特币、莱特币等虚拟货币多采用功耗更低的 ASIC 矿机。

2022 年 9 月 15 日，以太坊运行机制全面升级，从以太坊 1.0 的工作量证明机制（PoW）转向以太坊 2.0 的权益证明机制（PoS），在工作量证明机制中，需要通过累积显卡提升计算能力，计算能力越强获得记账收益的概率越大；在权益证明机制中，只需通过质押虚拟货币获得收益，质押的虚拟货币数量越大获得记账收益的概率越高。以太坊全面合并后不再需要购入大量显卡、投入计算资源用于挖矿，是显卡挖矿市场的重要转折点。

挖矿用显卡平均哈希率为 46Mh/s。根据 HiveOS 矿池数据，通过不同型号显卡的哈希率和占比情况统计，估算得到衡量显卡挖矿能力的平均哈希率为 46Mh/s。

以太坊合并后显卡需求降至零。根据以太坊全网算力，测算得到用于以太坊挖矿的 GPU 数量在 2022 年 5 月达到巅峰，大概为 2573 万张，2022 年 9 月降至 2008 万张，在以太坊合并之后，显卡需求降至零。

如果按照 20% 回收比例测算，约 500 万张存量显卡将流入二手市场，预计带来的不利影响在 2022Q4-2023Q1 之间结束。

（3）原因三：GPU 厂商库存迎来好转，高端显卡价格企稳回升

GPU 厂商库存情况即将迎来好转。根据 Bloomberg 数据，GPU 下游四家台湾板卡厂商（华硕、技嘉、微星、华擎）自 2022 年一季度原材料库存达到历史高位以后，连续两个季度库存环比降低，当前原材料库存相比最高峰下降 28%。复盘历史可见，GPU 厂商成本库存高峰多于台湾板卡厂商原材料库存 2-3 季度后到来，预计 GPU 厂商的成品库存将于 2022Q4 到达顶峰。

高端显卡价格开始企稳回升。根据 Amazon 上的显卡价格跟踪，英伟达和 AMD 的高端显卡在 2022 年 10 月以后均实现了不同程度的价格回升，例如 RTX3080 价格上涨 30%，RTX3090 价格上涨 28%，显卡价格的回升意味着渠道商库存正逐步回归到正常水平，高端显卡受挖矿市场冲击更为剧烈，高端显卡价格上涨从侧面也能观察到挖矿市场带来的不利影响正在逐渐消失。

3、GPU 在数据中心的应用蕴藏巨大潜力

在数据中心，GPU 被广泛应用于人工智能的训练、推理、高性能计算（HPC）等领域。

预训练大模型带来的算力需求驱动人工智能服务器市场快速增长。巨量化是人工智能近年来发展的重要趋势，巨量化的核心特点是模型参数多，训练数据量大。Transformer 模型的提出开启了预训练大模型的时代，大模型的算力需求提升速度显著高于其他 AI 模型，为人工智能服务器的市场增长注入了强劲的驱动力。根据 Omdia 数据，人工智能服务器是服务器行业中增速最快的细分市场，CAGR 为 49%。

战略需求推动 GPU 在高性能计算领域稳定增长。高性能计算（HPC）提供了强大的超高浮点计算能力，可满足计算密集型、海量数据处理等业务的计算需求，如科学研究、气象预报、计算模拟、军事研究、生物制药、基因测序等，极大缩短了海量计算所用的时间，高性能计算已成为促进科技创新和经济发展的重要手段。

（1）大模型带来人工智能算力的旺盛需求

自然语言大模型参数巨量化是行业发展趋势所向。以 ChatGPT 为代表的人工智能模型表现出高度的智能化和拟人化，背后的因素在于自然语言大模型表现出来的涌现能力和泛化能力，模型参数到达千亿量级后，可能呈现性能的跨越式提升，称之为涌现能力；在零样本或者少样品学习情景下，模型仍表现较强的迁移学习能力，称之为泛化能力。两种能力都与模型参数量密切相关，人工智能模型参数巨量化是重要的行业发展趋势。

预训练大模型进入千亿参数时代，模型训练算力需求迈上新台阶。自 GPT-3 模型之后，大规模的自然语言模型进入了千亿参数时代，2021 年之后涌现出诸多千亿规模的自然语言模型，模型的训练算力显著增加。ChatGPT 模型参数量为 1750 亿，训练算力需求为 3.14*1023flops，当前各种预训练语言模型还在快速的更新迭代，不断刷新自然语言处理任务的表现记录，单一模型的训练算力需求也不断突破新高。

（2）大模型带来 AI 芯片需求的显著拉动

大模型的算力需求主要来自于三个环节：

预训练得到大模型的训练环节。该环节中，算力呈现海量需求且集中训练的特点，大模型通常在数天到数周内在云端完成训练。模型的训练算力与模型参数量、训练数据量有关，以 ChatGPT 的训练为例，单次模型训练需要 2000 张英伟达 A100 显卡不间断训练 27 天。

适应下游领域时进一步 fine-tune 环节。算力需求取决于模型的泛化能力以及下游任务的难度情况。

大模型日常运行时的推理环节。大模型的日常运行中每一次用户调用都需要一定的算力和带宽作为支撑，单次推理的计算量为 2N（N 为模型参数量），例如 1750 亿参数的 ChatGPT 模型 1ktokens 的推理运算量为 2*1750*108*103=3.5*1014flops=350 Tflops。近期 ChatGPT 官网吸引的每日访客数量接近 5000 万，每小时平均访问人数约 210 万人，若高峰时期同时在线人数 450 万人，一小时内每人问 8 个问题，每个问题回答 200 字，测算需要 14000 块英伟达 A100 芯片做日常的算力支撑。大模型在融入搜索引擎或以 app 形式提供其他商业化服务过程中，其 AI 芯片需求将得到进一步的显著拉动。

4、AI 服务器是 GPU 市场规模增长的重要支撑

根据 Omdia 数据，2019 年全球人工智能服务器市场规模为 23 亿美金，2026 年将达到 376 亿美金，CAGR 为 49%。根据 IDC 数据，2020 年中国数据中心用于 AI 推理的芯片的市场份额已经超过 50%，预计到 2025 年，用于 AI 推理的工作负载的芯片将达到 60.8%。

人工智能服务器通常选用 CPU 与加速芯片组合来满足高算力要求，常用的加速芯片有 GPU、现场可编程门阵列（FPGA）、专用集成电路（ASIC）、神经拟态芯片（NPU）等。GPU 凭借其强大的并行运算能力、深度学习能力、极强的通用性和成熟的软件生态，成为数据中心加速的首选，90% 左右的 AI 服务器采用 GPU 作为加速芯片。

受云厂商资本开支影响 AI 服务器市场或将短期增速放缓。

北美云厂商资本开支有所放缓。人工智能服务器多采取公有云、私有云加本地部署的混合架构，以北美四家云厂商资本开支情况来跟踪人工智能服务器市场需求变动，2022 年四家云厂商资本开支合计 1511 亿美元，同比增长 18.5%。Meta 预计 2023 年资本开支的指引为 300-330 亿美元之前，与 2022 年基本持平，低于此前 22Q3 预计的 340 亿到 390 亿美元；谷歌预计 2023 年资本开支将于 2022 年基本持平，但是会加大 AI 及云服务的建设投资。

信骅科技短期营收下滑有所缓解。作为全球最大的 BMC 芯片企业，信骅科技（Aspeed）的营收变化情况一般领先云厂商资本开支一个季度，其月度营收数据可以作为云厂商资本开支的前瞻指标，信骅科技近期营收下滑有所缓解。

5、GPU 在超算服务器中的市场规模保持稳定增长

GPGPU 在高性能计算领域渗透率不断提升。在高性能计算领域，CPU+GPU 异构协同计算架构得到越来越多的应用，全球算力前 500 的超级计算机中，有 170 套系统采用了异构协同计算架构，其中超过 90% 以上的加速芯片选择了英伟达的 GPGPU 芯片。

GPU 在超算服务器中的市场规模保持稳定增长。根据 Hyperion Research 数据，全球超算服务器的市场规模将从 2020 年的 135 亿美金上升到 2025 年的 199 亿美金，按照 GPU 在超算服务器中成本占比为 27.3% 核算，GPU 在超算服务器中的市场规模将从 2020 年的 37 亿上升至 2025 年的 54 亿美金，CAGR 为 8%。

6、自动驾驶领域 GPU 市场保持高成长性

在自动驾驶领域，各类自动驾驶芯片得到广泛的应用。根据 Yole 数据，全球自动驾驶市场 2025 年将达到 780 亿美金，其中用于自动驾驶的 AI 芯片超过 100 亿美元。

自动驾驶 GPU 市场保持较高高成长性。根据 ICVTank 的自动驾驶渗透数据，假设 GPU 在 L2 中渗透率 15%，在 L3-L5 中渗透率 50%，估算得到 GPU 在自动驾驶领域的市场规模，整体规模将从 2020 年的 7.1 亿美元上升至 2025 年的 44 亿美金，CAGR 为 44%。

五、产业链及竞争格局分析

1、GPU 产业链

GPU 行业的产业链主要涉及三个环节：设计、制造、封装。供给模式有 IDM、Fab+Fabless 和 Foundry 三种。IDM 模式：指将 GPU 产业链的三个环节整体化，充分结合自主研发和外部代工，集设计、制造、封装为一体，公司垂直整合 GPU 整体产业链。Fab+Fabless：充分发挥各企业比较优势，仅负责芯片电路设计，将产业链其他环节外包，分散了 GPU 研发和生产的风险。Foundry：公司仅负责芯片制造环节，不负责上游设计和下游封装，可以同时为多家上游企业服务。

2、竞争格局

全球 GPU 市场中，基本被 Nvidia、Intel 和 AMD 三家垄断。据 JPR 统计，全球 PC GPU 在 2022 年 Q2 出货量达到 8400 万台，同比下降 34%，预计 2022-2026 年 GPU 复合增长率为 3.8%。从市场格局来看，Nvidia、Intel 和 AMD 三家在 2022 年 Q2 市场占有率分别为 18%、62% 和 20%，Intel 凭借其集成显卡在桌面端的优势占据最大的市场份额。

独显市场中，Nvidia 占据领先地位。不同于整体市场，在独显市场中，Nvidia 与 AMD 双雄垄断市场，其 2022 年 Q2 市占率分别约为 80% 和 20%，可以看到近年来 Nvidia 不断巩固自己的优势，其独立显卡市占率整体呈现上升趋势。

国内市场来看，国产 GPU 赛道持续景气。近年来，国产 GPU 公司如雨后春笋般涌现，璧韧科技、摩尔线程、芯动科技、天数智能等公司纷纷发布新品。但是 IP 授权来看，国内主要的 GPU 创业公司，如芯动、摩尔线程、壁仞等采用的是 Imagination IP 或芯原授权的 IP。但是 IP 授权来看，国内主要的 GPU 创业公司，如芯动、摩尔线程、壁仞等采用的是 Imagination IP 或芯原授权的 IP。芯动科技发布的首款高性能 4K 级显卡 GPU 芯片 “风华 1 号”，使用了 Imagination 的 IMG B 系列 GPU IP，是 Imagination IP 在中国市场的首个高端 GPU 应用。据报道，摩尔线程芯片设计的关键部分也来自 Imagination Technologies。

Imagination 是一家总部位于英国，致力于打造半导体和软件知识产权（IP）的公司。公司的图形、计算、视觉和人工智能以及连接技术可以实现出众的 PPA（功耗、性能和面积）指标、强大的安全性、快速的上市时间和更低的总体拥有成本（TCO）。2017 年 9 月，私募投资公司 Canyon Bridge 以 5.5 亿英镑收购 Imagination，Canyon Bridge 其背后投资方为中国国新。

3、美国对华禁令如何应对

根据路透社报道，2022 年 8 月 31 日，美国政府要求英伟达的 A100、H100 系列和 AMD 的 MI250 系列及未来的高端 GPU 产品，是否可以售卖给中国客户，需要获得美国政府的许可。这几款芯片均为用于通用计算的高端 GPGPU，通常应用在人工智能计算的云端训练和推理场景和超级计算机中，在中国的客户多为云计算厂商及高校和科研院所。

为应对封锁，短期来看可以选择英伟达和 AMD 的还没有被禁止的中低性能 GPU 芯片。对于云端计算，算力既可以通过产品升级得以提升，也可以通过增加计算卡的数量进行提升，因此短期内可以通过使用多个算力较低的 CPU、GPU 和 ASIC 芯片来复制高端 GPU 芯片的处理能力，基本可以满足云端训练和高性能计算的要求。长期来看，选择国产 GPU 进行替代。虽然芯片是算力的主要来源和最根本的物质基础，但是算力的生产、聚合、调度和释放是一个完整过程，需要复杂系统的软硬件生态共同配合，才能实现 “有效算力”。因此短期内可能会因为无法兼容在人工智能领域广泛使用的 CUDA 架构而遭遇替换困难，但是长期来看，国产 CPU、通用 GPU、AI 芯片将获得前所未有的发展机会，通过软硬件技术提升，逐步实现高端 GPU 领域的国产化替代。

六、相关公司

1、国外公司

（1）英伟达

英伟达是一家专注于 GPU 半导体设计的企业。公司成立于 1993 年，1999 年英伟达推出 GeForce256 芯片，并首次定义了 GPU 的概念；随后创新性的提出 CUDA 架构，让此前只做 3D 渲染的 GPU 实现通用计算功能；进入 2010 年代后，英伟达在 AI 行业发展初期市场皆不看好的情况下，前瞻性预见了 GPU 在 AI 市场的应用并全力以赴开展相关布局；当前，公司以数据中心、游戏、汽车、专业视觉四大类芯片为收入基础，完成了硬件、系统软件、软件平台、应用框架全栈生态的建设。

追溯公司历史，英伟达以技术创新为基，持续推动 GPU 行业的发展，可以称得上是 GPU 时代奠基人。英伟达公司发展史可简单划分为四个阶段：

（1）蓄力阶段：1993 年黄仁勋联合 Sun Microsystem 公司两位年轻工程师共同创立英伟达，早期致力于图形芯片的研发。1997 年公司推出 RIVA128，这是公司第一款真正意义上取得成功的产品。

（2）崛起阶段：1999 年公司推出 GeForce256 并定义 GPU 芯片，此英伟达走上了重塑显卡行业的道路。

（3）制霸阶段：2006 年英伟达创新性推出 CUDA 架构。CUDA 是英伟达基于自有 GPU 的一个并行计算平台和编程模型。CUDA 带来两方面巨大影响，于 GPU 行业而言，CUDA 使得只做 3D 渲染的 GPU 得以实现通用计算功能，而对于英伟达公司本身来说，其在早期大力推广 CUDA，并对 CUDA 进行了编程语言扩展，使得开发人员能够轻易地对 GPU 进行编程，目前 CUDA 是最主流的两个 GPU 编程库之一，奠定了英伟达 GPU 生态得以成型的基础。

（4）腾飞阶段：押注 AI，数据中心业务开启第二成长曲线。2012 年 Alex Krizhevsky 利用 GPU 进行深度学习，通过几天训练在 ImageNet 竞赛中获得冠军，其将深度卷积神经网络 AlexNet 的准确率提高了 10.8%，震撼了学术界，从此开启 GPU 应用于深度学习的大门，其使用的正是 NVIDIA GTX 580GPU 芯片和 CUDA 计算模型。此后，英伟达 GPU 和 CUDA 模型成为深度学习（尤其是训练环节）的首选芯片，而英伟达也顺势推出海量专用于 AI 的芯片及配套产品，从显卡硬件公司华丽转型成为人工智能公司。

英伟达平均每两年推出一代芯片架构、每半年推出一款新的产品，多年以来坚持不辍。从 2009 年的 Fermi 架构到当前的 Hopper 架构，公司产品性能稳步提升，并始终引领 GPU 芯片技术发展。

目前，英伟达 GPU 芯片已形成覆盖数据中心、游戏、专业视觉和汽车业务几大场景的芯片产品阵列，其中消费级 GPU 和数据中心 GPU 是最核心场景。NVIDIA 数据中心业务自 2017 年开始快速扩张，先后发布 V100、A100 等高性能通用计算显卡，为全球提供顶尖的 AI 算力。最新产品代际下 NVIDIA 已经在 2022 年 9 月 20 日推出 GeForce 40 系列首款产品。

（2）AMD

美国超威半导体公司（AMD）创立于 1969 年，专门为计算机、通信和消费电子行业提供各类微处理器以及提供闪存和低功率处理器方案，公司是全球领先的 CPU、GPU、APU 和 FPGA 设计厂商，掌握中央处理器、图形处理器、闪存、芯片组以及其他半导体技术，具体业务包括数据中心、客户端、游戏、嵌入式四大部分。公司采用 Fabless 研发模式，聚焦于芯片设计环节，制造和封测环节则委托给全球专业的代工厂处理。目前全球 CPU 市场呈 Intel 和 AMD 寡头垄断格局，Intel 占主导地位。在独立 GPU 市场中，主要是英伟达（NVIDIA）、AMD 进行角逐，Intel 目前凭借其锐炬 Xe MAX 产品也逐步进入独立 GPU 市场。

公司营收主要包括四部分。数据中心业务主要包括用于数据中心服务器的各类芯片产品；客户端业务主要包括用于 PC 的各类处理器芯片；游戏业务主要包括独立 GPU 及其他游戏产品开发服务；嵌入式业务主要包括适用于边缘计算的各类嵌入式计算芯片。

AMD 可以提供集成 GPU 和独立 GPU 两类 PC GPU。集成 GPU 主要被运用在台式机和笔记本的 APU 产品、嵌入式等产品中，主要用于游戏、移动设备、服务器等应用。APU 带有集成的板载 GPU，CPU 和 GPU 的高度融合在一起协同计算、彼此加速，相比于独立 GPU 更具性价比优势。

独立 GPU 为 Radeon 系列。AMD 的 Radeon 系列独立 GPU 按推出时间先后顺序可以分为 RX500 系列、Radeon7、RX5000 系列、RX6000 系列、RX7000 系列。Radeon 系列显卡具备一定的性价比优势，市场份额有进一步上升的空间。

RDNA3 架构采用 5nm 工艺和 chiplet 设计，比 RDNA2 架构有 54% 每瓦性能提升，包括 2.7 倍 AI 吞吐量、1.8 倍第二代光线追踪技术，5.3TB/s 的峰值带宽、4K480Hz 和 8K165HZ 的刷新率等。AMD 预计 2024 年推出 RDNA4 架构，将采用更为先进的工艺制造。

2018 年，AMD 推出用于数据中心的 Radeon Instinct GPU 加速芯片，Instinct 系列基于 CDNA 架构。在通用计算领域，最新的 CDNA2 架构相比 CDNA1 架构，实现计算能力和互联能力的显著提升，MI250X 采用 CDNA2 架构。在向量计算方面，CDNA2 对向量流水线进行了优化，FP64 的工作频率与 FP32 相同，具备同样的向量计算能力。在矩阵计算方面，CDNA2 引入了新的矩阵乘指令级，特别适用于 FP64 精度，此外 MattrixCore 还支持 FP32、FP16（BF16）和 INT8 的计算精度。在互联方面，通过 AMD infinityfabric 接口实现加速器之间的 P2P 或者 I/O 通信，提供 800GB/s 的总理论带宽，相比上一代提升了 235%。

AMD ROCm 是 2015 年 AMD 公司为了对标 CUDA 生态而开发的一套用于 HPC 和超大规模 GPU 计算提供的开源软件开发平台。ROCm 之于 AMD GPU 相当于 CUDA 之于英伟达 GPU。

AMD ROCm 是一个开放式软件平台，为追求高灵活性和高性能而构建，针对加速式计算且不限定编程语言，让机器学习和高性能计算社区的参与者能够借助各种开源计算语言、编译器、库和重新设计的工具来加快代码开发，适合大规模计算和支持多 GPU 计算，其创立目标是建立可替代 CUDA 的生态。

2、国内公司

（1）海光信息

海光信息成立于 2014 年，主营业务是研发、设计和销售应用于服务器、工作站等计算、存储设备中的高端处理器。产品包括海光通用处理器（CPU）和海光协处理器（DCU），目前已经研发出多款新能达到国际同类主流产品的高端 CPU 和 DCU 产品。2018 年 10 月，公司启动深算一号 DCU 产品设计，目前海光 DCU 系列深算一号已经实现商业化应用，2020 年 1 月，公司启动了第二代 DCU 深算二号的产品研发工作。

海光 DCU 属于 GPGPU 的一种，海光 DCU 的构成与 CPU 类似，其结构逻辑相 CPU 简单，但计算单元数量较多。海光 DCU 的主要功能模块包括计算单元（CU）、片上网络、高速缓存、各类接口控制器等。深度计算处理器（Deep-learning Computing Unit，DCU）是公司基于通用的 GPGPU 架构，设计、发布的适合计算密集型和运算加速领域的一类协处理器，定义为深度计算处理器 DCU。兼容通用的 “类 CUDA” 环境以及国际主流商业计算软件和人工智能软件，软硬件生态丰富，可广泛应用于大数据处理、人工智能、商业计算等应用领域。海光 8100 采用先进的 FinFET 工艺，典型应用场景下性能指标可以达到国际同类型高端产品的同期水平，在国内处于领先地位。2021 年下半年 DCU 正式实现商业化应用。

海光信息 DCU 协处理器全面兼容 ROCm GPU 计算生态，由于 ROCm 和 CUDA 在生态、编程环境等方面具有高度的相似性，CUDA 用户可以以较低代价快速迁移至 ROCm 平台，因此 ROCm 也被称为 “类 CUDA”。因此，海光 DCU 协处理器能够较好地适配、适应国际主流商业计算软件和人工智能软件，软硬件生态丰富，可广泛应用于大数据处理、人工智能、商业计算等计算密集类应用领域，主要部署在服务器集群或数据中心，为应用程序提供高性能、高能效比的算力，支撑高复杂度和高吞吐量的数据处理任务。

（2）景嘉微

长沙景嘉微电子股份有限公司成立于 2006 年，2015 年推出首款国产 GPU，是国内首家成功研制具有完全自主知识产权的 GPU 芯片并实现工程应用的企业，2016 年在深交创业板成功上市。公司业务布局图形显示、图形处理芯片和小型专用化雷达领域，产品涵盖集成电路设计、图形图像处理、计算与存储产品、小型雷达系统等方向。

公司 GPU 研发历史悠久，技术积淀深厚。公司成立之初承接神舟八号图形加速任务，为图形处理器设计打下坚实基础；公司 2007 年自主研发成功 VxWorks 嵌入式操作系统下 M9 芯片驱动程序，并解决了该系统下的 3D 图形处理难题和汉字显示瓶颈，具备了从底层上驾驭图形显控产品的能力。2015 年具有完全自主知识产权的 GPU 芯片 JM5400 问世，具备高性能、低功耗的特点；此后公司不断缩短研发周期，JM7200 在设计和性能上有较大进步，由专用市场走向通用市场；JM9 系列定位中高端市场，是一款能满足高端显示和计算需求的的通用型芯片。

JM7200 采用 28nm CMOS 工艺，内核时钟频率最大 1300MHz，存储器内存为 4GB，支持 OpenGL1.5/2.0，能够高效完成 2D、3D 图形加速功能，支持 PCIe2.0 主机接口，适配国产 CPU 和国产操作系统平台，可应用于个人办公电脑显示系统以及高可靠性嵌入式显示系统。JM9 系列面向中高端通用市场，可以满足地理信息系统、媒体处理、CAD 辅助设计、游戏、虚拟化等高性能显示需求和人工智能计算需求。2022 年 5 月，JM9 系列第二款芯片已完成初步测试工作。

（3）壁仞科技

公司主营业务为高端通用智能计算芯片。壁仞科技创立于 2019 年，公司致力于开发原创性的通用计算体系，建立高效的软硬件平台，同时在智能计算领域提供一体化的解决方案。从发展路径上，公司将首先聚焦云端通用智能计算，逐步在人工智能训练和推理、图形渲染等多个领域赶超现有解决方案，实现国产高端通用智能计算芯片的突破。2022 年 3 月，公司首款通用 GPU 芯片 BR100 成功点亮，后于 2022 年 8 月正式发布，创下全球算力的新纪录。

公司的产品体系主要涵盖 BR100 系列通用 GPU 芯片、BIRENSUPA 软件开发平台以及开发者云三大板块。其中，BR100 系列通用 GPU 芯片是公司的核心产品，目前主要包括 BR100、BR104 两款芯片。BR100 系列针对人工智能（AI）训练、推理，及科学计算等更广泛的通用计算场景开发，主要部署在大型数据中心，依托 “壁立仞” 原创架构，可提供高能效、高通用性的加速计算算力。

BR100 系列在性能、安全等方面具备多项核心优势。公司致力于打造性能先进、竞争力强的 GPU 芯片，并为此采取了大量技术措施，具体包括：支持 7nm 制程，并创新性应用 Chiplet 与 2.5D CoWoS 封装技术，兼顾高良率与高性能；支持 PCIe 5.0 接口技术与 CXL 通信协议，双向带宽最高达 128GB/s 等。2022 年公司正式推出壁砺™100，其峰值算力达到国际厂商在售旗舰的 3 倍以上，超越了国际厂商同类的在售旗舰产品，竞争优势十分显著。同时，在安全方面，BR100 系列最高支持 8 个独立实例，每个实例物理隔离并配备独立的硬件资源，可独立运行。

（4）摩尔线程

摩尔线程是一家以 GPU 芯片设计为主的集成电路高科技公司。公司诞生于 2020 年 10 月，专注于研发设计全功能 GPU 芯片及相关产品，支持 3D 高速图形渲染、AI 训练推理加速、超高清视频编解码和高性能科学计算等多种组合工作负载，兼顾算力与算效，为中国科技生态合作伙伴提供强大的计算加速能力。在 “元计算” 赋能下一代互联网的愿景下，公司将持续创新面向元计算应用的新一代 GPU，构建融合视觉计算、3D 图形计算、科学计算及 AI 计算的综合计算平台，建立基于云原生 GPU 计算的生态系统，助力驱动数字经济发展。

公司的产品体系主要包括：MTTS60、MTTS2000、MTTS100 等硬件产品；MTSmart Media Engine、MT GPU Management Center、MT DirectStream、MT OCR 等软件产品；以及 MUSA 统一系统架构、DIGITALME 数字人解决方案、元计算应用解决方案等其他产品。

MTTS60 显卡由基于 MUSA 架构的 GPU 苏堤核心晶片制成，采用 12nm 制程，包含 2048 个 MUSA 核心，单精度算力最高可达 6TFlops，配置 8GB 显存，基于 MUSA 软件运行库和驱动程序等软件工具。在先进硬件规格的支撑下，MTTS60 显卡能够在不同应用场景中展现多重优势：丰富图形 API、4K/8K 超高清显示、领先的硬件视频编解码能力、通用 AI 功能支持等。

MTTS2000 采用 12nm 制程，使用 4096 个 MUSA 核心，最大配置 32GB 显存，单精度算力最高可达到 12TFlops，支持 H.264、H.265、AV1 多路高清视频编解码，以及广泛的 AI 模型算法加速。同时，MTTS2000 还采用了被动散热、单槽设计，以满足数据中心高密度 GPU 配置方式。目前，MTTS2000 已经能够兼容 X86、ARM 等 CPU 架构以及主流 Linux 操作系统发行版，并与浪潮、新华三、联想、清华同方等多家服务器合作伙伴建立了合作关系，产品生态持续完善。作为公司面向数据中心领域的 GPU 芯片，除了生态外，MTTS2000 还具备全功能 GPU、丰富的图形 API 支持、绿色计算等优势。基于多维算力、生态完善等优势，MTTS2000 有望助力公司赋能 PC 云桌面、安卓云游戏、音视频云处理、云端 Unreal/Unity 应用渲染和 AI 推理计算等多类应用场景。

七、未来展望

1、未来部分厂商有望迎来爆发式增长

GPU 作为数据计算核心底座，战略地位高，国家高度重视，中美科技摩擦背景下，自主可控势在必行。从成长性维度看，全球市场空间广阔，国内市场规模也达到百亿量级，同时伴随下游需求提升而加速提升。在数字化驱动总需求提升背景下，叠加国产化趋势，国产 GPU 产业迎来总量和份额双提升机遇，国产 GPU 厂商发展提速。大市场需求下，GPU 国产化空间广阔，优秀厂商稀缺性凸显，加速成长，部分厂商有望爆发式增长。

2、中国 GPU 市场将快速增长，有望为相应细分领域带来更快的成长

庞大的需求 + 逐渐成熟的产业预示着广阔的发展空间。在人工智能、云游戏、自动驾驶等新场景和需求爆发式增长的背景下，能够判断中国 GPU 市场将快速增长，相比于 PC 市场，新增市场空间或更大。相比于 PC 等传统 IT 应用场景，中国在人工智能、自动驾驶领域与强国处于同一竞争水平，且中国庞大市场有望为相应细分领域带来更快的成长。

八、参考研报

1. 中信建投 - GPU 行业深度研究：AI 大模型浪潮风起，GPU 芯片再立潮头

2. 长江证券 - 软件与服务行业信创系列深度之 GPU：破晓而生，踏浪前行

3. 安信证券 - 半导体行业 AI 算力产业链梳理~ 技术迭代推动瓶颈突破，AIGC 场景增多驱动算力需求提升

4. 华创证券 - 景嘉微 - 300474 - 深度研究报告：国产 GPU 龙头，民用开启第二成长曲线

5. 中信证券 - 计算机行业 “构筑中国科技基石” 系列报告 25：GPU，研究框架（100 页）