您的位置:首页 > 财经 > 产业 > 国外免费b2b_哈尔滨专业优化网站个人_外链相册_子域名大全查询

国外免费b2b_哈尔滨专业优化网站个人_外链相册_子域名大全查询

2025/5/10 18:39:35 来源:https://blog.csdn.net/Jamence/article/details/145801570  浏览:    关键词:国外免费b2b_哈尔滨专业优化网站个人_外链相册_子域名大全查询
国外免费b2b_哈尔滨专业优化网站个人_外链相册_子域名大全查询

显卡对比

型号A100
80GB SXM
A100
80GB PCIe
H100
80GB SXM
H100
80GB PCIe
H20H800
80GB SXM
H800
80GB PCIe
数据来源链接链接链接链接链接链接链接
GPU架构AmpereAmpereHopperHopperHopperHopperHopper
显存容量80GB HBM2e80GB HBM2e80GB94GB96GB80GB80GB
显存带宽1,935 GB/s2,039 GB/s3.35

TB/s
3.9

TB/s
4.0

TB/s
3.35

TB/s
2

TB/s
NVLink600 GB/s600 GB/s900

GB/s
600

GB/s
900

GB/s
400

GB/s
400

GB/s
PCIeGen4: 64 GB/sGen4: 64 GB/sGen5: 128GB/sGen5: 128GB/sGen5: 128GB/sGen5: 128GB/sGen5: 128GB/s
FP64 (TFLOPS)9.79.73430110.8
FP64 Tensor Core (TFLOPS)19.519.56760-10.8
FP32 (TFLOPS)19.519.56760446751
TP32 Tensor Core (TFLOPS)31215698983574989756
BFLOAT16 Tensor Core (TFLOPS)6243121,9791,6711481,9791,513
FP16 Tensor Core (TFLOPS)6243121,9791,6711481,9791,513
FP8 Tensor Core (TFLOPS)--3,9583,3412963,9583,026
INT8 Tensor Core (TOPS)12486243,9583,3412963,9583,026
INT4 Tensor Core (TOPS)-------
最大功耗400W300W700W350-400W400W700W350-

400W
服务器配置HGX支持4、8、16卡

DGX支持8卡
1-8卡HGX支持4、8卡

DGX支持8卡
1-8卡HGX支持8卡

DGX支持8卡
1-8卡
价格10w左右10w左右20w左右20w左右10万左右20w左右20w左右

名词解释

PCIe

![[Pasted image 20250221182302.png]]
在显卡配置中,PCIe一般指PCIe接口,是服务器实现IO扩展的关键,PCIe接口除了用于插PCIe的GPU卡外,也可以广泛用于Raid卡、网卡、HBA卡等。

不同版本PCIe接口的速度如下:

PCIe版本传输速率 (GT/s)
PCIe 1.02.5
PCIe 2.05
PCIe 3.08
PCIe 4.016
PCIe 5.032
PCIe 6.064

PCIe版本的GPU, 发布的时候Nvidia是一张一张独立出售的。

SXM

SXM是专为GPU设计的高带宽接口,基于NVLink技术的互联方式,实现多个GPU直接互联。相较于PCIe接口,具备提供更高的带宽和更低的延迟,更好的稳定性和可靠性,常用于高性能计算和数据中心。

SXM版本的GPU 发布的时候Nvidia配置了标准的HGX平台, 相当于把8张或者4张GPU在HGX平台做成一个模块,按照模块出售。

NvLink和SXM其实说的都是一个东西,NvLink是从互联的角度说的, SXM是从板子上面接口的角度说的。

GPU架构

NVIDIA的GPU架构已经发展了多代,每一代架构都有其独特的特点和改进之处。

1.Tesla架构(第一代)

  • 发布时间:2006年
  • 主要特点:Tesla架构是NVIDIA的第一代GPU架构,主要用于科学计算和数据中心。它引入了CUDA核心,支持并行计算,奠定了NVIDIA在高性能计算领域的基础。

2.Fermi架构(第二代)

  • 发布时间:2010年
  • 主要特点:Fermi架构引入了L1和L2缓存,提高了内存访问效率。它还支持双精度浮点运算(FP64),提升了科学计算的精度和性能。Fermi架构的GPU包括Fermi GF100等型号。

3. Kepler架构(第三代)

  • 发布时间:2012年
  • 主要特点:Kepler架构在能效比方面有显著提升,采用了更高效的SIMD(Single Instruction Multiple Data)架构。它还引入了动态并行(Dynamic Parallelism)技术,允许GPU在执行过程中动态创建和管理线程。Kepler架构的GPU包括Kepler GK104等型号。

4. Maxwell架构(第四代)

  • 发布时间:2014年
  • 主要特点:Maxwell架构在能效比方面进一步优化,采用了更先进的制造工艺(如28nm)。它引入了新的内存压缩技术,提高了显存带宽和容量。Maxwell架构的GPU包括Maxwell GM204等型号。

5. Pascal架构(第五代)

  • 发布时间:2016年
  • 主要特点:Pascal架构引入了HBM2显存,提供了更高的显存带宽和更低的功耗。它还支持更广泛的精度计算(如FP16、FP32、FP64),在深度学习和高性能计算方面有显著提升。Pascal架构的GPU包括Pascal GP100等型号。

6. Volta架构(第六代)

  • 发布时间:2017年
  • 主要特点:Volta架构引入了Tensor Core,专门用于深度学习中的矩阵计算,显著提升了AI训练和推理的性能。它还支持HBM2显存和第二代NVLink技术,提供了更高的内存带宽和GPU间通信速度。Volta架构的GPU包括Tesla V100等型号。

7. Turing架构(第七代)

  • 发布时间:2018年
  • 主要特点:Turing架构引入了实时光线追踪(RT Core)和深度学习超采样(DLSS)技术,显著提升了图形渲染和AI性能。它还支持GDDR6显存,提供了更高的显存带宽。Turing架构的GPU包括GeForce RTX 20系列和Quadro RTX 6000等型号。

8. Ampere架构(第八代)

  • 发布时间:2020年
  • 主要特点:Ampere架构在计算能力、能效和深度学习性能方面有重大提升。它引入了第三代Tensor Core,支持更高效的混合精度运算,显著提升了AI训练和推理的性能。Ampere架构的GPU还包括更多的CUDA核心和更高的显存带宽,适用于大规模数据处理和机器学习任务。代表产品包括NVIDIA A100、GeForce RTX 30系列等。

9. Hopper架构(第九代)

  • 发布时间:2022年
  • 主要特点:Hopper架构采用了多芯片模块(MCM)设计,将多个小芯片通过高速互连技术整合在一起,提高了性能密度和良率。它引入了第四代Tensor Core,支持更广泛的数学运算精度(如FP64、TF32、FP16等),在AI性能方面实现了显著提升。Hopper架构还支持动态稀疏性,允许GPU在处理神经网络时跳过零值权重的计算,提高了效率和性能。代表产品包括NVIDIA H100、H800等。

显存类型

GDDR(Graphics Double Data Rate,图形双倍数据速率)

常见的显存类型,具有较高的带宽和较低的延迟,适用于大多数显卡,如NVIDIA的GeForce系列和AMD的Radeon系列显卡。

HBM

HBM显存是一种新型的高性能、高带宽显存。它的设计理念是通过堆叠多个内存芯片来实现高密度和高带宽。例如,HBM2 内存通过 1024 位的数据通道和 8 个堆叠层,能够提供高达 256GB/s 的带宽。HBM3 更进一步,通过增加堆叠层数和提高数据传输速率,达到每秒 819GB 的带宽。

类型数据传输速率 (Gb/s)通道位宽 (bit)最大带宽 (GB/s)可堆叠层数每堆容量 (GB)发布日期
HBM 11.01024128412013
HBM 22.01024256882016
HBM 2E3.2 ~ 3.61024410 ~ 4604 ~ 8162019
HBM 36.410248198 ~ 12242023
HBM 3E9.2102411778 ~ 12362024
HBM 46.42048153616642025(计划)

显存带宽

显存带宽表示单位时间内显存能够传输的数据量。显存带宽越高,显卡处理图形数据的速度就越快。
相较于显存容量

  • 显存容量决定了显卡能够处理多大的数据量,例如高分辨率纹理、复杂场景等。
  • 显存带宽决定了显卡处理数据的速度,带宽越高,数据传输越快。

数据类型

以下是各种数据类型的详细解释:

FP64和FP64 Tensor Core

  • FP64(Double Precision Floating-Point) :是一种 64 位(8 个字节)的浮点数格式,符合 IEEE 754 标准。其结构包括1位符号位、11位指数位和52位尾数位,能够表示非常大的数值范围(从大约 ± 2 − 1022 ±2^{-1022} ±21022 ± ( 2 − 2 − 52 ) × 2 1023 ) ±(2-2^{-52})×2^{1023}) ±2252×21023和极小的数值范围(近似等于 ± 2 − 1074 ±2^{-1074} ±21074)。
  • FP64 Tensor Core :是专门为处理 64 位浮点数设计的张量核心,可加速大规模矩阵运算。相比传统计算单元,它在进行 64 位矩阵乘法和加法时速度更快,更适用于高精度计算场景下的深度学习和神经网络训练。

FP32以及TP32 Tensor Core

  • FP32(Single Precision Floating-Point) :是一种 32 位(4 个字节)的浮点数格式,同样符合 IEEE 754 标准。它包含1位符号位、8位指数位和23位尾数位,数值范围从大约 ± 1.18 × 1 0 − 38 ±1.18×10^{-38} ±1.18×1038 ± 3.4 × 1 0 38 ±3.4×10^{38} ±3.4×1038,精度约为 7 位有效数字。
  • TP32 Tensor Core :张量核心的一种,主处理 32 位张量数据。相比 FP64 Tensor Core,它的功耗较低,运算效率更高,适用于大规模矩阵运算,加速 FP32 数据的深度学习训练和推理。例如,在多层神经网络前向传播和反向传播时,快速处理 FP32 矩阵乘法。

BFLOAT16 Tensor Core 与 FP16 Tensor Core

  • BFLOAT16(Bfloat16)Tensor Core 是一种专为深度学习训练设计的硬件加速单元,支持 BFLOAT16 精度的矩阵乘法和累加运算。BFLOAT16 是一种 16 位浮点数格式,具有与 FP32 相同的指数位数(8 位),但尾数位数减少到 7 位。
  • FP16 Tensor Core 是一种用于加速深度学习计算的硬件单元,支持 FP16(半精度浮点数)精度的矩阵乘法和累加运算。FP16 是一种 16 位浮点数格式,具有 5 位指数和 10 位尾数。

FP8 Tensor Core

FP8 Tensor Core 是一种用于低精度计算的硬件加速单元,支持 FP8 精度的矩阵乘法和累加运算。FP8 是一种 8 位浮点数格式,具有更小的存储需求和更低的计算资源消耗。

INT8 Tensor Core 和 INT4 Tensor Core

  • INT8 Tensor Core 是一种用于整数运算的硬件加速单元,支持 INT8 精度的矩阵乘法和累加运算。INT8 是一种 8 位整数格式,常用于深度学习中的量化计算。
  • INT4 Tensor Core 是一种用于更低精度整数运算的硬件加速单元,支持 INT4 精度的矩阵乘法和累加运算。INT4 是一种 4 位整数格式,具有更低的存储需求和计算资源消耗。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com