模型广场全新上线,注册即免费体验 4090 高性能 GPU! 马上体验
行业资讯
用于AI 工作负载的 NVIDIA GPU 的 比较:T4 与 A10
发布时间: 2024-07-03 14:42

选择合适的 GPU 来部署和提供 ML 模型至关重要。您需要选择一款功能足够强大的 GPU,以便稳定运行您的模型,而无需为不必要的空间支付过多费用。通过本文,您将能够在 NVIDIA 的 T4 和 A10 GPU 之间进行选择,以确定最适合您的需求和预算的 GPU。


生成式 AI 工作负载(例如微调基础模型、部署大型开源模型和提供 LLM)需要强大的 GPU。但由于可用的选项众多,选择适合您工作负载的 GPU 非常困难。很难对具有不同架构、核心类型和内存容量的显卡进行同类比较。


这篇文章概述了比较 GPU 时需要了解的关键规格以及需要考虑的因素,例如价格、可用性和水平扩展机会。然后,我们应用这些想法在两种流行的 GPU(NVIDIA T4 和 A10)之间进行选择,以应对现实的生成式 AI 工作负载。


抽象地比较 GPU 是困难的,尤其是跨代比较。T4 价格较低,因此如果您的工作负载在 T4 上可靠且高效地运行,则应使用 T4 实例。如果不是,请升级到 A10 实例以获得更快的调用速度和更大的模型。


让我们通过每张卡的一个示例用例来仔细看看这两款 GPU。


一、NVIDIA T4 概述

NVIDIA Tesla T4 是一款中端数据中心 GPU。它于 2019 年发布,采用 NVIDIA 的 Turing 架构。它非常适合一系列生成式 AI 任务。


NVIDIA T4

1、NVIDIA T4 规格

CUDA 核心:2560

张量核心:320

显存:16 GiB


T4规格页面提供了更多规格。对于我们的目的而言,重要的是要了解 T4 具有 16GiB 的 VRAM 和相对于 CUDA 核心而言大量的张量核心。


2、NVIDIA T4 价格


数据中心 GPU 的设计目的并不是供消费者购买。我们大多数人不会自己连接服务器机架来部署模型,因此托管解决方案更有意义。在捷智算上,T4 实例的起价为每分钟 1.753 美分。它是捷智算上最便宜的显卡选项。


3、示例用例:Whisper


让我们通过 T4 的示例用例来将这些原始数字具体化。


NVIDIA T4 是一款出色的 GPU,非常适合运行OpenAI 的开源音频转录模型Whisper。该模型的最大版本可以轻松适应 16GiB 的 VRAM,并且该卡实现了可观的性能,在测试期间,在不到 4 分钟的时间内转录了 30 分钟的音频片段。捷智算 默认使用 T4 来为 Whisper 提供服务。


如果您正在运行中型模型,并且模型权重文件足够小,可以放入 16 GiB 的 VRAM 中,那么 T4 就是适合您工作流程的功能强大且价格实惠的 GPU。


二、NVIDIA A10 概述

A10 是一款比 T4 更大、更强大的 GPU。它拥有更多 CUDA 核心、更多张量核心和更多 VRAM。它于 2021 年发布,采用 NVIDIA 的 Ampere 架构。


NVIDIA A10


您可以在 A10 上运行几乎任何可以在 T4 上运行的东西,而且速度可能会更快。以下是 T4 与 A10 上的 Whisper 调用的基准测试:


T4 与 A10 上的 Whisper 调用的基准测试


每次调用都在热 GPU 上运行。显示的值是五次运行的平均值。


但在本例中,使用 A10 的成本约为 T4 的 1.9 倍,而加速速度却提高了 1.2 至 1.4 倍。除非调用时间对于您的用例至关重要,否则 A10 的作用不仅仅是成为更快的 T4。它的作用是运行 T4 根本无法处理的工作负载。


关于 A10 的简要说明:有时您会看到 A10G。A10和 A10G 是类似的卡,其中 A10G 是 AWS 针对其 G5 实例类型的特定变体。


1、NVIDIA A10 规格

CUDA 核心:9216

张量核心:288

显存:24 GiB


A10的规格页面包含其余详细信息。除了额外的 CUDA 核心和 VRAM 外,A10 还增加了 72 个光线追踪核心,并将 T4 的内存带宽几乎翻了一番。不过,对于服务模型来说,最重要的是核心数量和 VRAM 的增加。


2、NVIDIA A10 价格


再次强调,预先购买数据中心 GPU 并不常见。但如果您感兴趣的话,网上该卡的售价定为 5,700 美元。对于托管解决方案,捷智算上配备 A10 GPU 的实例起价为每分钟 3.353 美分。


3、用例示例:Stable Diffusion XL

那么如果我们不只是使用 A10 来超越 T4,我们还要用它做什么呢?


在Stable Diffusion XL上运行推理需要额外的处理能力和 A10 提供的 24 GiB 内存。 


A10 还可用于运行 LLM。流行的 70 亿参数模型(如Mistral 7B和Llama 2 7B)在 A10 上运行,并且您可以启动一个包含多个 A10 的实例,以适应更大的模型(如Llama 2 70B)。


三、哪种 GPU 适合您?

以下是 T4 和 A10 规格和价格的并排比较。


T4 和 A10 规格和价格的并排比较


如果您的模型适合 T4,并且您对性能感到满意,那么您绝对应该使用 T4 来经济高效地运行您的工作负载。对于计算或内存要求较高的作业,可以使用 A10。


使用捷智算的定价计算器来预测提供模型的成本,并请联系我们了解批量折扣或讨论微调、部署和提供 ML 模型的专用硬件需求。 

  • 捷智算联系人