AMD回应NVIDIA的H100TensorRT-LLM结果再次显示MI300XGPU使用优化的AI软件堆栈性能提升30%

导读 AMD对NVIDIA的H100TensorRT-LLM数据做出回应，MI300X在运行优化时再次在AI基准测试中处于领先地位软件。AMD与NVIDIA与两家GPU制造商展开了

AMD对NVIDIA的H100TensorRT-LLM数据做出回应，MI300X在运行优化时再次在AI基准测试中处于领先地位软件。

AMD与NVIDIA与两家GPU制造商展开了激烈的战斗，两家GPU制造商都声称使用H100和H100的优化软件堆栈在AI方面具有优势。MI300X芯片

两天前，NVIDIA发布了其HopperH100GPU的新基准，以展示他们的芯片性能比AMD展示的要好得多在“推进人工智能”期间红队将其全新的InstinctMI300XGPU与HopperH100芯片进行了比较，后者已经推出一年多了，但仍然是人工智能行业最受欢迎的选择。AMD使用的基准测试并未使用TensorRT-LLM等优化库，而TensorRT-LLM为NVIDIA的AI芯片提供了巨大的提升。

使用TensorRT-LLM使HopperH100GPU的性能比AMD的InstinctMI300XGPU提高了近50%。现在，AMD正全力反击NVIDIA，展示MI300X如何在HopperH100运行其优化的软件堆栈时仍然保持比H100更快的性能。根据AMD的说法，NVIDIA公布的数字：

在H100上使用TensorRT-LLM，而不是AMD基准测试中使用的vLLM

AMDInstinctMI300XGPU上的FP16数据类型与H100上的FP8数据类型的性能比较

将AMD发布的性能数据从相对延迟数转换为绝对吞吐量

因此，AMD决定进行更公平的比较，根据最新数据，我们发现在vLLM上运行的InstinctMI300X比在TensorRT-LLM上运行的HopperH100性能提高了30%。

MI300X至H100均使用vLLM。

在12月初的发布会上，我们强调了使用同等数据类型和库设置时MI300X与H100相比具有1.4倍的性能优势。通过我们最新的优化，这一性能优势提高到了2.1倍。

我们选择vLLM是基于用户和开发者社区的广泛采用，并且支持AMD和NvidiaGPU。

使用vLLM的MI300X与使用Nvidia优化的TensorRT-LLM的H100

即使像我们的竞争对手那样使用针对H100的TensorRT-LLM以及针对MI300X的vLLM，我们的延迟仍然提高了1.3倍。

使用TensorRT-LLM和FP8数据集测量MI300XFP16数据集与H100的延迟结果。

MI300X在测量绝对延迟时继续展现出性能优势，即使在H100中使用较低精度的FP8和TensorRT-LLM(与vLLM相比)以及MI300X的更高精度FP16数据类型也是如此。

由于FP16数据类型很受欢迎，我们使用它，但目前，vLLM不支持FP8。

这些结果再次表明，即使使用FP8和TensorRT-LLM，使用FP16的MI300X也可与Nvidia推荐的最佳性能设置的H100相媲美。

当然，这些来回的数字有些出乎意料，但考虑到人工智能对于AMD、NVIDIA和英特尔等公司的重要性，我们可以期待看到更多这样的例子被分享将来。就连英特尔最近也表示，整个行业都在积极推动终结NVIDIACUDA在行业中的主导地位。目前的事实是，NVIDIA在人工智能领域拥有多年的软件专业知识，虽然InstinctMI300X提供了一些可怕的规格，但它很快就会与更快的Hopper解决方案展开竞争H200和2024年即将推出的BlackwellB100GPU。

英特尔还准备在2024年推出Gaudi3加速器，这将进一步加热人工智能领域，但在某种程度上，这种竞争将创造一个充满活力和更加活跃的人工智能行业，每个供应商都将继续创新并超越其他供应商，为客户提供优质的产品和服务。更好的功能和更快的性能。尽管多年来没有竞争对手，英伟达仍在这一领域持续创新，随着AMD和英特尔加大人工智能生产和软件的力度，我们可以预期他们会推出自己更好的硬件/软件来做出回应。

AMD回应NVIDIA的H100TensorRT-LLM结果再次显示MI300XGPU使用优化的AI软件堆栈性能提升30%

相关推荐

最新文章