您的位置:首页 >动态 > 综合精选 >

AMD回应NVIDIA的H100TensorRT-LLM结果再次显示MI300XGPU使用优化的AI软件堆栈性能提升30%

导读 AMD对NVIDIA的H100TensorRT-LLM数据做出回应,MI300X在运行优化时再次在AI基准测试中处于领先地位软件。AMD与NVIDIA与两家GPU制造商展开了

AMD对NVIDIA的H100TensorRT-LLM数据做出回应,MI300X在运行优化时再次在AI基准测试中处于领先地位软件。

AMD与NVIDIA与两家GPU制造商展开了激烈的战斗,两家GPU制造商都声称使用H100和H100的优化软件堆栈在AI方面具有优势。MI300X芯片

两天前,NVIDIA发布了其HopperH100GPU的新基准,以展示他们的芯片性能比AMD展示的要好得多在“推进人工智能”期间红队将其全新的InstinctMI300XGPU与HopperH100芯片进行了比较,后者已经推出一年多了,但仍然是人工智能行业最受欢迎的选择。AMD使用的基准测试并未使用TensorRT-LLM等优化库,而TensorRT-LLM为NVIDIA的AI芯片提供了巨大的提升。

使用TensorRT-LLM使HopperH100GPU的性能比AMD的InstinctMI300XGPU提高了近50%。现在,AMD正全力反击NVIDIA,展示MI300X如何在HopperH100运行其优化的软件堆栈时仍然保持比H100更快的性能。根据AMD的说法,NVIDIA公布的数字:

在H100上使用TensorRT-LLM,而不是AMD基准测试中使用的vLLM

AMDInstinctMI300XGPU上的FP16数据类型与H100上的FP8数据类型的性能比较

将AMD发布的性能数据从相对延迟数转换为绝对吞吐量

因此,AMD决定进行更公平的比较,根据最新数据,我们发现在vLLM上运行的InstinctMI300X比在TensorRT-LLM上运行的HopperH100性能提高了30%。

MI300X至H100均使用vLLM。

在12月初的发布会上,我们强调了使用同等数据类型和库设置时MI300X与H100相比具有1.4倍的性能优势。通过我们最新的优化,这一性能优势提高到了2.1倍。

我们选择vLLM是基于用户和开发者社区的广泛采用,并且支持AMD和NvidiaGPU。

使用vLLM的MI300X与使用Nvidia优化的TensorRT-LLM的H100

即使像我们的竞争对手那样使用针对H100的TensorRT-LLM以及针对MI300X的vLLM,我们的延迟仍然提高了1.3倍。

使用TensorRT-LLM和FP8数据集测量MI300XFP16数据集与H100的延迟结果。

MI300X在测量绝对延迟时继续展现出性能优势,即使在H100中使用较低精度的FP8和TensorRT-LLM(与vLLM相比)以及MI300X的更高精度FP16数据类型也是如此。

由于FP16数据类型很受欢迎,我们使用它,但目前,vLLM不支持FP8。

这些结果再次表明,即使使用FP8和TensorRT-LLM,使用FP16的MI300X也可与Nvidia推荐的最佳性能设置的H100相媲美。

当然,这些来回的数字有些出乎意料,但考虑到人工智能对于AMD、NVIDIA和英特尔等公司的重要性,我们可以期待看到更多这样的例子被分享将来。就连英特尔最近也表示,整个行业都在积极推动终结NVIDIACUDA在行业中的主导地位。目前的事实是,NVIDIA在人工智能领域拥有多年的软件专业知识,虽然InstinctMI300X提供了一些可怕的规格,但它很快就会与更快的Hopper解决方案展开竞争H200和2024年即将推出的BlackwellB100GPU。

英特尔还准备在2024年推出Gaudi3加速器,这将进一步加热人工智能领域,但在某种程度上,这种竞争将创造一个充满活力和更加活跃的人工智能行业,每个供应商都将继续创新并超越其他供应商,为客户提供优质的产品和服务。更好的功能和更快的性能。尽管多年来没有竞争对手,英伟达仍在这一领域持续创新,随着AMD和英特尔加大人工智能生产和软件的力度,我们可以预期他们会推出自己更好的硬件/软件来做出回应。

版权声明:转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢您的支持与理解。
关键词: