StableDiffusion和GenAI通过NVIDIA游戏和ProRTXGPU上的TensorRT支持获得提升我们已经详细介绍了TensorRT-LLM如何在RTX硬件上为Windows带来更快的AI功能,而GenAI是拥有RTXGPU的消费者将能够看到直接好处的另一个领域。
NVIDIATensorRT为所有RTXGPU加速稳定扩散GenAI,RTX4090比AppleM2Ultra快7倍1
众所周知,NVIDIA的GPU是稳定扩散和生成AI工作负载最受欢迎的解决方案之一。我们已经看到NVIDIA在这一领域领先于几乎所有公司,但最近和即将推出的CPU(来自AMD和Intel)已开始包含专用NPU单元,可以从CPU/GPU卸载AI任务并完成对于绝大多数用户来说,这是一种非常低功耗和高效的模式。
NVIDIATensorRT为所有RTXGPU加速稳定扩散GenAI,RTX4090比AppleM2Ultra2快7倍
NVIDIA表示,很高兴看到通过将AI融入CPU来推动AI加速,它们将主要用于以低功耗运行的轻量级AI任务,而GPU将用于要求更高的用例。NPU和GPU都是离线且本地可用的资源,提供低延迟和数据局部性/隐私功能,而云数据中心则针对超大型模型和按需使用的重型AI工作负载。据说NVIDIA的RTXGPU的性能比这些NPU高出20倍到100倍。
TensorRT加速现在可通过Automatic1111发行版在流行的WebUI中用于稳定扩散。与之前最快的实现相比,它使生成式AI扩散模型的速度提高了2倍。
在稳定扩散性能演示中,NVIDIA展示了GeForceRTX4090从Automatic1111运行WebUI,并使用PyTorcxFormers实现每分钟输出27个图像,但使用TensorRT运行它可以将性能提高一倍,达到每分钟52个图像。
NVIDIA还将其性能与Apple的M2Ultra(72核变体)进行了比较,后者的基本价格为5000美元。该系统使用CoreML模型每分钟仅输出7个图像。同时,您可以以相同的预算构建具有两个GeForceRTX4090GPU的非常高端系统。