NVIDIATensorRT-LLM登陆Windows为运行GeForceRTX和RTXProGPU的消费类PC带来巨大的AI提升

早在9月份,NVIDIA就发布了适用于数据中心的TensoRT-LLM模型,该模型比HopperH100和AmpereA100等业界顶级AIGPU性能提升了8倍。充分利用NVIDIAGeForceRTX和RTXProGPU上的张量核心加速功能,最新型号将在LLM推理工作负载中提供高达4倍的性能提升。

之前,我们解释过TensorRT-LLM带来的最大更新之一是一种称为“飞行批处理”的新调度程序,它允许工作独立于其他任务进入和退出GPU。它允许动态处理多个较小的查询,同时在同一GPU中处理大型计算密集型请求。TensorRT-LLM利用优化的开源模型,可以在增加批量大小时实现更高的加速。从今天开始,这些优化的开源模型已向公众开放,并可在developer.nvidia.com下载。

TensorRT-LLM模型增加的AI加速将有助于推动各种日常生产力任务,例如参与聊天、总结文档和网页内容、起草电子邮件和博客,还可以用于分析数据并使用以下内容生成大量内容:可供模型使用。

那么TensorRT-LLM将如何帮助运行Windows的消费者PC?在NVIDIA展示的演示中,展示了LLaMa-2等开源预训练LLM模型与TensorRT-LLM之间的比较。当查询传递给LLaMa-2时,它将从维基百科等大型通用数据集收集信息,因此它们在训练后没有最新信息,也没有特定领域的数据集。受过训练。他们也肯定不会知道存储在您的个性化设备或系统上的任何数据集。因此您将无法获得您正在寻找的特定数据。

有两种方法可以解决这个问题,一种是微调,其中LLM围绕特定数据集进行优化,但这需要大量时间,具体取决于数据集的大小。另一种方法是RAG或检索增强生成,它使用本地化库,该库可以填充您希望LLM经历的数据集,然后利用该LLM的语言理解功能为您提供仅来自该数据集的信息。

在示例中,提出了一个与AlanWake2中的NVIDIA技术集成相关的问题,标准LLaMa2模型无法找到正确的结果,但另一个具有TensorRT-LLM的模型则从30篇GeForceNews文章中获取数据。本地存储库可以毫无问题地提供所需的信息。因此,TensorRT-LLM提供了相关答案,并且比LLaMa-2模型更快。此外,NVIDIA还确认您可以使用TenosrRT-LLM来加速几乎任何模型。这只是NVIDIATensorRT-LLM可以利用AI在Windows中提供更快、更高效的PC体验的众多用例之一,因此请继续关注未来的更多公告。