【智快网】11月16日消息,微软 Ignite 2023 大会今日盛大开幕,英伟达高管在会上宣布了TensorRT-LLM的最新更新,为其添加了对OpenAI Chat API的全新支持。
在今年10月的一则报道中,我们曾披露英伟达发布了面向数据中心和Windows PC的TensorRT-LLM开源库。该库的最大亮点在于,当Windows PC配备英伟达GeForce RTX GPU时,TensorRT-LLM能够将LLM在Windows PC上的运行速度提升四倍。
据智快网了解,英伟达在今天的Ignite 2023大会上,宣布了TensorRT-LLM的更新计划,将为其加入OpenAI的Chat API支持,并加强DirectML功能,以提升Llama 2和Stable Diffusion等AI模型的性能。
TensorRT-LLM的本地开发将通过英伟达的AI Workbench完成,开发者可以利用这一统一且易用的工具包,在PC或工作站上快速创建、测试和定制预训练的生成式AI模型和LLM。英伟达还为此推出了抢先体验注册页面。
英伟达将于本月晚些时候发布TensorRT-LLM 0.6.0版本更新,预计推理性能将提高5倍,并且将支持Mistral 7B和Nemotron-3 8B等其他主流LLM。用户可在8GB显存以上的GeForce RTX 30系列和40系列GPU上运行,同时一些便携式Windows设备也能够充分利用快速、准确的本地LLM功能。