
OpenVINO™2025.2正式发布!此更新带来了扩展的模型覆盖范围,GPU优化和Gen AI增强功能,旨在最大限度地提高AI部署的效率和性能,无论是在边缘,云端还是本地。
2025.2版本的新功能:
更多的Gen AI覆盖和框架集成,以最小化代码更改。
- 支持cpu和gpu的新型号:Phi-4, mistral – 7b – instruction -v0.3, SD-XL Inpainting 0.1,稳定扩散3.5大涡轮增压,Phi-4-reasoning, Qwen3和qwen2.5 – vl – 3b – instruction。npu上也支持Mistral 7B instruction v0.3。
- 预览:OpenVINO™GenAI为SpeechT5 TTS模型引入了文本到语音的管道,而新的RAG后端为开发人员提供了简化的API,减少了内存使用并提高了性能。
- 预览:OpenVINO™GenAI提供了一个GGUF阅读器,用于无缝集成基于llm的llama.cpp, Python和c++管道,加载GGUF模型,构建OpenVINO图形,并运行GPU推理。经过验证的流行模型:DeepSeek-R1-Distill-Qwen (1.5B, 7B), Qwen2.5 directive (1.5B, 3B, 7B)和Llama-3.2 directive (1B, 3B, 8B)
更广泛的LLM模型支持和更多的模型压缩技术
- 在OpenVINO GenAI中进一步优化LoRA适配器,以改进内置gpu上的LLM, VLM和文本到图像模型性能。开发人员可以使用LoRA适配器为专门的任务快速定制模型。
- INT8默认启用cpu的KV缓存压缩,与FP16相比,在保持精度的同时减少了内存占用。此外,与INT8相比,它为支持INT4的llm节省了大量内存。
- 优化英特尔®酷睿™超处理器系列2内置gpu和英特尔®Arc™B系列图形与英特尔®XMX收缩平台,以提高VLM模型和混合量化图像生成模型的性能,以及通过动态量化提高llm的首令牌延迟。
在边缘、云端或本地运行AI的可移植性和性能更高。
- 增强的Linux*支持与最新的GPU驱动程序内置GPU上的英特尔®酷睿™超处理器系列2(以前代号为Arrow Lake H)。
- OpenVINO™模型服务器现在为Windows提供了一个简化的c++版本,并通过前缀缓存提高了长上下文模型的性能,以及一个更小的Windows包,消除了对Python的依赖。现在包括对拥抱脸模型的支持。
- 支持在神经网络压缩框架(NNCF)中实现的ONNX模型的INT4数据自由权重压缩。
- NPU支持FP16-NF4精度在英特尔®酷睿™Ultra 200V系列处理器上,可通过对称和通道量化实现高达8B参数的模型,在保持性能效率的同时提高精度。
文章评论