2024年3月7日,英特尔正式发布了OpenVINO™ 2024.0版本。OpenVINO™是英特尔针对自家硬件平台开发的一套深度学习工具库,包含推理库,模型优化等等一系列与深度学习模型部署相关的功能。OpenVINO™工具包是用于快速开发应用程序和解决方案的综合工具包,可解决各种任务,包括模拟人类视觉,自动语音识别,自然语言处理,推荐系统等。该工具包基于最新一代的人工神经网络,包括卷积神经网络(CNN),循环和基于注意力的网络,可在英特尔®硬件上扩展计算机视觉和非视觉工作负载,从而最大限度地提高性能。它通过从边缘到云的高性能,人工智能和深度学习推理来加速应用程序。
OpenVINO 2024.0版本的新功能
更多的 Gen AI 覆盖范围和框架集成,最大限度地减少代码更改
- 通过安装 OpenVINO Tokenizer,改进了 TensorFlow 语句编码模型的开箱即用体验。
- 已验证的新模型:Mistral、StableLM-tuned-alpha-3b 和 StableLM-Epoch-3B
- OpenVINO 现在支持专家混合 (MoE, Mixture of Experts)。这是一种新架构,可帮助通过管道处理更高效的生成模型。
- JavaScript 开发人员现在可以无缝访问 OpenVINO API。 这种新的绑定可以与 JavaScript API 顺利集成。
更广泛的 LLM 模型支持和更多模型压缩技术
- 通过将流行的激活感知权重量化(Activation-aware Weight Quantization)技术添加到神经网络压缩框架 (NNCF) 中,提高了LLM的 INT4 权重压缩质量。 这一添加减少了内存需求并有助于加快令牌(token)生成速度。
- 体验英特尔® CPU 上增强的 LLM 性能、内部内存状态增强以及 KV-cache 的 INT8 精度,专为 ChatGLM 等多查询 LLM 量身定制。
- 通过将更多 OpenVINO 功能与 Huggingface 生态系统集成,让开发人员变得更轻松。 现在,直接在 Hugging Face 中存储流行模型的量化配置,将模型压缩为 INT4 格式,同时保持准确性和性能。
更高的可移植性和性能,可在边缘、云端或本地运行人工智能
- 通过启用 ARM 线程库(threading library)提高了 ARM 上的性能。 OpenVINO 现在支持多核 ARM 平台,并在 MacOS 上默认启用 FP16 精度。
- 作为 Intel® Core™ Ultra(代号 Meteor Lake)一部分的集成 NPU 的预览插件架构现已包含在 PyPI 上的 OpenVINO 包中。
- 新改进的 LLM 从 OpenVINO 模型服务器提供样本,用于多批次输入和检索增强生成 (Retrieval Augmented Generation, RAG)。
文章评论