
介绍
许多桌面应用程序都是使用 C++ 开发的,由于使用基于 Python 的库(例如 Hugging Face)的复杂性,将 GenAI 功能集成到这些应用程序中可能颇具挑战性。使用 OpenVINO Runtime 的 C++ 提供了更精简、轻量且内存高效的解决方案,尤其是在 Windows 环境中。
OpenVINO GenAI API 提供原生 C++ 接口,无需 Python 依赖项,让开发者能够以更节省资源的方式创建 AI 应用程序。以下是以 Windows 操作系统为例,使用 C++ 构建 OpenVINO GenAI 应用程序的分步指南。
目录
- 下载 OpenVINO 存档并安装依赖项
- 构建项目
- 下载并转换 LLM 和 Tokenizers
- 运行模型
- 结论
步骤 1:下载并解压 OpenVINO 档案
访问OpenVINO 下载页面,然后单击“使用 GenAI 下载档案”选择最新版本。

下载完成后,解压下载的 zip 文件并将内容提取到 <your_path>\openvino_genai_windows_2024.3.0.0_x86_64
步骤2:构建项目
确保您的电脑上安装了以下软件组件:
- CMake 3.23 或更高版本
- Microsoft Visual Studio 2019 或更高版本,版本 16.3 或更高版本
- Python 3.8 或更高版本
打开命令窗口并从解压的下载的 OpenVINO with GenAI 文件夹中运行 setupvars.bat 文件。
<your_path>\openvino_genai_windows_2024.3.0.0_x86_64\setupvars.bat

在同一命令窗口中,初始化 OpenVINO 环境后,导航到文件夹samples/cpp/,然后运行build_samples_msvc.bat
所有构建过程完成后,您可以在构建过程输出中指示的路径中找到 chat_sample.exe 文件。


步骤3:下载并转换LLM和Tokenizers
您有两种选择来准备用于 AI 推理的模型:
1. 下载转换后的模型:直接从 Hugging Face 上的 OpenVINO LLMs 集合下载模型:
pip install huggingface_hub
huggingface-cli download OpenVINO/TinyLlama -1.1 B-Chat-v1 .0 -int4-ov — local -dir TinyLlama -1.1 B-Chat-v1
请参考此处的说明https://huggingface.co/OpenVINO/TinyLlama-1.1B-Chat-v1.0-int4-ov
Hugging Face 上的 OpenVINO LLMs 系列中还有其他模型可用,欢迎随意探索 OpenVINO LLMs 系列中的其他模型。
2. 本地转换模型:使用 optimal Intel 在您的设备上转换模型。请确保安装所需的依赖项,详情请见此处。
optimal-cli export openvino --model“TinyLlama/TinyLlama- 1.1 B-Chat-v1.0 ” --trust-remote-code“TinyLlama- 1.1 B-Chat- v1.0 ”
然后,您可以开始与构建的文件和 LLM 模型的路径进行对话,例如以下内容
chat_sample TinyLlama - 1.1B-聊天-v1.0
步骤4:运行模型
现在就开始享受与基于 LLM 的聊天机器人的对话吧!
请注意,上面显示的是在 CPU 上运行 LLM 推理,但是,切换到在 GPU 上运行推理非常容易,只需在文件中的以下两行代码中将“CPU”替换为“GPU”<your_path>\openvino_genai_windows_2024.3.0.0_x86_64\samples\cpp\chat_sample.cpp
并再次构建即可:
std::string device = “GPU”; // 也可以使用 GPU
ov::genai::LLMPipeline pipe(model_path, device);
结论
使用 C++ 语言的 OpenVINO GenAI API 构建 AI 应用程序只需几步。探索并试用此 API,释放其全部潜力。
文章评论