解锁LLM新高度—OpenVINO™ 2024.1赋能生成式AI高效运行

英特尔物联网 2024-05-10 1216

描述

大语言模型推理的改进

LLM 的发展仍保持着惊人的速度。尽管现有的 LLM 已经具备强大的功能，但通过 OpenVINO 的优化和推理加速，可以对这些复杂模型的执行进行精炼，实现更快、更高效的处理，减少计算开销并最大限度发挥硬件潜力，这将直接导致 LLM 实现更高的吞吐量和更低的延迟。

通过采用压缩嵌入实现额外优化，有效地缩减了 LLM 的编译耗时与内存占用。与此同时，基于英特尔锐炫GPU，以及英特尔高级矩阵扩展（Intel AMX）的第4代和第5代英特尔至强平台之上，LLM 的第一个 token 处理性能得到了显著提升。

通过 oneDNN 可实现更好的 LLM 压缩与性能提升。如今，经过量化或压缩后的 INT4 和 INT8 精度的 LLM 可在英特尔锐炫GPU 上得到支持。在搭载集成 GPU 的英特尔酷睿Ultra 处理器上，针对部分小型 GenAI 模型显著减少了内存消耗。

此外，现在可以在 PyTorch 模型进行训练后量化之后，对其进行微调，以提高模型精度并简化从训练后量化过渡到训练感知量化的过程。

已添加演示示例：https://github.com/openvinotoolkit/nncf/blob/develop/examples/quantization_aware_training/torch/resnet18/README.md

更多生成式 AI 覆盖范围和框架集成

进一步深入了解搭载 OpenVINO 的生成式 AI，该新版本拓宽了生成式AI的边界，使其能够覆盖更广泛的神经网络架构与应用场景。

针对最新发布的最先进的 Llama 3 和 Phi3 模型， OpenVINO 对其实现了支持和优化。

具备混合专家（MoE）架构的 LLM 模型 Mixtral 以及 URLNet 模型，均针对英特尔至强处理器进行了性能提升优化。

而文生图模型 Stable Diffusion 1.5，以及 LLMs 模型 ChatGLM3-6b和Qwen-7B，则专为搭载了集成 GPU 的英特尔酷睿Ultra 处理器进行了推理速度的改进和优化。

现在，OpenVINO 已支持 Falcon-7B-Instruct，这是一款即用型、具备优秀性能指标的生成式AI大语言模型，适用于聊天与指令场景。

新版本支持的其他模型包括：

Yolo V9、Yolo V8 Oriented Bounding Box Detection （OOB）、Stable Diffusion in Keras、MoblieCLIP、RMBG-v1.4 Background Removal、Magika、TripoSR、AnimateAnyone、LLaVA-Next 以及带有 OpenVINO 和 LangChain 的 RAG 系统。

我们还在 OpenVINO Notebooks 存储库中提供了 Jupyter Notebook 示例。

新平台的更改和现有平台的增强

除了 PyPI 上的主 OpenVINO 软件包外，英特尔酷睿Ultra 处理器的预览 NPU 插件现在在 OpenVINO 开源 GitHub 存储库中可用。

现在，可以通过 npm 存储库更轻松地访问 JavaScript API，使 JavaScript 开发人员能够无缝访问 OpenVINO API。我们扩展了文档，可帮助开发人员将他们的 JavaScript 应用程序与 OpenVINO 集成。

现在，默认情况下已在 ARM 处理器上为卷积神经网络（CNN）启用 FP16 推理。在多种 ARM 设备上，已显著提升了众多模型的性能。已实现与 CPU 架构无关的构建，旨在为不同 ARM 设备提供统一的二进制分发。

新增和更新的 Notebook

OpenVINO Notebooks 仍然是非常有价值的资源，用于展示如何利用 OpenVINO 在人工智能领域实现重要进展。最近，我们对 OpenVINO notebooks 存储库做了一些改动，包括将默认分支从 'main' 更改为 'latest'，以及对 "notebooks" 文件夹内 notebook 的命名结构进行了改进。

审核编辑：刘清

打开APP阅读更多精彩内容