谷歌Vertex AI助力企业生成式AI应用

谷歌开发者 2024-09-09 519

描述

以下文章来源于谷歌云服务，作者 Google Cloud

Amin Vahdat

机器学习、系统与 Cloud AI 部门副总裁/总经理

Google Cloud

过去的一段时间，我们看到了许多 Google Cloud 客户对生成式 AI 和 agent 的精彩应用，令我们拍案叫绝。为了让企业能够更快推出功能强大的 AI agent，Google DeepMind在模型技术方面积极探索创新，尤其着力于 Gemini 和 Imagen 的改进。我们的企业 AI 平台 Vertex AI 也推出了数十项突破性功能。

包括UberEats、Ipsos、Jasper、Shutterstock、Quora等众多领先组织在内，客户纷纷运用生成式 AI 创造出色成果，在 Google Cloud 的助力下加速生成式 AI 应用投产。

例如，在 Gemini 1.5 Pro 推出前，大多数多模态用例 (像提交一个视频并轻松询问与视频内容相关的问题) 都还停留在构想阶段。但自新模型推出以来，我们已经看到许多围绕数据开展对话的客户创新实例，包括:

一家快餐零售企业

使用 Gemini 分析店面的监控录像，据之识别客流高峰时段并优化店内布局，从而提升客户体验。他们还计划将视频分析与销售数据结合起来，更好地理解有哪些因素有助于提高服务效率和满意度。

一家金融机构

需要处理通过数据表单提交的身份证件扫描图像。他们利用 Gemini 的多模态功能自动快速地处理图像和文本，一方面对比信息的准确性，一方面帮助客户更方便地开设和访问账户。

一家体育公司

使用 Gemini 来分析球员的挥杆动作。将 Gemini 的数据洞察力融入其现有应用后，他们成功利用 AI 分析结果增强了挥杆动作分析工具的功能。

一家保险公司

现在可以利用 Gemini 分析行车记录仪的事故录像，更好地理解和描述事故场景。这项分析不但可协助计算风险评分，甚至可根据观察到的司机行为提供个性化的驾驶建议。

一家广告和营销服务公司

开发出面向实时流媒体的描述和旁白功能，实现了变革性的视频描述解决方案。这一创新简化了视频创作过程，提高了效率，并为个性化内容铺平了道路。

而这些都只是结合多模态功能和长上下文窗口的应用，Gemini 在处理代码库、配图长文档、音频访谈等方面的能力同样强大。

除了客户的热烈反响，行业分析师的认可也令我们倍感鼓舞。例如，仅在过去两个月里，不但 Forrester Research 在《The Forrester Wave: AI 语言基础模型，2024 年第二季度》中将 Google 评为业界领导者，Gartner 也在《2024 年云 AI 开发者服务魔力象限①》和《2024 年数据科学和机器学习平台魔力象限②》中将 Google 评为业界领导者。

今天，为了加速这一势头，我们很高兴地公布 Vertex AI 在模型和企业平台功能方面的一些重大进展。

下面先从模型说起。

Gemini 1.5 Flash:

领先市场的性价比和低延迟

上个月，我们发布了Gemini 1.5 Flash的公开预览版。现在，这个新模型已正式推出。它兼具低延迟、实惠价格和突破性的 100 万 token 上下文窗口等多项优势，是各种大规模应用场景的理想选择。从零售聊天客服到文档处理，再到合成整个知识库的研究 agent，它都能灵活满足客户所需。

最重要的是，Gemini 1.5 Flash 的强大功能、低延迟和高性价比迅速成为我们客户的最爱。相较于 GPT 3.5 Turbo 等同类模型，它具备多项显著优势:

●100 万 token 的上下文窗口，约为 GPT-3.5 Turbo 的 60 倍

● 在输入 10,000 字符的情况下，平均速度比 GPT-3.5 Turbo 快40%③

● 输入成本比 GPT-3.5 Turbo 最高可降低 4 倍(对超过 32,000 字符的输入启用上下文缓存)

"UberEats 正积极重新构想人们获取日常生活所需的方式，"Uber资深软件工程师 Narendran Thangarajan 说道，"因此，我们开发了 Uber Eats AI 助手，让我们的用户能够通过自然语言对话，轻松顺畅地探索、发现和购买我们商品目录中的各种好物。Gemini 1.5 Flash 让我们的响应时间几乎减半，而这对整体客户体验至关重要。我们非常期待这一模型在提高效率和客户满意度方面的潜能，以及它的多模态功能和更长上下文窗口带来的新机会。"

"Gemini 1.5 Flash 让我们能够在不牺牲输出质量或上下文窗口的情况下，更轻松地在高流量任务中大规模运用生成式 AI，甚至在多模态应用场景中也是如此，"市场调研公司Ipsos的全球生成式 AI 负责人 JC Escalante 说道，"Gemini Flash 为更好地管理投资回报率创造了机会。"

"作为一家致力于帮助企业营销团队提高工作效率的 AI 优先公司，我们必须利用成本效益出色的优质多模态模型，助力客户快速轻松地创作出精彩内容并重新构想其现有创意资产，"Jasper.ai的首席战略官 Suhail Nimji 说道，"借助 Gemini 1.5 Pro 和新的 1.5 Flash，我们将继续提升生成式内容的质量标杆，确保遵循品牌风格和营销准则，同时提高全程效率。"

Gemini 1.5 Pro:

业界领先的 200 万 token 上下文窗口

Gemini 1.5 Pro现已正式发布。它具备业界领先、最高可达 200 万个 token 的上下文窗口，能够解锁其他模型力不能及的独特多模态应用场景。

处理仅仅六分钟的视频就需要超过 10 万个 token，而大型代码库可能超过 100 万个 token - 无论应用场景是查找海量代码中的 bug、在大型研究资料库中搜寻正确的信息，还是分析数以小时计的音频或视频，Gemini 1.5 Pro 的超大上下文窗口都可帮助组织开拓全新领域。

Imagen 3:

更快的图像生成速度、更强的提示理解能力

Imagen 3 是 Google 最新的图像生成基础模型。它在提供卓越图像质量的同时，更在 Imagen 2 基础上做了多项改进: 生成速度提高 40% 以上，方便用户快速进行原型设计和迭代，理解提示和遵循指令的能力更强，能够生成逼真的人群图像，并可更精准地控制图像中的文本渲染。

Imagen 3 现推出预览版，供 Vertex AI 客户抢先体验。它可理解多种语言，内置 Google DeepMind 的 SynthID 数字水印等安全功能，还支持多种画面比例。

使用 Google 的最新图像生成模型 Imagen 3 生成的图片

"在早期测试中，Imagen 3 模型在质量和速度方面都给了我们惊喜，"Typeface的 AI 研究负责人 Gaurav Sharma 说道。这家初创公司专注于利用生成式 AI 进行企业内容创作。"它在细节生成和人类生活图像方面都有显著改进。作为 Google 基础模型的早期试用合作伙伴，我们期待在未来发展道路上进一步探索新的 Imagen 和 Gemini 模型。"

"我们让用户能够利用 AI 的力量，轻松将创意转化为精美的演示文稿、网站和其他可视化文档。为了进一步提升个性化水平和创造力，同时减少手动操作，我们通过 Imagen 提供高质量的文生图功能，"Gamma的联合创始人 Jon Noronha 说道，"我们的用户已经用 Imagen 生成了超过 400 万张图片。Imagen 3 能够让他们更快地创作图片、在图片中加入文本，并安全地、更好地生成包含人物的逼真图片，这令我们非常期待。"

"自从将 Imagen 加入我们的 AI 图片生成工具后，我们的用户已经使用这个模型生成了数百万张图片。我们非常期待 Imagen 3 承诺的改进，它能让我们的用户更快实现他们的创意，而不必牺牲质量。作为 Shutterstock 推出的首款符合道德来源的 AI 图像生成器的重要增强，我们非常认可的另一点是，它不但内置了安全功能，创作成果也享受 Google Cloud 的生成式 AI 赔偿保障。"Shutterstock数据服务副总裁 Justin Hiza 说道。

第三方模型和开放模型:

拓宽使用 Vertex AI 时的模型选择面

在 Google Cloud，我们致力于通过 Vertex AI 上精心挑选的自有模型、开放模型和第三方模型，为客户提供更多选择、为创新注入更多动力。因此，我们非常高兴地宣布，Anthropic 新发布的Claude 3.5 Sonnet模型也已登陆 Vertex AI。客户可以开始使用Google Cloud 上的 Claude 3.5 Sonnet 模型开展实验或将其部署到生产环境。今年夏末，我们还将在 Vertex AI 的 Model Garden 模型库中新增 Mistral Small、Mistral Large 和 Mistral Codestral 模型，进一步深化与 Mistral 的合作。

秉持立足当下满足客户需求的理念，今年早些时候，我们基于与 Gemini 模型相同的技术和研究成果，推出了一系列轻量级、先进的开放式模型 Gemma。今天，我们正式面向全球的研究人员和开发者发布Gemma 2。Gemma 2 提供 90 亿 (9B) 和 270 亿 (27B) 参数两种规格，相较于第一代更加强大高效，并显著改进了安全性。从下个月开始，客户将可以在 Vertex AI 上使用 Gemma 2。

费用更低:

Gemini 1.5 Pro 和 Flash 都支持上下文缓存

为帮助客户高效利用 Gemini 的超大上下文窗口，从今天开始，我们将逐步为 1.5 Pro 和 Flash 模型推出上下文缓存功能的公开预览版。随着上下文长度的增加，为长上下文应用生成响应变得越来越昂贵且缓慢，提高投产难度。Vertex AI 上下文缓存功能可将常用上下文保存到缓存中，帮助客户显著降低输入成本(减费幅度最高可达 75%)。目前，Google 是市场上唯一一家提供上下文缓存 API 的供应商。

可预测的性能:

为 Gemini 模型预配吞吐量

从今天起，预配吞吐量功能正式面向许可名单上的客户推出。它让客户在使用 Gemini 1.5 Flash 等 Google 自有模型时能够负责任地扩容，在容量和价格上都获得保证。这项 Vertex AI 功能为客户的生产工作负载带来了可预测性和可靠性，使他们能够自信地为生成式 AI 工作负载灵活扩容。

为企业提供可靠信息:

更多接地选择，不但支持 Google 搜索，现更支持第三方数据

要打造适合企业的平台，只有模型还不够。企业需要最大限度地提高准确性并显著减少幻觉，这意味着不但要将模型接地到来自 Web、第一方和第三方的事实信息和数据，还要满足企业在数据治理和数据主权等方面的严格标准。

在 Google I/O 大会上，我们宣布正式推出 Vertex AI 的 Google 搜索接地服务。随着这项服务的正式发布，各类企业现在都可以利用 Google 搜索接地来增强 Gemini 的输出，使模型能够取用最新的优质信息。客户可以轻松将增强后的 Gemini 模型集成到他们的 AI agent 中。

"Gemini 1.5 Flash 为未来更好地管理投资回报率创造了机会。通过模型的 Google 搜索接地功能，我们可以利用最新数据，更好地提升我们的对话式产品 Ipsos Facto 的结果相关性，"Ipsos的 JC Escalante 说道，"在我们不懈改善输出质量和研究人员体验的道路上，这项功能发挥着不可或缺的关键作用。"

"Quora 现在在其 Poe 平台上提供 Google 搜索接地功能，其产品主管 Spencer Chan 说道:"通过 Google 搜索接地意味着我们可以获得更准确、更新鲜、更可靠的答案。用户现在能够更加自信地与 Gemini 聊天机器人互动，他们的积极反馈让我们非常欣喜。"

我们今天还宣布，从下个季度开始，Vertex AI 将提供一项新服务，让客户能够使用专业第三方数据来接地他们的 AI agent。这有助于企业将第三方数据集成到他们的生成式 AI agent，解锁各种独特应用场景，并提高其 AI 产品中的企业信息准确性。我们正与穆迪、MSCI、汤森路透和Zoominfo等知名供应商合作，将他们的数据引入这项服务。

"Google Cloud 的第三方数据接地服务将为毕马威和我们的客户开启全新应用场景，"毕马威全球税务与法务部门首席技术官 Brad Brown 说道，"通过将行业领军供应商的专业第三方数据无缝集成到我们的生成式 AI 产品中，我们能够利用高度可信的数据源来减少数据分析时间、推动更明智的决策，并最终实现更丰硕的价值。"

更准确的回答:

高保真模式接地

在金融服务、医疗保健和保险等数据密集型行业中，生成式 AI 应用场景通常要求生成的响应只依据所提供的上下文，而不是模型的宽泛知识。高保真接地功能现发布实验预览版，可针对性地满足这类接地场景需求，包括总结多个文档、从一组金融数据集中提取数据或处理给定的一套文档。高保真模式由一个经过专门微调的 Gemini 1.5 Flash 版本驱动，它只使用客户提供的内容生成回答，可确保响应的高准确性。

保障数据主权的理想选择:

选择静态数据驻留位置，限制机器学习处理区域

很多客户，尤其是受监管行业的客户，要求在使用生成式 AI 功能的过程中能够控制其数据的存储和处理位置。为了满足这类数据主权要求，我们在 23 个国家/地区提供静态数据驻留位置保证 (其中 13 个国家/地区是 2024 年新增的: 西班牙、意大利、以色列、瑞士、波兰、芬兰、巴西、印度、中国台湾、中国香港、澳大利亚、沙特阿拉伯、卡塔尔)，并在美国和欧盟提供对相关机器学习处理位置的额外保证。我们正在努力将机器学习处理保证拓展到另外 8 个国家/地区，其中 4 个国家/地区将在 2024 年内得到支持。

立即开始使用 Vertex AI

正如我们今天分享的客户案例所展示的那样，Vertex AI 可帮助企业将生成式 AI 的强大能力转化为实实在在的变革性成果。我们期待继续为客户带来 Gemini 1.5 Flash 和 Google 搜索接地这样的创新，并努力将 Vertex AI 打造成完美满足企业需求的生成式 AI 平台。

打开APP阅读更多精彩内容