【AI简报20231013期】投入巨大的大模型，不挣钱？或许会被小模型超过！

RTThread物联网操作系统 2023-10-13 1954

描述

1. SteerLM：解锁在推理期间自定义模型响应

原文：https://mp.weixin.qq.com/s/QLfDjvMbBwL_dVEYQBXViA

国庆节刚过，NVIDIA悄悄发布一个开源软件SteerLM。

在令人兴奋的人工智能领域，像GPT-3、Megatron-Turing、Chinchilla、PaLM-2、Falcon和Llama 2等大型语言模型（LLM）以其出色的文本生成能力而备受关注。它们为自然语言生成带来了显著的进展，但它们仍然难以提供我们想要的精准结果。它们有时会像才华横溢的音乐家一样，不时弹奏错误的音符。那么，我们如何对这些模型进行微调，以使它们按照我们的意愿运行呢？这就是NVIDIA研究团队最新创新SteerLM的出现，它承诺让AI文本生成更加有趣和个性化。

语言模型革命

在深入了解SteerLM的奇妙之前，让我们先了解一下背景。大型语言模型（LLMs）通过吸收大量来自互联网的文本而学习。它们获得了语言的超能力和对世界的广泛知识。这使它们能够执行诸如语言翻译、回答问题甚至生成创意文本等任务。但问题是，当涉及按照您的具体指示操作时，它们有时会偏离目标。想象一下，当您要求厨师制作一份无麸质的比萨时，他们却送上了一份普通的比萨。令人沮丧，对吧？这就是我们需要介入并向LLMs传授一些经验的地方。

当前方法

有一些方法可以教这些语言模型，例如受监督的微调（SFT）和来自人类反馈的强化学习（RLHF）。SFT有助于扩展它们的功能，但可能使它们的回应听起来简洁而机械化。另一方面，RLHF就像给它们配了个私人导师，但它非常复杂，不太用户友好。

介绍SteerLM：我们需要的英雄

现在，我们来介绍我们故事的主角-SteerLM！这是由NVIDIA研究团队开发的，它承诺在简化过程的同时让您更多地控制其回应。可以将其视为一种神奇的工具，使您可以轻松引导语言模型。

SteerLM的工作原理：四个步骤

SteerLM分为四个神奇的步骤：

属性预测：想象它是一个质量控制检查员。它学会了根据属性（如帮助性、幽默和创意）来评估文本质量。
多样性注释：现在，我们有一支AI检查员的队伍，他们使用他们在第一步中学到的知识来评估不同的文本。这使得我们的模型更加多才多艺。
有条件的回应：这一步就是魔法发生的地方。我们训练LLM生成与您想要的属性相匹配的文本，比如帮助性或幽默。
反馈的微调：就像音乐家练习以提高一样，我们的LLM会生成各种回应，同时追求最高的质量。然后这些回应会被评估，从而进行更多的微调。

为什么SteerLM是一个改变游戏规则的工具

SteerLM的美妙之处在于它的简单性。与RLHF不同，它依赖于标准语言模型目标。它允许您在推断时自定义模型，这意味着您可以告诉它您想要什么，它会按照您的意愿进行操作。与其他技术不同，其他技术要求您使用预先确定的偏好，这是一股清新的风。

SteerLM的超能力

SteerLM打开了不同应用领域的可能性：

游戏：是否曾经希望游戏中的角色能更机智一些？有了SteerLM，您可以定制它们的对话，使您的游戏体验更加身临其境和娱乐。
教育：针对所有的学生，告别了单调和不实用的AI回应。SteerLM确保AI保持友好和富有信息性的形象，以协助您的查询。
企业：想象一下为组织中的多个团队提供个性化的AI能力。SteerLM使这成为可能，简化任务并增强全面的生产力。
可访问性：控制敏感属性对于遏制不希望的模型偏见至关重要。SteerLM让您有能力确保AI的行为符合您的价值观，促进公平和包容性。

这种灵活性意味着下一代AI系统将变成个人助手，理解和响应您的特定偏好。您与AI的互动将变得更加自然和根据您的需求进行定制。

民主化AI定制

让SteerLM更令人兴奋的是其用户友好的方法。与其他需要专门基础设施的高级定制技术不同，SteerLM保持简单。它证明了您不需要复杂的强化学习来微调AI指令。

SteerLM利用标准技术，如受监督微调（SFT），简化整个流程。它对现有基础设施和代码进行最少的更改，使定制更加容易让开发人员实现。您只需要进行少量的超参数优化，就可以取得卓越的结果。

实际上，在实验中，SteerLM 43B被证明是一个改变游戏规则的工具，超越了复杂的RLHF模型，如LLaMA 30B RLHF。它在Vicuna自动评估中获得了平均分数655.75，使Guanaco 65B和LLaMA 30B RLHF相形见绌。这些结果凸显了SteerLM的简单培训流程可以提供与更复杂技术相匹敌的定制AI模型的准确性。

总之，SteerLM是一个改变游戏规则的工具，简化了AI定制，并使其更容易让开发人员实现。借助这种创新方法，个性化AI系统的梦想比以往更近了。

为了提供全面的企业安全性和支持，SteerLM将集成到NVIDIA NeMo中，这是一个用于构建、定制和部署大型生成式AI模型的丰富框架。SteerLM方法适用于NeMo支持的所有模型，包括社区构建的热门预训练LLMs，如Llama 2、Falcon LLM和MPT。NVIDIA希望通过这种方式将催生更多研究，开发能赋予用户权力而不是限制他们的模型。AI的未来可以通过SteerLM进行引导。

关于SteerLM论文：https://arxiv.org/pdf/2310.05344.pdf如何使用SteerLM定制的Llama-2-13b模型：

https://huggingface.co/nvidia/SteerLM-llama2-13B?mkt_tok=MTU2LU9GTi03NDIAAAGOwfy33eGcEv4-ZbMvTiwXkUlN9s8515pHjoPIhyqXch5Dtf9aFr8vYuJqViETh1qJ7LKnk9KSmOyRKdxM7cXrvyo0pevFqt0Y6jtocrL61m0XizeK-Q

2. 只要训练足够长时间，小模型也能超过大模型

原文：https://mp.weixin.qq.com/s/B1hJVssFT0XedqaPYPNoHA

2022 年 3 月，DeepMind 一篇论文《Training Compute-Optimal Large Language Models》通过构建的 Chinchilla 模型得出了一个结论：大模型存在训练不足的缺陷，模型大小和训练 token 的数量应该以相等的比例扩展。也就是说模型越大，所使用的训练 token 也应该越多。

但事实可能并非如此，近日，博主 Thaddée Yann TYL 写了一篇题为《Chinchilla 之死》的文章，其中分析解读了 OpenAI 与 DeepMind 几篇论文中的细节，得到了一个出人意料的结论：如果有充足的计算资源和数据，训练足够长时间，小模型的表现也可以超越大模型。

为了避免将算力浪费于缓慢的收敛过程中，进行外推是非常重要的。毕竟，如果你不得不步行去珠穆朗玛峰，你不会只靠眼睛辨别方向，而是会使用 GPS。

但有时候，你又不得不把视线从 GPS 上移开，看看道路。有些东西是无法通过简单的公式推断出来的。对十九世纪的物理学家来说，紫外灾变（ Ultraviolet catastrophe）便是如此；而现在，LLM 亦是如此。我们估计在中心位置附近有效的东西可能在远处会出现巨大的偏差……

RT-Thread

《我的世界》的边境之地（far lands），这是突然扭曲并与自身重叠的悬崖之地。

Chinchilla 到底是什么？

更小的模型执行的乘法更少，因而训练得也更快。但是，按照理论，更小的模型最终会触及自身知识容量的极限，并且学习速度会变慢；而有更大知识容量的大型模型在经过给定的训练时间后会超过小模型，取得更好的性能表现。

在评估如何在训练期间获得最佳性价比时，OpenAI 和 DeepMind 都会试图绘制帕累托边界（Pareto frontier）。虽然他们没有明确说明他们使用了该理论来绘制，但 OpenAI 曾说过的一句话暗示存在这个隐藏假设：

我们预计更大模型的表现应当总是优于更小的模型…… 大小固定的模型的能力是有限的。

这一假设是他们计算帕累托边界的基石。在 Chinchilla 研究中，图 2 展示了不同大小的模型经过大量训练时的训练损失变化情况。初看之下，这些曲线与理论相符：更小的模型一开始的损失更低（表现更好），但损失降低的速度最终变慢并被更大模型的曲线超越。

RT-Thread

比较许多不同模型大小的损失曲线的 Chinchilla 图。

在这幅图中，每当更小的模型输给一个更大的模型时，他们就会标记一个灰点。这些点连成的灰线便是帕累托边界，这是他们计算缩放定律（scaling laws）的方式。

这一假设有个问题：我们不知道如果让更小的模型训练更长时间会发生什么，因为他们在小模型被超越时就不再继续训练它们了。

接下来在看看 Llama 论文。

Chinchilla 会有 Llama 的视野吗？

今年初，Meta 训练了四个不同大小的模型。不同于其它研究，其中每个模型都被训练了非常长时间，较小的模型也一样。

他们公布了所得到的训练曲线：

RT-Thread

四个不同大小的 Llama 模型的训练损失曲线

每条曲线首先按照幂律大幅下降。
然后损失开始近乎线性地下降（对应于一个相当恒定的知识获取率）。
在这条曲线的最右端，直线趋势被稍微打破，因为它们稍微变更平缓了一些。

首先，对于曲线末端的变平情况，这里解释一下人们可能有的一个微妙的误解。这些模型都是通过梯度下降训练的并且使用了可变的学习率（大致来说，这个超参数定义了每次朝梯度方向前进的程度）。为了获得优良的训练效果，学习率必须不断降低，这样模型才能检测到源材料中更细微的模式。他们用于降低学习率的公式是最常用的余弦调度（cosine schedule）。

RT-Thread

在余弦调度下，学习率与训练步数的函数关系：学习率首先线性增长，然后下降且下降速度变快，之后到达中途一个转折点，下降速度再减慢。

从这张图中可以看到，在训练结束时，余弦调度会停止降低学习率，此时已经得到一个很好的近乎线性的训练损失曲线。学习速度减慢就是这种做法造成的。模型并不一定不再具有以同样近乎线性的速率学习的能力！事实上，如果我们能为其提供更多文本，我们就能延长其余弦调度，这样其学习率就会继续以同样速率下降。

模型的适应度图景并不取决于我们供给它训练的数据量；所以学习率下降趋势的改变是没有道理的。

不过这并非本文的重点。

训练损失曲线可能在另一方向上也存在误导性。当然，它们训练使用的数据是一样的，但它们处理这些数据的速度不同。我们想知道的并不是模型的样本效率如何（在这方面，更大的模型显然可以从其所见数据中学到更多）。让我们想象一场比赛：所有这些模型同时开始起步，我们想知道哪个模型首先冲过终点线。换句话说，当在训练时间投入固定量的算力时，哪个模型能在那段时间内学到更多？

幸好我们可以把这些损失曲线与 Meta 提供的另一些数据组合起来看：每个模型训练所用的时间。

RT-Thread

先来谈谈上面我们看过的那张 Chinchilla 图，其仅占这张图左侧的一小部分。在这一小部分，可以看到 Chinchilla 记录的相同行为。以 7B 版本为例：其损失的下降速度一开始比更大的模型快得多，然后减慢；之后 13B 版本模型超过了它，率先到达 1.9。

然后，抵达边境之地，意外的转折出现了：7B 版本进入了近乎线性的疆域，损失稳步下降，看起来似乎走上了反超 13B 版本之路？如果能训练 7B 版本更长时间，说不好会发生什么。

但是，13B 和 33B 版本之间似乎也有类似的现象，其中 13B 版本起初的 Chinchilla 减慢也使其呈现出近乎线性的趋势，这时候 13B 版本的损失下降速度似乎很快！33B 其实胜之不武，因为它超越 13B 版本时已经用去了超过两倍的计算时间。

33B 和 65B 版本之间也有同样的先减速再加速的现象，以至于 33B 实际上从未被 65B 超越。这幅图的内容击破了 OpenAI 和 Chinchilla 的假设：更大的模型并未取得胜利（至少说还没有）。他们检测到的这种减速实际上并不是由于达到了某个能力极限！

尽管如此，7B 模型的线还是有点不尽如人意。如果 Meta 能训练更长时间就好了……

不卖关子了：他们训练了！他们发布了 Llama 2！

是时候证实我们的怀疑了

RT-Thread

四个不同大小的 Llama 2 模型的训练损失曲线

同样，可以得到训练时间：

RT-Thread

Llama 2 训练损失与所耗费的 GPU 时间

一眼便能看出，这里的训练损失曲线与 Llama 1 的不一样，即便这些基础模型是一样的。事实证明， Llama 2 的训练使用了双倍上下文大小和更长的余弦调度 —— 不幸的是，这会对所有模型大小产生负面影响。但是，更小的模型受到的影响比更大的模型更严重。由此造成的结果是：在 Llama 1 的训练时间，33B 模型总是优于 65B 模型；而在 Llama 2 的训练时间，34B 模型则在重新超过 70B 模型之前要略逊一筹。

RT-Thread

更重要的是，对训练速度的比较强烈地佐证了之前对 Llama 1 的猜想：

一开始时，更小的模型快于更大的模型。
然后，更小的模型速度变慢，并被更大的模型超越（按照 Chinchilla）。
但再然后，模型进入近乎线性的区域，这时候更小的模型能更快地下降，获取更优的知识，它们再次超越更大的模型。

这就带来了一个有关训练方法的结论：与普遍的看法相反，更大的模型会产生更差的结果。如果你必须选择一个参数大小和数据集，你可能最好选择 7B 模型，然后在数万亿 token 上训练 7 epoch。

请看看 7B 模型近乎线性的区域，然后将其模式外推给 70B 模型，看看 70B 模型训练停止时的情况：如果将 70B 模型的训练资源花在 7B 模型上，可能会达到更低的困惑度！

从 Llama 2 的曲线还能看到另一点：Llama 1 曲线末端的学习减速实际上是余弦调度造成的。在 Llama 2 的训练中，在对应于 1 万亿 token 读取数的位置，就完全没有这种减速。

事实上，原因可能是这样的：在同一位置， Llama 2 7B 模型的质量低于 Llama 1 7B 模型，可能是因为其余弦调度被拉长了！

现在我们回到那篇 Chinchilla 论文来论证这一点。在该论文的附录 A 的图 A1 中，他们给出了一个不同余弦调度参数的消融实验，换句话说就是对学习率曲线使用不同的延展方式。

RT-Thread

Chinchilla 余弦调度消融研究

他们指出，当学习率曲线没有延展时，能实现最低的损失。这得到了图表的支持，但其中也有不对劲的地方。在读取了 600 万 token 后，上图模型的训练损失低于 2.8；与此同时，在相同的位置，下图模型的训练损失还更好。然而这两个模型的差异仅仅是余弦调度！由于下图模型注定会处理更多训练数据，所以就计算了「未拉伸的」余弦调度更多步骤，这实际上产生了拉伸效果。如果学习率遵循分配给更少训练步骤的余弦调度，其在同等训练时间下的损失会更低。

更广泛地说，这会引出一个有待解答的问题：如果余弦调度不是最优的，那么曲线的尾部形状应该是什么样子？

3. 突发！Hinton入局机器人创业，公司新获9000万投资

原文：https://mp.weixin.qq.com/s/GzWkNWJnQJDT1vjZeKZBLw

图灵奖得主、深度学习之父Geoffrey Hinton的下一程，定了！

刚刚，Hinton亲自宣布，将加入机器人初创公司Vayu Robotics，担任顾问一职。

RT-Thread

消息一出，网友们一水儿的Congratulations！

还有人说，这回机器人管家更有希望了。

RT-Thread

今年5月，Hinton突然从任职十载的谷歌离职，轰动整个科技圈。

他本人当时表示，这么做是为了可以自由地讨论人工智能风险。

自从离职后，这位AI教父收到邀约不断，但都没能吸引到他——直到Vayu Robotics出现。

所以这家名不见经传的初创公司，凭什么？

Hinton给出的理由是，它们的技术路线和其他很多AI应用相比，AI道德风险更低。

RT-Thread

当然Vayu Robotics自身实力也很强。

最近它们刚刚浮出水面，便拿下1270万美元种子轮融资（折合人民币约9271万元）；创始团队成员也都来头不小，被英伟达AI科学家Jim Fan称为业内的“big names”。

RT-Thread

不过还有一点非常关键——Vayu Robotics的CTO尼蒂什·斯里瓦斯塔瓦（Nitish Srivastava）为Hinton门下弟子。

他博士毕业于多伦多大学，在此期间他和Hinton等人共同提出了神经网络中最常被用来防止过拟合的方法之一Dropout，目前论文被引次数已超过46000次。

这也是为啥Hinton说，这一回是和Nitish的再次合作。

而这也不是老爷子第一次和学生联手创业了。

当年Hinton会加入谷歌，正是因为谷歌收购了他和学生共同创办的DNNResearch。

Vayu Robotics是谁？

所以，情况类似的Vayu Robotics，同样不可小觑。

这家初创公司成立于2021年，直到最近才偷偷杀入众人视野，首条官宣消息就是拿下1270万美元种子轮融资，在圈内立刻引发不小轰动。

RT-Thread

虽然公司名字中带有机器人（Robotics），但是Vayu Robotics强调自己是“一家AI公司”。

Vayu是梵文中“智慧”的意思。

它使宇宙中所有的运动和所有能量活动成为可能。

公司在传感器、机器学习和产品开发三方面布局，旨在提供高质量、低成本的机器人。

目前已经开发出了一个小型送货机器人。

RT-Thread

Hinton透露，这种机器人消耗的能量仅为汽车（时速50英里）的1%，而且刹车距离很短，能具备更高的安全性。

RT-Thread

Vayu表示这个机器人基于纯AI视觉方案，没有使用激光雷达、高精地图。

通过仿真模拟训练，它能基于少量真实图片训练后上路

Vayu Robotics强调他们以自动化为第一原则，会优先考虑机器人的成本和部署问题。

目前也在开发自动驾驶基础模型和传感技术。

最新拿下的种子轮融资，将用于多个领域的AI机器人开发，包括无人配送、工厂、汽车场景。

公司创始阵容非常豪华。

CTO为Hinton弟子尼蒂什·斯里瓦斯塔瓦（Nitish Srivastava）。

除了和Hinton共同提出了大名鼎鼎的Dropout外，他还参与开发了最早用于无监督视频学习LSTM模型。

其参与创办的Clarevision Research被苹果收购，随后他一同加入苹果，担任研究科学家，负责感知与规划相关的自主系统开发。

2022年他正式加入Vayu，成为联合创始人之一。

RT-Thread

公司CEO为阿南德·戈帕兰（Anand Gopalan）。

这位工业界大佬在创办Vayu前，曾是激光雷达巨头Velodyne Lidar的CEO。

阿南德早期为集成电路工程师，曾先后在川崎微电子、Rambus任职。

2016年正式加入Velodyne Lidar。最初担任CTO，负责监督技术和产品开发，2020年后担任CEO。

2021年阿南德离职，开始创办Vayu。

RT-Thread

另一位联合创始人马赫什•克里希那穆提（Mahesh Krishnamurthi）也曾在苹果和美国第二大打车应用公司Lyft任职。

RT-Thread

结合Vayu Robotics的背景来看，Hinton决定加入其中担任顾问，也就不那么意外了。

相较于大模型等，Vayu想做的无人配送机器人、工厂机器人等，涉及的AI伦理问题更少，落地路线更加安全；而且还有实力超强的创始团队领衔。

要知道，Hinton被誉为“人工智能教父”，长期关注AI技术的应用和管控。

他人生中每次重大选择，都是希望能让如此强大的AI技术，确保可以被可控利用。

今年离开谷歌是出于这样的考虑。

最早加入谷歌亦是如此——当时DNN Research的收购中，谷歌并非出价最高的那一个。Hinton选择谷歌，也有这方面原因。

包括更早之前离开卡内基梅隆大学，选择去多伦多大学任教，也是因为不想拿军方经费做研发，让AI为军事所用。

回到最近来看，在过去5个月的GAP中，Hinton的动向也都围绕探讨人工智能风险展开。

5个月空窗期，Hinton都在干啥？

此次加入Vayu机器人公司，距离Hinton离开谷歌已经过去了5个月。

今年5月，Hinton官宣离职，辞去谷歌的副总裁和工程研究员职务，结束了自己在谷歌的十年工作生涯。彼时《纽约时报》爆出消息，Hinton在4月提出了离职。

辞职的理由一言以蔽之，是对人工智能风险的担忧。

他在推特上明确表示，选择离开，“是为了可以自由谈论AI的风险”。

RT-Thread

这就不得不说到Hinton对AI风险的浓烈隐忧。

啥原因呢？一方面是他深感AI将对就业市场造成巨大影响；更进一步的，他非常担心有朝一日那种具有自主能力的杀手机器人，会成为现实。Hinton谈到，AI实际上可以比人类拥有更聪明的想法，但他没料到AI的发展速度会像过去几个月那样一日千里。

本来在他眼中，达到这种速度和高度，怎么也得要个三五十年的。

这样的发展速度加重了这位深度学习之父的忧虑，甚至直言不讳：

我对自己毕生的工作，感到非常后悔。我只能安慰自己说，如果我没有这么做（推动AI的发展），还会有其他人。

作为图灵奖得主，又是深度学习三巨头之一，Hinton的此番言论果然引起了轩然大波。

许多人表示对此不理解，跑到他的推特下激情发问，认为控制AI的风险不应该是延缓发展它，而是有别的什么办法。

言论风波也波及了前东家，毕竟谷歌现在正在大模型时代激流勇进。谷歌研究首席科学家、高级副总裁Jeff Dean不得不出面发表了份声明：

我们仍会坚持对AI采取负责任的态度。我们在不断学习理解新出现的风险时，也在大胆创新。

离职后的Hinton对AI风险的担忧并未停歇，并且持续在公开露面中持续对外输出。

6月，Hinton主要在两个地方发声，一是国内的智源大会，二是和吴恩达的对话。

在智源大会上他表达的观点是，超级智能会失控，但目前他还想不到什么好的方法阻止它们：

一旦它（超级智能）变得善于欺骗人，就能掌握让人们做任何事的方法……我觉得这很可怕，但我看不出如何防止这种情况发生，因为我老了。我希望，像你们这样的年轻有才华的研究人员，会搞懂我们如何拥有这些超级智能，并让我们生活得更好。

仅仅时隔几天后与吴恩达的对话系列，聊的也是——

AI究竟存在哪些风险？

Hinton继续拉响着AI风险的警报，主要输出了两个观点：

第一，所有科学家必须针对“AI风险”议题好好聊聊，以便于制定良好的政策；

第二，AI确实在理解世界。科学家们需要列出其中的关键技术问题，这有助于在AI安全议题上达成共识。而达成共识的关键点，是“GPT-4和Bard这类对话大模型是否真的理解它们自己在说什么”

RT-Thread

6月之后，Hinton整个人呈现出了一种“半退网”状态，既没有在社交平台或媒体采访中频繁出现，也没有公布自己下一站到底去哪。

但这样一位巨佬仍然被外界聚光灯紧紧锁定。

9月，《时代》周刊发布世界AI最具影响力人物榜，齐聚100位学界业界大咖。

Hinton和其他2位深度学习巨头一起，位列“思想者”之列，并且是上榜人士中，年纪最长者（76岁）。

RT-Thread

等老爷子再一次公开露面，是3天前接受媒体《60分钟》的采访。

他肯定了AI做出的贡献，但还是再次表示了对AI可能会接管人类的担忧。

Hinton这回是这么说的：

随着AI对更复杂任务的处理，对于人类而言，其内部运作会变得越来越神秘且不可知。 AI有一天可能会取代人类。我不是说这事儿一定会发生，但如果能阻止AI永远不想这样做，那就太好了。

此外，他的担心又新增了一项，那就是怕AI系统会自己编写代码，对自己进行修改——这么一来，人类更有可能失去对AI的控制了。

最后，Hinton语重心长地说，是时候了！

是时候该进行实验来更好地理解AI，并通过法律来确保技术被合理使用。

如今，已经75岁的Hinton显然还没打算退休，要在把控AI道德和风险的道路上继续身体力行。

由此我们也可以期待，他和“年满2岁”的Vayu Robotics，未来会擦出哪些火花？

4. 当YoloV8与ChatGPT互通，这功能是真的强大！后期打通语音试试

原文：https://mp.weixin.qq.com/s/Zmg10_4ywkg1OdZ77uF7CA

01 简介

ChatGPT（全名:Chat Generative Pre-trained Transformer），是OpenAI研发的聊天机器人程序，于2022年11月30日发布。ChatGPT是人工智能技术驱动的自然语言处理工具，它能够通过理解和学习人类的语言来进行对话，还能根据聊天的上下文进行互动，真正像人类一样来聊天交流，甚至能完成撰写邮件、视频脚本、文案、翻译、代码，写论文等任务。

现在的ChatGPT都是输入文字、图片或者语音，那如果将检测网络或者更上层一点的东西，把视觉与ChatGPT对接，会不会有不一样的火花？

02 尝试与设计

注册OpenAI账号并创建API密钥：首先需要注册OpenAI账号，并在Dashboard中创建API密钥以便后续使用。

安装OpenAIPythonSDK：

可以通过pip install openai命令来安装OpenAIPythonSDK，这样就可以在Python代码中使用ChatGPT进行对话了。

调用API进行对话：可以使用SDK中提供的completions方法来调用API进行对话，需要传入API密钥和输入文本，API会返回生成的回复文本。

集成到应用中：可以将ChatGPT集成到应用中，例如网站或移动应用程序，使用户可以与ChatGPT进行对话。集成方式有很多种，可以根据具体应用场景选择合适的方式。

需要注意的是，ChatGPT是基于大规模的语言模型训练而成的，对话过程中可能会出现一些不准确或不恰当的回复。因此，在实际应用中需要谨慎评估ChatGPT的表现，并根据实际情况进行调整和优化。

YoloV8搭建

下载库——ultralytics

pip install ultralytics

运行测试

yolo predict model=yolov8n.pt source='https://ultralytics.com/images/bus.jpg'

接下来就是打通视觉模型和ChatGPT的交流，先看一个例子！首先从网上下载一段视频，然后开始进行Sao操作：

准备好素材就开始表演！

RT-Thread

先进入搭建好的系统中，进行启动：

然后就开始进入新的世界了

RT-Thread

然后接入视频并启动Yolov8实时检测：

RT-Thread

然后这边我对其说：

Lock the area on the right for real-time detection

RT-Thread

此时一直在实时检测中：

RT-Thread

然后输入有一个屏幕被打开，进行了检测可视化展示：

前面感觉检测的效果不是很好，就重新输入一段指令：

Direct detection of fire extinguishing stages

RT-Thread

由于整体检测网络没有怎么优化训练，直接检测，效果不理想，但是与ChatGPT的联动还是有效果，这种有没有联想到流浪地球的MOSE。

这种能力如果全面打开，是不是在现实生活中，实时视频中，和ChatGPT对话，比如看中视频中的一键衣服，是不是GPT就可以自己去网上搜索，给出最优惠价格的链接（GPT帮用户去比价），然后把链接推送给用户。这些都是一种可能，也是GPT真正应该落地的应用。

RT-Thread

5. 有意见 | 投入巨大的大模型不挣钱？

原文：https://new.qq.com/omn/author/8QMd3XZe7YMcuT%2Fa

据爆料：用户量高达150万的AI编程工具GitHub Copilot，平均每月每用户倒贴20美元，最高能达80美元。OpenAI运行ChatGPT，每日投入成本可能高达70万美元。虽然随着能源等成本的下降，未来大模型计算成本也会随之下降，但目前这一运行成本，依旧无法被会员价所填补。与此相对的是AI绘画，Midjourney用户数一路飙升到近1500万，已成功实现2亿美元的年收入。

“有意见”留言板

@出来混总是要还：如果AI不挣钱英伟达也不会是赢家，最终怎么挣的还会怎么吐出来。故意构建虚假繁荣借机抬高显卡价格，投资由“矿工”转型的算力服务公司，依靠金融戏法赚钱也是黄教主的拿手好戏。技术这个工具用在创造生产力价值上才是挣钱的正道。

@Betty：大型语言模型和AI绘画产品在商业化上面临多重挑战。语言模型如GitHub Copilot亏损严重，主要原因在于高昂的运营成本和宣传费用。用户尚未充分认识到生成式AI的实际价值，这导致了宣传的困难。相比之下，AI绘画产品似乎更容易实现盈利，因为它们的商业模式更明确，允许用户将作品用于商业用途。但它们也面临计算成本上升的挑战。总之，这两种技术都有潜力，但需要克服成本和市场推广等问题，以实现商业成功。

@nv：全球科技巨头在大模型上的投入虽然巨大，但目前看来并未带来预期的盈利。主要问题在于高昂的运行成本和版权成本，以及大模型自身的落地场景和应用价值仍待挖掘。然而，AI绘画产品却已经开始盈利，其成功的关键在于产品价值点明确，用户可以立即将作品用于商业使用。

6. 甲骨文召开CloudWorld 2023大会，积极拥抱生成式AI

原文：https://new.qq.com/rain/a/20231006A06MKF00

在近日于拉斯维加斯召开的年度CloudWorld会议上，甲骨文表示正在全力发展生成式AI，绝不会看着自己最大的竞争对手亚马逊云科技（AWS）占领市场。

在讨论本届CloudWorld大会之前，我们先回顾一下今年9月14日，甲骨文公司与微软宣布建立的最新合作伙伴关系。双方协定将Oracle数据库服务置于微软Azure的Oracle云基础设施（OCI）之上。新的Oracle Database@Azure将令微软和甲骨文成为全球仅有的两家OCI超大规模基础设施运营商，可帮助客户简化云迁移、部署与管理流程。特别是考虑到两位合作伙伴将保证提供完全均等的服务价格和授权许可，因此客户能够随意选择自己熟悉的云环境、并保证使用成本不受任何影响。

这究竟有什么影响？简单来说，以往只能在OCI上使用的数据库服务，现在也可以运行在带有Oracle Exadata服务器硬件的Azure实例当中了，且这批硬件就安装在微软所拥有的Azure数据中心之内。这使得分析、批量报告和其他任务都能在数据库内/各数据库间同时运行。于是乎，原本仍在犹豫要不要全面上云的用户也可以全力投入，不必担心跨云环境所会引发性能问题、供应商锁定或者强制要求重新设计工作流程。总而言之，这是一项重大举措，将帮助甲骨文和微软更好地与云市场的绝对领导者AWS展开竞争。

那么，这一切与甲骨文的CloudWorld大会有什么关系？当然有，如今的科技领域内一切之间都有着千丝万缕的关联。合作伙伴关系是推进制胜战略的前提，而甲骨文和微软似乎都觉得自己有机会在生成式AI这条新赛道上有所表现。而且更重要的是，Oracle Database@Azure还只是合作的第一步。

CloudWorld 2023大会：聚焦于生成式AI

如今是2023年，任何不关注生成式AI问题的活动都没有资格被称为科技盛会。在本届CloudWorld会议期间，甲骨文发布了大量当前或计划在服务组合中发布的生成式AI功能。下面来看其中几个代表性案例：

AI向量搜索：甲骨文宣布，计划在其Oracle Database 23c中添加使用AI向量的“语义搜索功能”。AI向量搜索功能包括新的向量数据类型，以及向量索引/搜索SQL，使其能够存储按相似性组织起来的图像、音频、文本文档及其他非结构化数据等语义内容。总而言之，这将帮助客户更快、更轻松地整合并访问更多数据，而AI向量搜索更让专用数据在检索增强生成（RAG）中的使用成为可能。所谓检索增强生成，是一种将上下文添加至已训练AI模型中以实现关联性改进的机制，相关用例包括产品建议、图像搜索和传感器数据分析等。

AI主导的生成式AI服务：甲骨文推出一项新的托管服务，允许企业通过API将大语言模型接口集成至自己的应用当中。该服务采用Cohere大语言模型构建而成，但用户也可以使用自有数据对该模型进行更新。可用的模型功能包括命令（生成文本）、总结（总结抽象信息）和嵌入（将文本转换为数字向量以供大语言模型使用）。

与Cohere的合作伙伴关系、包括甲骨文使用Cohere大语言模型推进企业级生成式AI的计划，宣布于2023年6月，也就是三个月之前。没错，如今的生成式AI浪潮就是这么迅猛。

MySQL HeatWave：甲骨文添加了新的Vector Store，借此向企业客户开放其MySQL HeatWave数据分析云服务。此服务可以摄取多种格式的文档，并将其存储为通过编码器模型生成的“嵌入”，从而加快查询运行速度。其中的生成式AI功能包括由大语言模型驱动的操作界面，允许使用者通过自然语言与之交互。甲骨文还将智能湖仓功能添加至亚马逊云科技的MySQL HeatWave当中，帮助客户轻松映射并查询存储在Amazon S3中的TB级数据，且无需支付出口费用。

Fusion Cloud Suites迎来生成式AI更新：除了上述公告之外，几乎所有Fusion Cloud服务（包括客户体验、人力资本管理、企业资源规划和供应链管理）也都迎来了生成式AI的加持。另外，面向医疗保健服务商的全新Oracle Clinical Digital Assistant也已上线。总之，各类Fusion Cloud套件都将为医疗保健领域的客户提供更加有力支持。

CloudWorld 2023大会：关注愿景，也关注价值

与微软上周专门展示具体产品和解决方案的活动不同，甲骨文的CloudWorld 2023大会似乎并不特别关注已经做到了什么，而是更多强调甲骨文眼中未来的潜在形态。据了解，甲骨文计划将生成式AI嵌入自家全部产品，并将预先开发50个用例，未来将有更多用例由客户自行设计和驱动。此外，会议还特别关注在生成式AI的落地过程中，甲骨文是否始终将客户数据的安全放在首位。

更重要的是，CloudWorld还表明如果说云是新的前沿，那么生成式AI就是拓展和巩固该前沿的又一武器，甚至可以说是决定性力量。所以尽管甲骨文与目前生成式AI领域的主导者微软仅在Oracle Database@Azure上保持合作，但相信二者后续的合作前景将不可限量。

虽然甲骨文没有公布具体定价，但表示客户一直热切期望能把生成式AI功能引入企业级应用程序。另外AI不会作为额外的功能选项，而是独立产品。确实令人相当期待，可也必须承认，在搞清楚AI普及的后果之前就贸然行动似乎有点鲁莽。

总之，本届CloudWorld大会带来了激动人心的时刻，也是生成式AI起步阶段的又一标志性事件。只是在万众争先的大背景下，不知道有没有哪位科技巨头愿意先退后一步、想清楚“我们到底要前往何处”。

———————End———————

点击阅读原文进入官网

原文标题：【AI简报20231013期】投入巨大的大模型，不挣钱？或许会被小模型超过！

文章出处：【微信公众号：RTThread物联网操作系统】欢迎添加关注！文章转载请注明出处。

打开APP阅读更多精彩内容

【AI简报20231013期】投入巨大的大模型，不挣钱？或许会被小模型超过！

RTThread物联网操作系统

描述

1. SteerLM：解锁在推理期间自定义模型响应

2. 只要训练足够长时间，小模型也能超过大模型

3. 突发！Hinton入局机器人创业，公司新获9000万投资

4. 当YoloV8与ChatGPT互通，这功能是真的强大！后期打通语音试试

01 简介

02 尝试与设计

5. 有意见 | 投入巨大的大模型 不挣钱？

6. 甲骨文召开CloudWorld 2023大会，积极拥抱生成式AI

5. 有意见 | 投入巨大的大模型不挣钱？