OpenAI正式推出GPT-4o模型，支持实时音频、视觉和文本推理处理

微云疏影 2024-05-15 526

　　据报道，OpenAI于昨日凌晨推出了全新的GPT-4o模型，是对前期产品GPT-4的进阶改进版。这一模型拥有实时推理处理视觉、音频及文字信息的强大能力，尤其在与ChatGPT的对接使用方面表现出色。

　　紧接着，OpenAI总裁暨联合创始人Greg Brockman发布了详细演示，展示了两部搭载GPT-4o的设备如何实现语音或视频交互。

　　在演示前，Brockman表达了希望两部AI聊天机器人能够进行有效沟通的愿望。他向A聊天机器人阐述了这一想法，并允许B聊天机器人调用摄像头观察周边环境。

　　B聊天机器人成功调用前置摄像头，清晰地呈现了用户的着装以及所在环境。接着，A聊天机器人与其展开对话，询问相关问题，如调整摄像头视角等。

　　在此过程中，新版ChatGPT不仅借助视觉AI技术理解摄像头中的画面，还能通过语音交互实现更丰富有趣的互动体验，同时支持中途打断和对话插入，并具备上下文记忆功能。

打开APP阅读更多精彩内容