苹果ReALM模型在实体识别测试中超越OpenAI GPT-4.0

微云疏影 2024-04-02 609

　　4月2日报道，尽管Siri在描述图片信息的能力上不够完善，但苹果公司并未停止对人工智能领域的深入探索。其最新研究论文详述了一种大幅提升Siri智能化水平的模型——ReALM。该模型在测试中超越了OpenAI的GPT-4.0著名语言模型。

　　据悉，ReALM的独特特性是同时理解用户屏幕内容及正在执行的操作。依据信息类型，论文将信息细分成三类：

　　（1）屏幕实体：即当前显示在用户屏幕上的内容。

　　（2）对话实体：指与对话相关的内容。如，用户请求“拨打母亲的电话”，那么，母亲的联系信息便属于此类。

　　（3）背景实体：与用户当前操作或屏幕显示内容未必直接相关的实体，如正在播放的音乐或即将发出的报警铃声。

　　一旦成功实现，ReALM将赋予Siri更高的智能化和实用性。该团队将ReALM与OpenAI的GPT-3.5和GPT-4.0进行了性能比拼：

　　“我们以上下文信息作为输入，对比了OpenAI的GPT-3.5和GPT-4.0模型预测实体的准确程度。由于GPT-3.5仅支持文本输入，故我们仅提供文字提示；而GPT-4允许理解图片信息，所以我们给它提供了屏幕截图，从而有效提高了屏幕实体识别的效率。”

　　那苹果的ReALM是否具备如此强大的性能优势呢？

　　“我们的模型在识别各种类型实体方面都有显著提升，即使是小尺寸模型，在屏幕实体识别准确性上也已超过原有的系统5%以上。在与GPT-3.5和GPT-4.0的比较中，小型模型与GPT-4.0相媲美；更大的模型则表现更佳。”

　　论文得出的结论之一便是，有比GPT-4参数少许多的ReALM，却仍可在性能上与之匹敌。在处理某些特定领域的用户指令时，ReALM甚至优于其他模型，使其成为一款高效、实用且可本地运行的实体识别系统。

　　而关键问题在于，苹果需寻求无损性能的方法来将此技术运用至设备之中。据了解，预计6月10日举行的WWDC 2024开发者大会上，苹果将会在iOS 18等新系统中展现更多人工智能技术创新成果，令人颇为期待。

打开APP阅读更多精彩内容