苹果ReALM模型在实体识别测试中超越OpenAI GPT-4.0

描述

  4月2日报道,尽管Siri在描述图片信息的能力上不够完善,但苹果公司并未停止对人工智能领域的深入探索。其最新研究论文详述了一种大幅提升Siri智能化水平的模型——ReALM。该模型在测试中超越了OpenAI的GPT-4.0著名语言模型。

  据悉,ReALM的独特特性是同时理解用户屏幕内容及正在执行的操作。依据信息类型,论文将信息细分成三类:

  (1)屏幕实体: 即当前显示在用户屏幕上的内容。

  (2)对话实体: 指与对话相关的内容。如,用户请求“拨打母亲的电话”,那么,母亲的联系信息便属于此类。

  (3)背景实体: 与用户当前操作或屏幕显示内容未必直接相关的实体,如正在播放的音乐或即将发出的报警铃声。

  一旦成功实现,ReALM将赋予Siri更高的智能化和实用性。该团队将ReALM与OpenAI的GPT-3.5和GPT-4.0进行了性能比拼:

  “我们以上下文信息作为输入,对比了OpenAI的GPT-3.5和GPT-4.0模型预测实体的准确程度。由于GPT-3.5仅支持文本输入,故我们仅提供文字提示;而GPT-4允许理解图片信息,所以我们给它提供了屏幕截图,从而有效提高了屏幕实体识别的效率。”

  那苹果的ReALM是否具备如此强大的性能优势呢?

  “我们的模型在识别各种类型实体方面都有显著提升,即使是小尺寸模型,在屏幕实体识别准确性上也已超过原有的系统5%以上。在与GPT-3.5和GPT-4.0的比较中,小型模型与GPT-4.0相媲美;更大的模型则表现更佳。”

  论文得出的结论之一便是,有比GPT-4参数少许多的ReALM,却仍可在性能上与之匹敌。在处理某些特定领域的用户指令时,ReALM甚至优于其他模型,使其成为一款高效、实用且可本地运行的实体识别系统。

  而关键问题在于,苹果需寻求无损性能的方法来将此技术运用至设备之中。据了解,预计6月10日举行的WWDC 2024开发者大会上,苹果将会在iOS 18等新系统中展现更多人工智能技术创新成果,令人颇为期待。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分