4月2日报道,尽管Siri在描述图片信息的能力上不够完善,但苹果公司并未停止对人工智能领域的深入探索。其最新研究论文详述了一种大幅提升Siri智能化水平的模型——ReALM。该模型在测试中超越了OpenAI的GPT-4.0著名语言模型。
据悉,ReALM的独特特性是同时理解用户屏幕内容及正在执行的操作。依据信息类型,论文将信息细分成三类:
(1)屏幕实体: 即当前显示在用户屏幕上的内容。
(2)对话实体: 指与对话相关的内容。如,用户请求“拨打母亲的电话”,那么,母亲的联系信息便属于此类。
(3)背景实体: 与用户当前操作或屏幕显示内容未必直接相关的实体,如正在播放的音乐或即将发出的报警铃声。
一旦成功实现,ReALM将赋予Siri更高的智能化和实用性。该团队将ReALM与OpenAI的GPT-3.5和GPT-4.0进行了性能比拼:
“我们以上下文信息作为输入,对比了OpenAI的GPT-3.5和GPT-4.0模型预测实体的准确程度。由于GPT-3.5仅支持文本输入,故我们仅提供文字提示;而GPT-4允许理解图片信息,所以我们给它提供了屏幕截图,从而有效提高了屏幕实体识别的效率。”
那苹果的ReALM是否具备如此强大的性能优势呢?
“我们的模型在识别各种类型实体方面都有显著提升,即使是小尺寸模型,在屏幕实体识别准确性上也已超过原有的系统5%以上。在与GPT-3.5和GPT-4.0的比较中,小型模型与GPT-4.0相媲美;更大的模型则表现更佳。”
论文得出的结论之一便是,有比GPT-4参数少许多的ReALM,却仍可在性能上与之匹敌。在处理某些特定领域的用户指令时,ReALM甚至优于其他模型,使其成为一款高效、实用且可本地运行的实体识别系统。
而关键问题在于,苹果需寻求无损性能的方法来将此技术运用至设备之中。据了解,预计6月10日举行的WWDC 2024开发者大会上,苹果将会在iOS 18等新系统中展现更多人工智能技术创新成果,令人颇为期待。
全部0条评论
快来发表一下你的评论吧 !