苹果公司最近在人工智能领域取得了新的研究进展,他们发布了一种名为ReALM的人工智能系统,该系统具有优于GPT-4的视觉元素解析能力。这项研究成果被认为是苹果在AI大语言模型上的重要突破。
友情链接:ACEJoy
ReALM是苹果研究人员开发的一种人工智能系统,它能够理解屏幕上的实体以及对话和背景上下文中的模糊引用,从而实现与语音助手更自然的交互。该系统利用大型语言模型将参考解析的复杂任务转换为纯语言建模问题,从而实现了显著的性能提升[1]。
为了处理基于屏幕的引用,ReALM的一个关键创新在于使用已解析的屏幕字符及其位置来重建屏显,以生成捕获视觉布局的文本表示。研究人员证明,这种方法与专门用于参考解析的微调语言模型相结合,可以在该任务上优于GPT-4[1]。
苹果的研究人员团队指出,能够理解上下文,包括参考文献,对于对话助理来说至关重要。他们展示了ReALM在不同类型的参考中对现有系统的巨大改进,最小的模型在屏幕参考上获得了超过5%的绝对增益,而较大模型的性能更是远远优于GPT-4[1]。
尽管ReALM在解析屏幕上的视觉元素方面取得了显著的成果,研究人员也指出,依赖屏幕自动解析仍然存在局限性。处理更复杂的视觉参考可能需要结合计算机视觉和多模态技术[1]。
这项研究的发布表明苹果公司在人工智能领域的投资和研究将继续推进,以使其语音助手Siri和其他产品更加熟悉和情境感知。苹果公司正在努力缩小与竞争对手在人工智能领域的差距,以保持其在市场上的竞争力[2]。
Learn more:
- 苹果大模型新进展:发布 ReALM,视觉元素解析能力优于 GPT-4_手机新浪网
- 苹果大模型新进展:发布 ReALM,视觉元素解析能力优于 GPT-4-CSDN博客
- 苹果研究人员称其设备端模型 ReALM 性能优于 GPT-4,可大幅提升 Siri 智能程度 – IT之家