苹果新品发售的热度还没消退,大家都在讨论新手机的硬件进化。
而在 AI 功能方面,苹果仍然没有拿出什么颠覆性的应用,Apple Intelligence 在国内仍然遥遥无期。
再叠加上近期苹果 AI 团队和硬件团队的人才流失,这一切似乎对苹果而言都不是太乐观。
虽说苹果在大模型领域上总是吃瘪,但说一个不冷不热的知识:苹果在计算机视觉领域的智能研究是其传统强项。
在构建和视觉相关的大模型时,有一个非常显著的痛点。视觉模态包含图像、视频和三维这三种,这些视觉模态具备不同是数据维度和表征方式,在研究中几乎不可避免的需要分开处理,使得视觉模型被拆分为三个相不互通的研究领域,难以实现视觉领域的统一泛化。
但大语言模型却已经通过统一的分词方案展现出了强大的泛化能力。
然而,视觉 AI 仍然呈现出割裂状态,不同任务与模态依赖专门化的模型:图像、视频和三维资产通常需要独立的分词器,这些分词器往往只在 高保真重建 或 语义理解 其中之一上进行优化,而极少兼顾二者。
为此,Apple 研究团队提出了 ATOKEN(A Unified Tokenizer for Vision),针对这一核心局限,提出了首个能够在所有主要视觉模态上进行统一处理的视觉分词器,并同时兼顾重建质量与语义理解。
这一成果标志着朝着创建具备通用性与泛化能力的视觉表征迈出了重要一步。