Siri AI 里到底藏了多少 Gemini?

blank发表于1 秒前

总结:

  • 我们的分析显示,苹果的 Siri AI 以谷歌 Gemini 的基础模型为基底,但使用苹果专有数据进行了重新训练,并针对苹果芯片进行了优化。
  • 苹果部署了五个第三代 AI 模型:两个用于简单任务的设备端模型,以及三个用于复杂处理的云端模型,所有模型均通过 Private Cloud Compute 保障安全。
  • 尽管使用了 Gemini 基础,但 Siri AI 提供了与谷歌实现截然不同的体验,苹果对数据安全和处理保持完全控制。

苹果本周宣布了大幅改进的 Siri 版本,恰当地命名为 Siri AI。但在 X 和 Reddit 等平台的苹果爱好者中,它没有赢得赞誉,反而已被定性:Siri AI 只是谷歌 Gemini 的稍旧版本,换上了自己的界面和语音。

你会原谅这种看法。经过数月关于苹果转向谷歌 Gemini 技术来提升 Siri 的传闻,以及今年一月一份有意模糊的联合声明,看起来新 Siri 确实就是这样。

但 WWDC 主题演讲来了又走了,Gemini 几乎完全没有被提及。主题演讲后,苹果为记者举办了一场非官方录制和直播的“技术深度剖析”私人会议,Craig Federighi 和三位负责 Siri 和 AI 的苹果副总裁更详细地解释了 Siri 与谷歌的关系。正如 AI 领域常见的情况,真相很复杂,每家公司使用的语言都非常精确且模糊,更侧重于他们没说的而不是说的内容。

不过,有大量信息可以帮助我们更清晰地了解苹果新 Siri AI 究竟是什么、如何工作,以及谷歌 Gemini 的参与程度。

苹果的新基础模型

让我们从基础开始。苹果在 WWDC 期间频繁使用“Foundation Model”一词。简而言之,它是一个在海量数据上训练的大型 AI 模型,随后全部或部分用于在应用中提供特定的 AI 体验。它们可以是语言模型、视觉模型、图像生成模型或音频处理模型,不过现代基础模型是多模态的,这意味着它们能同时理解和生成这些不同类型的结果。

大多数公司会将大型基础模型扩展到不同规模。最先进的模型版本非常庞大,只能安装并良好运行在拥有数百 GB 内存和昂贵高性能处理器的巨型 AI 服务器上。因此,公司会制作参数更少的较小版本,这些版本可以在较小的服务器、台式机、笔记本电脑上运行,甚至能直接在智能手机上运行微型模型。

苹果拥有五个基础模型来处理与 Siri 和 Apple Intelligence 相关的任务。

苹果推出了五个新的第三代基础模型,正如苹果机器学习研究网站上的一篇文章所解释。前两个是设计用于直接在设备上运行的小型模型:

  • AFM 3 Core:我们 30 亿参数稠密模型的下一代,在质量上实现了显著提升。
  • AFM 3 Core Advanced:苹果最强大的设备端模型。它原生支持多模态,能实现富有表现力的语音和更高准确率的听写功能。该 200 亿参数模型基于苹果前沿研究构建,采用稀疏架构,根据请求每次仅激活 10 到 40 亿参数。该模型仅在最新苹果设备上运行。

这两个模型设计用于在所有支持的硬件上直接设备端运行。AFM 3 Core Advanced 模型需要 iPhone 17 Pro 或 iPhone Air、配备 M3 且至少 12GB 内存的 Mac,或配备 M4 的 iPad。你会注意到苹果提到它具有“稀疏架构”,这意味着它被分解成专攻不同领域的模块,仅在请求时加载需要的部分。例如,如果询问迪拜塔有多高,专用于数学的部分就不会加载,但当你后续询问地球和月球之间能容纳多少个迪拜塔时就会加载。

设备端模型之外还有三个新的云端模型:

  • AFM 3 Cloud:苹果的服务器端模型,针对速度、效率和性能进行了优化。
  • ADM 3 Cloud (Image):专注于图像生成和编辑,解锁了高级照片编辑工具、全新的 Image Playground 等功能。
  • AFM 3 Cloud Pro:苹果最强大的服务器端模型,用于处理最 demanding 的用例,包括代理工具使用和复杂推理。

AFM 3 Cloud 是处理大多数任务的大型服务器模型,但对于真正复杂的请求,则使用 AFM 3 Cloud Pro。还有一个专用的图像中心模型,用于 Image Playground(以及所有调用 Image Playground 框架的应用)、genmoji 和所有新的 AI 图像编辑工具:Clean Up、Extend 和 Reframe。

苹果使用自己的 Private Cloud Compute 来确保请求加密和安全。

苹果主要使用自己的服务器

第一个重要点是,前四个模型——设备端模型和前两个云端模型——运行在苹果芯片上。云端模型使用苹果的 Private Cloud Compute 架构,该架构对研究人员公开代码,以确保发送到云端的数据仅为完成请求所必需。查询完成后,数据会被删除且永不保留。

最大的云端模型 AFM 3 Cloud Pro 需要比当前苹果芯片服务器更强大的算力。它构建在谷歌的云基础设施上,使用 Nvidia GPU,但这不是现成的服务器租赁。苹果在这里同样运行其 Private Cloud Compute 基础设施。所有核心 PCC 要求均得到满足:无状态计算、无特权运行时访问、不可针对性以及可验证的透明度。

你可以在苹果安全研究网站上阅读更多关于苹果如何将 Private Cloud Compute 扩展到谷歌服务器和 Nvidia 硬件的信息。

Siri 就是苹果。苹果就是 Siri。你在 iPhone 上看到的内容与 Gemini 毫无关系。

Siri AI 到底如何工作?

当你向 Siri 发出请求时,它首先通过输入或语音识别模型进行解释。然后,一个名为 System Orchestrator 的组件会将你说的话转化为一种底层不可见的提示,并决定应该发送给哪个或哪些模型。

如果你要求 Siri 打开家里的灯、设置计时器或告诉你天气,设备端模型就会处理。但如果你想生成几段文字,系统协调器会将提示发送到 Private Cloud Compute 集群进行处理。它还会发送履行该请求所需的适当数据。

截图

例如,如果你正在写一封关于客人带到聚餐的菜品的邮件,系统协调器可能会先从搜索索引中提取相关的短信。或许还会包含 iPhone 屏幕截图,如果其中有相关信息。文本生成并发送回设备后,请求和任何关联数据都会被删除。整个过程尽可能使用加密和匿名化,因此苹果或谷歌的任何人都无法访问你的请求、数据或结果。

这也是为什么 iOS 27 演示中一些新的 AI 图像处理工具显得较慢的原因,因为图像和数据需要上传到云端处理。开启飞行模式并断开 Wi-Fi 后,你就完全无法使用新的 AI 图像工具了。

Gemini 在哪里发挥作用?

在 WWDC 主题演讲后的讨论中,Federighi 解释了为什么 Siri AI 不是 Gemini:

当然,我们没有把 Gemini 应用作为我们的应用。事实上,那些客户端代码根本不是我们在 iOS 上运行的方式。对于这些模型,我们没有使用谷歌部署给其客户的任何模型,也没有使用他们部署模型给客户的基础设施和方式。而且,在知识库方面,我们当然也没有使用谷歌搜索或类似的东西作为我们系统的基础。所以我希望这是清楚的。我们使用的 Google Assistant 的量为零。

仔细阅读 Craig 的话,你会注意到他特别指出客户端体验(应用和助手)不是 Gemini,所用的特定服务器也不是谷歌用于向客户提供 Gemini 的服务器。此外,Siri AI 不会从谷歌的网络搜索或知识图谱中提取信息;它使用自己的。

然而,Federighi 并没有声称苹果的模型本身不是基于 Gemini 代码。事实上,他明确表示,为在苹果芯片上运行而制作的四个模型是“使用专有数据通过强化学习训练,并使用 Gemini 前沿模型的输出进行精炼”。最大的模型很可能使用谷歌和苹果的专有数据进行训练,或者具有其他使其未包含在该声明中的区分特征。

这意味着什么?看起来苹果从 Gemini 的基础模型开始,为苹果芯片和所需模型规模进行了优化和重建,并使用自己的数据、权重和防护栏重新训练。作为用户,你不应该期待 iPhone 上的 Siri AI 与 Pixel 手机上谷歌 Gemini 的性能、能力和结果相同。

我喜欢用的一个类比:苹果使用 Unix(严格来说是名为 Darwin 的 Unix 衍生版)作为核心,从 Mac OS X 开始的所有操作系统。但这并不意味着苹果的操作系统与 Unix 具有相同的兼容性、功能或特性。也不意味着苹果缺乏世界级的操作系统工程师来打造优秀的系统。Unix 只是一个起点基础,以及更快获得开发优势的方式。正如 1999 年和 2000 年构建 Mac OS X(以及后来的 iPhone OS 等)时一样,苹果利用他人的成果起步,然后打造出属于自己的、与起点难以区分的东西。

Mac软件资讯
00

全部评论 0

暂无跟帖

没有了

到底了

查看更多

发表评论

点击这里给我发消息2507222545请先加好友
在线客服加载中...