Siri AI 里到底藏了多少 Gemini？

总结：

我们的分析显示，苹果的 Siri AI 以谷歌 Gemini 的基础模型为基底，但使用苹果专有数据进行了重新训练，并针对苹果芯片进行了优化。
苹果部署了五个第三代 AI 模型：两个用于简单任务的设备端模型，以及三个用于复杂处理的云端模型，所有模型均通过 Private Cloud Compute 保障安全。
尽管使用了 Gemini 基础，但 Siri AI 提供了与谷歌实现截然不同的体验，苹果对数据安全和处理保持完全控制。

苹果本周宣布了大幅改进的 Siri 版本，恰当地命名为 Siri AI。但在 X 和 Reddit 等平台的苹果爱好者中，它没有赢得赞誉，反而已被定性：Siri AI 只是谷歌 Gemini 的稍旧版本，换上了自己的界面和语音。

你会原谅这种看法。经过数月关于苹果转向谷歌 Gemini 技术来提升 Siri 的传闻，以及今年一月一份有意模糊的联合声明，看起来新 Siri 确实就是这样。

但 WWDC 主题演讲来了又走了，Gemini 几乎完全没有被提及。主题演讲后，苹果为记者举办了一场非官方录制和直播的“技术深度剖析”私人会议，Craig Federighi 和三位负责 Siri 和 AI 的苹果副总裁更详细地解释了 Siri 与谷歌的关系。正如 AI 领域常见的情况，真相很复杂，每家公司使用的语言都非常精确且模糊，更侧重于他们没说的而不是说的内容。

不过，有大量信息可以帮助我们更清晰地了解苹果新 Siri AI 究竟是什么、如何工作，以及谷歌 Gemini 的参与程度。

苹果的新基础模型

让我们从基础开始。苹果在 WWDC 期间频繁使用“Foundation Model”一词。简而言之，它是一个在海量数据上训练的大型 AI 模型，随后全部或部分用于在应用中提供特定的 AI 体验。它们可以是语言模型、视觉模型、图像生成模型或音频处理模型，不过现代基础模型是多模态的，这意味着它们能同时理解和生成这些不同类型的结果。

大多数公司会将大型基础模型扩展到不同规模。最先进的模型版本非常庞大，只能安装并良好运行在拥有数百 GB 内存和昂贵高性能处理器的巨型 AI 服务器上。因此，公司会制作参数更少的较小版本，这些版本可以在较小的服务器、台式机、笔记本电脑上运行，甚至能直接在智能手机上运行微型模型。

苹果拥有五个基础模型来处理与 Siri 和 Apple Intelligence 相关的任务。

苹果推出了五个新的第三代基础模型，正如苹果机器学习研究网站上的一篇文章所解释。前两个是设计用于直接在设备上运行的小型模型：

AFM 3 Core：我们 30 亿参数稠密模型的下一代，在质量上实现了显著提升。
AFM 3 Core Advanced：苹果最强大的设备端模型。它原生支持多模态，能实现富有表现力的语音和更高准确率的听写功能。该 200 亿参数模型基于苹果前沿研究构建，采用稀疏架构，根据请求每次仅激活 10 到 40 亿参数。该模型仅在最新苹果设备上运行。

这两个模型设计用于在所有支持的硬件上直接设备端运行。AFM 3 Core Advanced 模型需要 iPhone 17 Pro 或 iPhone Air、配备 M3 且至少 12GB 内存的 Mac，或配备 M4 的 iPad。你会注意到苹果提到它具有“稀疏架构”，这意味着它被分解成专攻不同领域的模块，仅在请求时加载需要的部分。例如，如果询问迪拜塔有多高，专用于数学的部分就不会加载，但当你后续询问地球和月球之间能容纳多少个迪拜塔时就会加载。

设备端模型之外还有三个新的云端模型：

AFM 3 Cloud：苹果的服务器端模型，针对速度、效率和性能进行了优化。
ADM 3 Cloud (Image)：专注于图像生成和编辑，解锁了高级照片编辑工具、全新的 Image Playground 等功能。
AFM 3 Cloud Pro：苹果最强大的服务器端模型，用于处理最 demanding 的用例，包括代理工具使用和复杂推理。

AFM 3 Cloud 是处理大多数任务的大型服务器模型，但对于真正复杂的请求，则使用 AFM 3 Cloud Pro。还有一个专用的图像中心模型，用于 Image Playground（以及所有调用 Image Playground 框架的应用）、genmoji 和所有新的 AI 图像编辑工具：Clean Up、Extend 和 Reframe。

苹果使用自己的 Private Cloud Compute 来确保请求加密和安全。

苹果主要使用自己的服务器

第一个重要点是，前四个模型——设备端模型和前两个云端模型——运行在苹果芯片上。云端模型使用苹果的 Private Cloud Compute 架构，该架构对研究人员公开代码，以确保发送到云端的数据仅为完成请求所必需。查询完成后，数据会被删除且永不保留。

最大的云端模型 AFM 3 Cloud Pro 需要比当前苹果芯片服务器更强大的算力。它构建在谷歌的云基础设施上，使用 Nvidia GPU，但这不是现成的服务器租赁。苹果在这里同样运行其 Private Cloud Compute 基础设施。所有核心 PCC 要求均得到满足：无状态计算、无特权运行时访问、不可针对性以及可验证的透明度。

你可以在苹果安全研究网站上阅读更多关于苹果如何将 Private Cloud Compute 扩展到谷歌服务器和 Nvidia 硬件的信息。

Siri 就是苹果。苹果就是 Siri。你在 iPhone 上看到的内容与 Gemini 毫无关系。

Siri AI 到底如何工作？

当你向 Siri 发出请求时，它首先通过输入或语音识别模型进行解释。然后，一个名为 System Orchestrator 的组件会将你说的话转化为一种底层不可见的提示，并决定应该发送给哪个或哪些模型。

如果你要求 Siri 打开家里的灯、设置计时器或告诉你天气，设备端模型就会处理。但如果你想生成几段文字，系统协调器会将提示发送到 Private Cloud Compute 集群进行处理。它还会发送履行该请求所需的适当数据。

截图

例如，如果你正在写一封关于客人带到聚餐的菜品的邮件，系统协调器可能会先从搜索索引中提取相关的短信。或许还会包含 iPhone 屏幕截图，如果其中有相关信息。文本生成并发送回设备后，请求和任何关联数据都会被删除。整个过程尽可能使用加密和匿名化，因此苹果或谷歌的任何人都无法访问你的请求、数据或结果。

这也是为什么 iOS 27 演示中一些新的 AI 图像处理工具显得较慢的原因，因为图像和数据需要上传到云端处理。开启飞行模式并断开 Wi-Fi 后，你就完全无法使用新的 AI 图像工具了。

Gemini 在哪里发挥作用？

在 WWDC 主题演讲后的讨论中，Federighi 解释了为什么 Siri AI 不是 Gemini：

当然，我们没有把 Gemini 应用作为我们的应用。事实上，那些客户端代码根本不是我们在 iOS 上运行的方式。对于这些模型，我们没有使用谷歌部署给其客户的任何模型，也没有使用他们部署模型给客户的基础设施和方式。而且，在知识库方面，我们当然也没有使用谷歌搜索或类似的东西作为我们系统的基础。所以我希望这是清楚的。我们使用的 Google Assistant 的量为零。

仔细阅读 Craig 的话，你会注意到他特别指出客户端体验（应用和助手）不是 Gemini，所用的特定服务器也不是谷歌用于向客户提供 Gemini 的服务器。此外，Siri AI 不会从谷歌的网络搜索或知识图谱中提取信息；它使用自己的。

然而，Federighi 并没有声称苹果的模型本身不是基于 Gemini 代码。事实上，他明确表示，为在苹果芯片上运行而制作的四个模型是“使用专有数据通过强化学习训练，并使用 Gemini 前沿模型的输出进行精炼”。最大的模型很可能使用谷歌和苹果的专有数据进行训练，或者具有其他使其未包含在该声明中的区分特征。

这意味着什么？看起来苹果从 Gemini 的基础模型开始，为苹果芯片和所需模型规模进行了优化和重建，并使用自己的数据、权重和防护栏重新训练。作为用户，你不应该期待 iPhone 上的 Siri AI 与 Pixel 手机上谷歌 Gemini 的性能、能力和结果相同。

我喜欢用的一个类比：苹果使用 Unix（严格来说是名为 Darwin 的 Unix 衍生版）作为核心，从 Mac OS X 开始的所有操作系统。但这并不意味着苹果的操作系统与 Unix 具有相同的兼容性、功能或特性。也不意味着苹果缺乏世界级的操作系统工程师来打造优秀的系统。Unix 只是一个起点基础，以及更快获得开发优势的方式。正如 1999 年和 2000 年构建 Mac OS X（以及后来的 iPhone OS 等）时一样，苹果利用他人的成果起步，然后打造出属于自己的、与起点难以区分的东西。

Siri AI 里到底藏了多少 Gemini？

总结：

苹果的新基础模型

苹果主要使用自己的服务器

Siri AI 到底如何工作？

Gemini 在哪里发挥作用？

全部评论 0

发表评论