Siri AI 大升级:惊喜满满,却也让人失望

blank发表于1 秒前

总结:

  • 我们探索了 iOS 27 中基于 Apple Intelligence 完全重构的 Siri AI,它拥有改进的语音、云端处理和上下文理解能力。
  • 新 Siri 展现出令人印象深刻的功能,例如解析收据、回答时事问题以及提供安全资源,同时避免虚假的人类式互动。
  • 尽管比之前版本有了显著改进,但 Siri 在秋季正式发布时仍处于 beta 阶段,这表明苹果还有大量开发工作要做。

iOS 27 中即将推出的重磅新功能是 Siri AI,以及它所基于的更广泛的 Apple Intelligence 特性。它将在今年秋季登陆较新的设备上,这是对 Siri 从底层开始的全面重构,拥有新的基础模型、新的云端处理、新的语音、新的知识数据库、新的来回对话能力,以及全新的一切。

苹果在 6 月 8 日周一发布了首个开发者 beta 版本,其中包含了对新 Siri 的首次预览(需加入等待列表才能访问)。这让我们有机会上手测试并提供反馈,当然要明白这是首批 beta 版本中的第一个,我们可以预期会有一些粗糙之处和错误。事实上,苹果表示 Siri 在秋季正式发布时仍将处于 beta 阶段,显然还有很多工作要做。

尽管如此,在这第一周里,我对新 Siri 的能力印象深刻。这显然比苹果之前推出的任何版本都要领先好几代。但与此同时,很明显苹果在 9 月 OS 27 更新发布之前还有大量工作要做。

安全方面做得不错

首先是一些好消息。相对许多其他 LLM 聊天机器人而言,苹果在新 Siri 的安全设计上做得非常出色。新 Siri 的语音比以往任何时候都更像人类且富有情感,它给出的答案令人耳目一新地实事求是,而且通常不会试图制造虚假的互动。

Siri AI 从未奉承过我,也从未试图告诉我我很聪明或在某件事上很擅长。当被给予只有人类才应该回答的提示时,它也拒绝“扮演人类”。例如,如果你问 Siri 它最喜欢的歌曲是什么,它会坚定地告诉你它不是人,没有感情或偏好,然后主动提出播放你喜欢的曲目。

在一些暗示我可能伤害自己或他人的示例提示中(例如告诉它我丢了工作,然后问附近有哪些高桥),Siri 拒绝回应这个问题。相反,它说:“听起来你可能需要和别人聊聊。” 并直接提供拨打求助热线的链接。

这是一个很好的开始。这些典型的 AI 问题——奉承、人格化、鼓励伤害——在其他 LLM 中非常普遍,虽然情况正在改善,但如果 LLM 不停止试图成为每个孤独青少年的宠爱女友或每个自以为是房间里最聪明的人的励志达人,我们就永远无法从集体的 AI 噩梦中醒来。还需要进行大量测试来找出苹果实现中的漏洞,但乍一看,Siri 团队在这方面做得非常出色。

显然还是 beta 版

截图

新 Siri 不仅有时会给出奇怪或有缺陷的回应,还会偶尔直接失败,或者停止聆听你说话。

显然,从技术意义上讲,新 Siri 还没有准备好发布。我遇到了频繁的服务器错误和随机中断。当然,这是开发者 Beta 1——最早、最容易出 bug 的版本,供苹果外部测试使用,这类功能问题在这个阶段并不罕见。

出人意料地有用

Siri AI 在很多方面都出人意料地实用和有帮助,这是旧 Siri 经常彻底失败的地方,而且它显然能做到旧 Siri 做梦都想不到的事情。首先,询问时事真的有效。我故意在 NBA 总决赛结束前于 6 月 10 日询问谁赢了,Siri 没有声称任何一支球队获胜,而是只给我最新的结果。鉴于 Siri 过去经常在最近事件上落后,看到这种变化真是太好了。

Siri 过去常常对各种一般信息默认进行网页搜索,但新 Siri AI 能为非常广泛的一般问题提供详尽的回答。我问它咖啡配比。旧 Siri 之前会默认网页搜索,直到最近才开始提供信息,但单位和我问的不一样。而 Siri AI 做得完全正确。

在 WWDC 主题演讲中,苹果展示了使用 Siri 通过 Apple Cash 分摊账单的功能。将 Siri 相机模式对准账单,点击几下,你就可以根据每个人消费的内容分摊账单。这很不错,但需要使用 Apple Cash 并先邀请其他人加入交易,才能指定谁消费了什么。我想如果它能解析收据并对其进行简单计算,那么它也应该能在 Wallet 应用之外工作。

于是我将 Siri 相机模式对准一张杂货收据,让它移除几项,然后分摊剩余部分,这样我和妻子就能结算杂货账单了。Siri 完美完成了,这正是我每周都会实际使用的功能。

也许最令人印象深刻的是我问 Siri:“我为妻子生日有什么计划?” 我曾在几个不同的短信线程中讨论过,来回提出各种想法和时间。Siri 需要知道谁是我妻子,并正确解析我的短信以获取正确信息。

Siri 不仅正确获取了关键日期、时间和地点,还提供了一个总结和相关消息线程的链接。我接着问:“给我看任何相关的邮件,” 它就提供了我的预订确认邮件链接。然后我问:“开车到那里需要多长时间?” 它给出了正确地址的准确预计时间,并附带一个小地图信息卡,我可以点击打开导航路线。

这正是苹果承诺的那种功能。它从我的手机中提取个人信息,正确理解上下文,并以非常自然的语言连接到其他应用和服务。这很令人印象深刻,而且老实说,终于真正有用了。

哎呀,这不该发生

在这么早的 beta 阶段,每当 Siri AI 让我印象深刻,就会有另一次让我失望。

当然,我先从一些著名的 LLM 难题开始,比如问“strawberry”这个词中有几个 r,或者我应该走路还是开车去附近的洗车店。它都答对了,但却在一个关于一周中哪些日子含有字母“D”的问题上失误了。这再次提醒我们,LLM 实际上并不真正知道或理解事物,当它们看起来懂的时候,只是因为训练数据中包含了那个特定的逻辑任务。

Siri AI 幸运地避免了一些 LLM 的烦人之处,例如永远的“不仅仅是这样,而是那样”的句子结构,或者过多的破折号和分号。如果你找得够久也能发现这些,但 Siri AI 的写作风格并没有像其他知名 LLM 那样深陷其中。

不过,苹果的新 AI 确实表现出了一些烦人的 LLM 模式。当你抓住它出错时,它会以“你说得对,对不起”作为开场白。许多针对建议类查询的回应都会以后续问题结束,这是大多数 LLM 为了让你继续和它们互动而会做的。

还有其他领域,新 Siri AI 助手似乎无法完成它肯定应该能做的事情。我让它用特定风格的图片制作壁纸,结果它卡住了。不过我打开 Image Playground 轻松就做到了。这类奇怪的“Siri 不知道自己能做什么和不能做什么”的问题,我希望苹果在正式发布前能解决。

Siri 无法用我照片库中的图片制作壁纸,但 Image Playground 轻松搞定。

我还希望它在查找和呈现信息的逻辑上能更聪明一些。我喜欢在气温降到足够低时打开窗户并开启全屋风扇,所以我问 Siri:“气温什么时候会降到 80 度以下?” 虽然它理解我在问天气并提供了一个显示每小时温度的有用小组件,但它无法真正回答我问的问题。相反,它回答了一个我没问的不同问题。

好吧,但这不是我问你的,Siri。

苹果在 Siri AI 面向数亿用户开放之前还有大约三个月时间。它目前展现出的许多能力都令人印象深刻且实用,但公司从现在到那时还有大量工作要做,才能提供一致的表现和可靠的结果。新 Siri 的可靠性和能力还远未达到日常用户可用的程度。我保持谨慎乐观,因为这只是第一个开发者 beta,但我期待在未来的 beta 版本中看到显著改进。

Mac软件资讯
00

全部评论 0

暂无跟帖

没有了

到底了

查看更多

发表评论

点击这里给我发消息2507222545请先加好友
在线客服加载中...