苹果重磅研究破解Siri“慢吞吞”痛点:响应速度或暴增数倍!

blank发表于2 秒前

核心要点:

  • 苹果最新研究论文提出“Principled Coarse-Graining (PCG)”方法,可大幅加速Siri语音token生成,同时保持原有语音质量。
  • 该技术通过“声学相似组(Acoustic Similarity Groups)”将声学相似的token进行分组,避免当前系统因过度严格匹配而导致的处理拖慢。
  • 这项突破有望让Siri变得显著更快、更灵敏,直接解决用户长期吐槽的“反应迟钝”问题。

目前,人们对更聪明、更实用的Siri语音助手寄予厚望,主要还是短期依赖苹果刚刚宣布的与谷歌合作——引入Gemini技术来提升自家AI能力。但从长远来看,一篇全新研究论文提出了一种方法,有望让苹果完全靠自己就能让Siri速度飞起。

这篇名为《Principled Coarse-Grained Acceptance for Speculative Decoding in Speech》的论文,由苹果公司与特拉维夫大学五位研究者共同完成,并于上月底正式发布(经我们报道)。论文提出了一种全新方法,用研究者的话说,就是能够“在保持语音质量的前提下加速语音token生成”。

研究人员认为,速度提升的关键在于“避免不必要的严格要求”。他们写道:“对于生成声学token的语音大模型来说,精确的token匹配过于严苛:许多离散token在声学或语义上是可以互换的,这导致接受率降低,严重限制了加速潜力。”换句话说,当两个语音token足够相似、听起来或含义基本相同时,非要精确判定到底选哪一个,其实是在白白浪费时间和算力。

为此,他们提出的解决方案是将声学相似的token进行分组处理。

论文解释道:“我们提出Principled Coarse-Graining(PCG)框架,用组级别验证替代传统的精确token匹配。我们在目标模型的token嵌入空间中构建声学相似组(Acoustic Similarity Groups,ASGs),捕捉模型内部对语义和声学相似的组织方式。PCG在ASGs的粗粒度分布上进行推测采样,并在组级别执行拒绝采样。”

研究人员宣称,这一方法能在几乎不牺牲可靠性的前提下显著提升速度。实验结果(详见论文第4页)显示,随着每秒token数量的增加,准确率略有下降,但下降幅度远小于传统推测解码方式。

论文虽然技术性较强,但篇幅不长。感兴趣的读者可以直接查看PDF完整内容。

Mac软件资讯
00

全部评论 0

暂无跟帖

没有了

到底了

查看更多

发表评论

点击这里给我发消息2507222545请先加好友
在线客服加载中...