推理加速五倍,刺激自回归潜力,苹果的新任务

日期:2025-07-29 08:50 浏览:

近年来,语言模型的重大发展主要是由于存在大规模文本数据以及自回归培训方法的有效性。在这个自回归培训框架中,每个令牌都是其初步背景的不可预测的目标。该方法不需要明确的注释,这使得在训练阶段具有明显好处的自回归模型,因此成为主要范式。但是,在理解的阶段,自回归生成基本上是在连续的和高计算开销中执行的,因为解码的每个步骤都需要完全操作模型。相反,当人们表达自己时,他们通常会首先调整句子级别的想法,然后通过单词输出字。因此,在大型推理模型的阶段,大型的单务订单瓶颈瓶颈能否摆脱大型瓶颈模型?像人类逻辑一样,它是否考虑输出c从更大的级别开始?如Netizens所说,如果自动回归模型的本质的顺序实现可能会受到损害,它将创建“ LLM有一段时间”。受苹果研究人员的启发,苹果研究人员对此进行了思考,并采用类似的方法开发了一块情节,允许预先训练的自回归大型语言模型来执行许多令牌预测,从而为代码加速高达5.35倍,并加速了数学。 AI工程师认为,杰克逊·阿特金斯(Jackson Atkins)是一项开创性的作品,“最令人兴奋的是,可以通过现有模型的洛拉(Lora)微调来实现它。”想象一下,削减AI运营成本多次,或者使用轻量级设备运行强大的实时助手,这会分散推理优化的注意力。如果您的语言模型的运行速度更快5倍,那么第一件事会做什么?纸张标题:您的LLM知道未来:删除多索克n预测潜在的纸质链接:https://www.alphaxiv.org/abs/2507.11851首先要探索一个关键问题:语言模型可以在单个逐步推理中出现很多令牌吗?受到刺激,答案是肯定的。现有的对投机解码的研究探讨了这一方向以加速发电。专用猜测的方法-haka使用草稿模型生成许多令牌,然后通过验证器检查其与标准自回归输出的一致性。尽管此方法提供加速度,但它仍然是自回归生成的开始。在这项工作中,研究人员正在提出一个更深入的问题:我们可以培训真正的非解放性语言模型吗?研究人员通过设计完全非解放性培训算法(例如基于语言的语言模型)来探索这个问题。但是,这种方法通常需要构建全新的建模和培训过程。所以resEarchers甚至问了一个问题:是否可以用作长寿的自动锻炼训练和认可的认可?目标是在保持自回归模型的主要优势的同时,实现巨大的多背产生。为了进一步证明这一点,研究人员首先注意到,尽管自回归模型将来无法清楚地练习令牌,但实际上它将在一定程度上折价有关令牌的信息。例如,在自回归解码标准期间,即直接的单词被赋予了“两者之间的两者?”,通常形式的模型以及两个相当于四个的模型。为了测试该模型是否能够在将来看到令牌,研究人员在动机(图↔)和审查的输出逻辑后增加了占位符令牌,如图1(左)所示。出乎意料的是,将来将来将出现在前200个logits中,这表明该模型已完全触摸ED代币信息要开发。图1:自回旋模型可以明确预测未来的令牌。基于上述观察结果,研究人员进一步发现该模型是否可以被指导以实现其潜在能力,从而更好地调整了将来令牌的预测。因此,研究人员在直接词的末尾介绍了几个面具令牌,并训练了该模型以使其能够直接预测这些令牌。如图1(中间)所示,精细的模型可以将右令牌提升到前10个日志。最后,为了产生连贯的多言输出,研究人员引入了轻巧的采样模块:Isang两层感官。在预测每个令牌时,模块将先前样品令牌结合在一起。特定结构如图1(右)所示。与以前的某些方法不同,本文实践了模型来实用掩盖令牌以预测未来的令牌。当这些令牌在推断时,这个m奥德尔使用表示形式的所有深度和能力,并结合了整个顺序的上下文信息,因此在影响方面明显好于现有的多背预测。此外,由于一种简单有效的技术 - 封闭式的洛拉(Lora)改编,这种方法的质量没有下降。在相对轻巧的微调管理下,与传统模型相比,研究人员达到了加速的影响。如图2所示,可以通过基于TULU3-8B模型进行微调来实现显着的性能改善,以预测8个其他令牌。图2:通过管理的微调对Gatter Lora训练后加速训练和头部样品的效果。该过程是在引入许多代币的引入下,减少彩排,引入一种特殊类型的令牌,称为掩模。假设原始冒险是x = [x1,...,xn],主要思想是在结论结束时添加唯一的掩码令牌,从而构建扩展的谴责-Next xm = [x1,...,...,xn,m1,...,...,mk]。媒介对向量的表示蒙版[M1,...,MK]的表示是随机向量的,并添加到模型的模型表中。在本文中,标准的下一个令牌模型的模型称为NTP(在接下来的令牌预测中),而蒙版令牌预测称为MTP(Mask令牌预测)。图3显示了本文提出的MTP模型的一般体系结构,该模型在修复过程中使用k = 2个掩码的工作流程显示。在Box-1(左上角)中,扩展的XM序列输入了解码器。在模型生成的自然表示中,[z1,...,Zn]对应于NTP令牌表示,而[Zn+1,...,...,Zn+K]对应于MTP令牌表示。图3:MTP模型成分。方框1(左侧)显示自回归模型机智h门控拉拉夫参数。方框2(左下)描述了一个采样头。框3(右)显示了封闭式的Lora模块框图。Box2(左下)显示了采样器头的结构。第一个(NTP)令牌是通过标准无用的层在自动估计中形成的,即y_n+1由z_n预测。其余(MTP)令牌由采样器模块形成。在每个步骤中,采样器都基于z_n+k+1和先前形成的令牌y_n+k来预测y_n+1+k,以确保每个形成的令牌同时使用先前样本的标记信息同时提交了潜在的模型表示。为了在维修过程中维持假装模型的行为,研究人员将封闭式的洛拉模块(门控洛拉)引入解码器层。在正确调整的过程中,仅更新LORA的参数和采样器头的参数,并且原始解码器的重量仍然冷冻。封闭式的洛拉模块确保了Proper修复的过程如图中的Box 3(右)所示,不通过采用不同的NTP代币计算路径来影响NTP令牌生成的行为。这种差异是通过引入二进制掩码作为附加输入来实现的。有关详细的模型培训过程,请参阅原始论文。事实,实验研究人员对TULU3-8B SFT模型进行了实验。该模型属于Llama-3家族,并根据TULU3数据集正确管理一个。质量评估研究人员首先监视了微妙维修过程中模型准确性的变化。因为所使用的模型是SFT模型,对进一步的训练非常敏感。图6(a)显示了在弧线 - 挑战基准上的零射击模型的精确度,该基准是线束库所做的。如图6(a)中的虚线所示,封闭式洛拉可以保持坚实的精度,因为它可以确保NTP令牌的输出不受微调的影响。作为sh在图6(b)中,在洛拉(Lora)和盖特·洛拉(Gated Lora)的训练方法中都可以实现有效的场景。接下来,研究人员回顾了图6(c)中NTP代币中跨肠道损失,这与发电质量直接相关。如图所示,使用共同洛拉训练的模型的NTP损失增加,表明发电质量逐渐下降。相比之下,使用封闭式LORA的模型在整个训练过程中保持了几乎相同的NTP损失,因为在封闭的Lora机制下,NTP令牌中的梯度不是Longergpakaban,这有效地避免了原始一代能力的破坏。图6:使用标准LORA和封闭式Lora适配器训练的模型的收敛综述。研究人员使用自动解码算法来评估提高提出的生成速度方法的加速能力分析。该实验可以在这一代人中运行100个步骤。如果是模式l在步骤100之前形成了末端的代币,生成过程将提前结束。认识到这一代的总数为t,而代币的总数为g,计算的接收率为g/t。该指标反映了模型的每个步骤平均形成了多少个接受的令牌,从而测量了由iGuggest程序带来的速度效应。理论的最低接受度为1,因为每个步骤将至少一个令牌发展(即下一个令牌预测中的标准)。最大理论值为k+1 = 9,其中k = 8是实践中使用的掩模令牌的数量。该表报告将模型接收到工作的五个不同领域,包括:知识问答,数学,编程,对话和安全性。如表中所示,建议的多言一代算法在各种活动中达到了约1.5倍至5.2倍的加速度,具体取决于工作类型和插入的口罩数量。有趣的是,加速的效果在编程和数学活动中更为重要,这可能是由于这些领域未来令牌的预测增加了。表1:PATU-3在各个域中的多标签预测中获得的加速度。实验实验表1中的结果与该方法的最佳调整匹配,并包括以下三种主要成分:(1)采样器MLP头使用; (2)在训练过程中引入LCM损失; (3)在生成阶段使用二次解码算法。研究人员对每个组件的贡献进行了消融实验。图7:通过简单地调整和调整MTP模型的最先进来实现加速的平均效果。基本版本使用线性解码,不包括LCM损耗或样品标头,而高级版本包括LCM损耗,样本标头和二次解码。研究ERS培训了几种不同的Lora排名的模型,以进一步加鲁加林。图8总结了相关结果:左侧和中央子图显示了在不使用和使用采样器头的条件下的接受率;正确的子图显示了由采样器参数和洛拉参数引起的内存开销。图8:LORA等级的效果:无头加速度样本(左),带有头部加速度样本(中间),以及用于Lora和样品头(右)的内存开销。摘要研究人员回顾了在安排语言模型的管理阶段中,自回归模型在多背预测中的灵活性。值得探索未来的一个方向是将此方法引入训练阶段或适应阶段,以测试其可用性和影响的流程。弓箭研究员的另一个有希望的方向是将基于扩散的生成方法应用于多型预测。研究人员认为,许多代币的前命令位于自回归和完整产生扩散之间,并且可以在两者之间取得平衡,并具有潜在的效率和质量。有关更多信息,请参阅原始论文。

0
首页
电话
短信
联系