田渊栋新作:打开1层Transformer黑盒,注意力机制没那么神秘
新智元报道
编辑 :LRS
【新智元导读】AI理论再进一步,破解ChatGPT指日可待?
Transformer架构已经横扫了包括自然语言处理、栋新计算机视觉、作打语音 、开层多模态等多个领域 ,黑盒注不过目前仅仅是意力实验效果非常惊艳,对Transformer工作原理的机制相关研究仍然十分有限。
其中最大谜团在于 ,没那Transformer为什么仅依靠一个「简单的神秘预测损失」就能从梯度训练动态(gradient training dynamics)中涌现出高效的表征 ?
最近田渊栋博士公布了团队的最新研究成果,以数学严格方式,田渊分析了1层Transformer(一个自注意力层加一个解码器层)在下一个token预测任务上的栋新SGD训练动态 。
论文链接 :https://arxiv.org/abs/2305.16380
这篇论文打开了自注意力层如何组合输入token动态过程的黑盒子,并揭示了潜在的开层归纳偏可见的性质。
具体来说,黑盒注在没有位置编码