这篇论文来自Yoshua Bengio的实验室,而标题并不起眼「Neural Machine Translation by Jointly Learning to Align and Translate」。 或许很多人都没有听说过这篇论文,但它是NLP中最伟大的里程碑之一,已经被引用了29K次(相比之下,Transformer为77K)。
本文旨在清晰地阐明Transformer超越传统模型的关键技术原理,展现其“全能”的内在逻辑。 【系列文章】 AI 基础知识从-1到0.1:带你走进机器学习的世界 AI 基础知识从0.1到0.2——用“房价预测”入门机器学习全流程 AI 基础知识从 0.2 到 0.3——构建你的第 ...