序列到序列模型
編碼器-解碼器模型(也稱爲序列到序列模型)同時使用 Transformer 架構的編碼器和解碼器兩個部分。在每個階段,編碼器的注意力層可以訪問初始句子中的所有單詞,而解碼器的注意力層只能訪問位於輸入中將要預測單詞前面的單詞。
這些模型的預訓練可以使用訓練編碼器或解碼器模型的方式來完成,但通常涉及更復雜的內容。例如,T5通過將文本的隨機跨度(可以包含多個單詞)替換爲單個特殊單詞來進行預訓練,然後目標是預測該掩碼單詞替換的文本。
序列到序列模型最適合於圍繞根據給定輸入生成新句子的任務,如摘要、翻譯或生成性問答。
該系列模型的典型代表有:
< > Update on GitHub