LLM Course documentation

Modele Sequence-to-sequence modele-sequence-to-sequence

Hugging Face's logo
Join the Hugging Face community

and get access to the augmented documentation experience

to get started

Modele Sequence-to-sequence modele-sequence-to-sequence

Ask a Question

Modelele Encoder-Decoder (denumite și modele sequence-to-sequence) utilizează ambele părți ale arhitecturii Transformer. În fiecare etapă, layerele de atenție ale encoder-ului pot accesa toate cuvintele din propoziția inițială, în timp ce layerele de atenție ale decoder-ului pot accesa doar cuvintele poziționate înaintea unui anumit cuvânt din intrare.

Preantrenarea acestor modele se poate face folosind obiectivele modelelor de codificare sau de decodificare, dar de obicei implică ceva un pic mai complex. De exemplu, T5 este prenatrenat prin înlocuirea unor intervale aleatorii de text (care pot conține mai multe cuvinte) cu un singur cuvânt special mascat, iar obiectivul este apoi de a prezice textul pe care îl înlocuiește acest cuvânt mascat.

Modelele Sequence-to-sequence sunt cele mai potrivite pentru sarcinile care se învârt în jurul generării de noi propoziții în funcție de o intrare dată, cum ar fi rezumarea, traducerea sau răspunsul generativ la întrebări.

Printre reprezentanții acestei familii de modele se numără:

< > Update on GitHub