LLM Course documentation

Introducere

Hugging Face's logo
Join the Hugging Face community

and get access to the augmented documentation experience

to get started

Introducere

Ask a Question

În Capitolul 3 ați încercat biblioteca 🤗Datasets și ați văzut că existau trei pași principali atunci când vine vorba de fine-tuningul unui model:

  1. Încărcați un dataset din Hugging Face Hub.
  2. Preprocesați datele cu Dataset.map().
  3. Încărcați și calculați metricele.

Dar aceasta este doar o mică parte a ceea ce poate face 🤗 Datasets! În acest capitol, ne vom aprofunda în această bibliotecă. Pe parcurs, vom găsi răspunsuri la următoarele întrebări:

  • Ce faceți atunci când datasetul tău nu este pe Hub?
  • Cum puteți tăia și împărți un dataset? (Și ce dacă tu really trebuie să folosești Pandas?)
  • Ce faceți atunci când datasetul este uriaș și va topi RAM-ul laptopului dumneavoastră?
  • Ce este “memory mapping” și Apache Arrow?
  • Cum puteți crea propriul dataset și să-l trimiteți pe Hub?

Tehnicile pe care le veți învăța aici vă vor pregăti pentru sarcinile avansate de tokenizare și fine-tuning din Capitolul 6 și Capitolul 7 — deci luați o cafea sau două și să începem!

Update on GitHub