LLM Course documentation
Adnotați setul de date
Adnotați setul de date
Acum este timpul să începem să lucrăm din interfața Argilla pentru a adnota setul nostru de date.
Aliniați echipa cu îndrumări de adnotare
Înainte să începeți să adnotați setul de date, este întotdeauna o practică bună să scrieți câteva îndrumări, mai ales dacă lucrați ca parte dintr-o echipă. Aceasta vă va ajuta să vă aliniați asupra sarcinii și utilizării diferitelor etichete, și să rezolvați întrebările sau conflictele când apar.
În Argilla, puteți merge la pagina de setări a setului de date din interfață și să modificați îndrumările și descrierile întrebărilor pentru a ajuta la aliniere.

Dacă doriți să aprofundați subiectul despre cum să scrieți îndrumări bune, vă recomandăm să citiți această postare de blog și referințele bibliografice menționate acolo.
Distribuiți sarcina
În pagina de setări a setului de date, puteți de asemenea să schimbați setările de distribuire a setului de date. Aceasta vă va ajuta să adnotați mai eficient când lucrați ca parte dintr-o echipă. Valoarea implicită pentru răspunsurile minime trimise este 1, ceea ce înseamnă că de îndată ce o înregistrare are 1 răspuns trimis va fi considerată completă și va conta către progresul din setul de date.
Uneori, doriți să aveți mai mult de un răspuns trimis per înregistrare, de exemplu, dacă doriți să analizați acordul între adnotatori în sarcina dvs. . În acel caz, asigurați-vă că schimbați această setare la un număr mai mare, dar întotdeauna mai mic sau egal cu numărul total de adnotatori. Dacă lucrați singur la sarcină, doriți ca această setare să fie 1.
Adnotați înregistrări
💡 Dacă implementați Argilla într-un Hugging Face Space, orice membri ai echipei se vor putea autentifica folosind Hugging Face OAuth. Altfel, s-ar putea să trebuiască să creați utilizatori pentru ei urmând acest ghid.
Când deschideți setul de date, veți realiza că prima întrebare este deja completată cu câteva etichete sugerate. Aceasta pentru că în secțiunea anterioară am mapat întrebarea noastră numită label
la coloana label_text
din setul de date, astfel încât trebuie pur și simplu să revizuim și să corectăm etichetele deja existente:

Pentru clasificarea de token-uri, va trebui să adăugăm toate etichetele manual, deoarece nu am inclus nicio sugestie. Așa ar putea arăta după adnotările de interval:

Pe măsură ce vă deplasați prin diferitele înregistrări, există diferite acțiuni pe care le puteți întreprinde:
- trimiteți răspunsurile, odată ce ați terminat cu înregistrarea.
- salvați-le ca ciornă, în cazul în care doriți să reveniți la ele mai târziu.
- renunțați la ele, dacă înregistrarea nu ar trebui să facă parte din setul de date sau nu veți da răspunsuri pentru ea.
În secțiunea următoare, veți învăța cum puteți exporta și folosi acele adnotări.
< > Update on GitHub