Adnotați setul de date

Acum este timpul să începem să lucrăm din interfața Argilla pentru a adnota setul nostru de date.

Aliniați echipa cu îndrumări de adnotare

Înainte să începeți să adnotați setul de date, este întotdeauna o practică bună să scrieți câteva îndrumări, mai ales dacă lucrați ca parte dintr-o echipă. Aceasta vă va ajuta să vă aliniați asupra sarcinii și utilizării diferitelor etichete, și să rezolvați întrebările sau conflictele când apar.

În Argilla, puteți merge la pagina de setări a setului de date din interfață și să modificați îndrumările și descrierile întrebărilor pentru a ajuta la aliniere.

Captură de ecran cu pagina Dataset Settings din Argilla.

Dacă doriți să aprofundați subiectul despre cum să scrieți îndrumări bune, vă recomandăm să citiți această postare de blog și referințele bibliografice menționate acolo.

Distribuiți sarcina

În pagina de setări a setului de date, puteți de asemenea să schimbați setările de distribuire a setului de date. Aceasta vă va ajuta să adnotați mai eficient când lucrați ca parte dintr-o echipă. Valoarea implicită pentru răspunsurile minime trimise este 1, ceea ce înseamnă că de îndată ce o înregistrare are 1 răspuns trimis va fi considerată completă și va conta către progresul din setul de date.

Uneori, doriți să aveți mai mult de un răspuns trimis per înregistrare, de exemplu, dacă doriți să analizați acordul între adnotatori în sarcina dvs. . În acel caz, asigurați-vă că schimbați această setare la un număr mai mare, dar întotdeauna mai mic sau egal cu numărul total de adnotatori. Dacă lucrați singur la sarcină, doriți ca această setare să fie 1.

Adnotați înregistrări

💡 Dacă implementați Argilla într-un Hugging Face Space, orice membri ai echipei se vor putea autentifica folosind Hugging Face OAuth. Altfel, s-ar putea să trebuiască să creați utilizatori pentru ei urmând acest ghid.

Când deschideți setul de date, veți realiza că prima întrebare este deja completată cu câteva etichete sugerate. Aceasta pentru că în secțiunea anterioară am mapat întrebarea noastră numită label la coloana label_text din setul de date, astfel încât trebuie pur și simplu să revizuim și să corectăm etichetele deja existente:

Captură de ecran cu setul de date în Argilla.

Pentru clasificarea de token-uri, va trebui să adăugăm toate etichetele manual, deoarece nu am inclus nicio sugestie. Așa ar putea arăta după adnotările de interval:

Captură de ecran cu setul de date din Argilla cu intervale adnotate.

Pe măsură ce vă deplasați prin diferitele înregistrări, există diferite acțiuni pe care le puteți întreprinde:

trimiteți răspunsurile, odată ce ați terminat cu înregistrarea.
salvați-le ca ciornă, în cazul în care doriți să reveniți la ele mai târziu.
renunțați la ele, dacă înregistrarea nu ar trebui să facă parte din setul de date sau nu veți da răspunsuri pentru ea.

În secțiunea următoare, veți învăța cum puteți exporta și folosi acele adnotări.

Update on GitHub

LLM Course

Adnotați setul de date

Aliniați echipa cu îndrumări de adnotare

Distribuiți sarcina

Adnotați înregistrări