परिचय

🤗 पाठ्यक्रममा स्वागत छ!

यो पाठ्यक्रमले तपाईंलाई Hugging Face इकोसिस्टमका लाइब्रेरीहरू — 🤗 Transformers, 🤗 Datasets, 🤗 Tokenizers, र 🤗 Accelerate — साथै Hugging Face Hub प्रयोग गरेर प्राकृतिक भाषा प्रशोधन (NLP) को बारेमा सिकाउनेछ। यो पूर्णतया नि:शुल्क र विज्ञापन रहित छ।

के अपेक्षा गर्ने?

यहाँ पाठ्यक्रमको संक्षिप्त विवरण छ:

पाठ्यक्रमका अध्यायहरूको संक्षिप्त विवरण।

अध्याय १ देखि ४ ले 🤗 Transformers लाइब्रेरीका मुख्य अवधारणाहरूको परिचय दिन्छन्। यो भागको अन्त्यसम्ममा, तपाईं Transformer मोडेलहरू कसरी काम गर्छन् भन्ने कुरासँग परिचित हुनुहुनेछ र Hugging Face Hub बाट मोडेल प्रयोग गर्न, डाटासेटमा फाइन-ट्युन गर्न र आफ्नो नतिजाहरू हबमा साझा गर्न सक्षम हुनुहुनेछ!
अध्याय ५ देखि ८ ले 🤗 Datasets र 🤗 Tokenizers का आधारभूत कुराहरू सिकाउँछन् र त्यसपछि परम्परागत NLP कार्यहरूमा गहिरिन्छ। यो भागको अन्त्यसम्ममा, तपाईं आफैं सबैभन्दा सामान्य NLP समस्याहरू समाधान गर्न सक्षम हुनुहुनेछ।
अध्याय ९ ले NLP भन्दा बाहिर गई 🤗 हबमा आफ्ना मोडेलहरूको डेमो कसरी बनाउने र साझा गर्ने भन्ने कुरा समेट्छ। यो भागको अन्त्यसम्ममा, तपाईं आफ्नो 🤗 Transformers एप्लिकेसन संसारलाई देखाउन तयार हुनुहुनेछ!

यो पाठ्यक्रम:

पाइथनको राम्रो ज्ञान आवश्यक पर्छ
fast.ai को Practical Deep Learning for Coders वा DeepLearning.AI द्वारा विकसित कार्यक्रमहरू जस्ता परिचयात्मक डिप लर्निङ पाठ्यक्रम पछि लिन उत्तम हुन्छ
PyTorch वा TensorFlow को पूर्व ज्ञान अपेक्षा गर्दैन, यद्यपि कुनै एकको केही जानकारी भए सहयोगी हुन्छ

यो पाठ्यक्रम पूरा गरेपछि, हामी DeepLearning.AI को Natural Language Processing Specialization हेर्न सुझाव दिन्छौं, ज naive Bayes र LSTMs जस्ता परम्परागत NLP मोडेलहरूको विस्तृत जानकारी दिन्छ जुन जान्न उपयोगी छ!

हाम्रो टिम को को हौं?

लेखकहरूको बारेमा:

Abubakar Abid ले स्ट्यानफोर्डमा एप्लाइड मेसिन लर्निङमा पीएचडी पूरा गरे। आफ्नो पीएचडी अवधिमा, उनले Gradio को स्थापना गरे, एउटा खुला स्रोत पाइथन लाइब्रेरी जुन ६००,००० भन्दा बढी मेसिन लर्निङ डेमोहरू बनाउन प्रयोग भएको छ। Gradio लाई Hugging Face ले अधिग्रहण गर्यो, जहाँ अबुबकर अहिले मेसिन लर्निङ टिमको नेतृत्व गर्छन्।

Matthew Carrigan Hugging Face मा मेसिन लर्निङ इन्जिनियर हुन्। उनी डब्लिन, आयरल्यान्डमा बस्छन् र यसअघि Parse.ly मा ML इन्जिनियरको रूपमा र त्यसअघि ट्रिनिटी कलेज डब्लिनमा पोस्ट-डक्टोरल अनुसन्धानकर्ताको रूपमा काम गरेका थिए। उनी वर्तमान आर्किटेक्चरहरूलाई स्केल गरेर AGI मा पुग्न सकिन्छ भन्ने विश्वास गर्दैनन्, तर रोबोट अमरत्वको लागि उच्च आशा राख्छन्।

Lysandre Debut Hugging Face मा मेसिन लर्निङ इन्जिनियर हुन् र सुरुवाती विकास चरणदेखि नै 🤗 Transformers लाइब्रेरीमा काम गरिरहेका छन्। उनको लक्ष्य साधारण API भएका उपकरणहरू विकास गरेर NLP लाई सबैको लागि पहुँचयोग्य बनाउनु हो।

Sylvain Gugger Hugging Face मा रिसर्च इन्जिनियर र 🤗 Transformers लाइब्रेरीका मुख्य मेन्टेनरहरू मध्ये एक हुन्। पहिले उनी fast.ai मा रिसर्च साइन्टिस्ट थिए, र जेरेमी होवार्डसँग Deep Learning for Coders with fastai an PyTorch को सह-लेखक हुन्। उनको अनुसन्धानको मुख्य फोकस डिप लर्निङलाई सीमित स्रोतहरूमा छिटो तालिम दिन सक्ने प्रविधिहरूको डिजाइन र सुधार गरेर अझ पहुँचयोग्य बनाउनु हो।

Dawood Khan Hugging Face मा मेसिन लर्निङ इन्जिनियर हुन्। उनी न्यूयोर्क सिटीका हुन् र न्यूयोर्क विश्वविद्यालयबाट कम्प्युटर साइन्स अध्ययन गरेका हुन्। केही वर्ष iOS इन्जिनियरको रूपमा काम गरेपछि दाउदले आफ्ना सहकर्मीहरूसँग Gradio सुरु गरे। Gradio पछि Hugging Face द्वारा अधिग्रहण गरियो।

Merve Noyan Hugging Face मा डेभलपर एडभोकेट हुन्, जसले उपकरणहरू विकास गर्ने र तिनीहरूको वरिपरि सामग्री निर्माण गरी मेसिन लर्निङलाई सबैका लागि लोकतान्त्रिक बनाउने काम गर्छिन्।

Lucile Saulnier Hugging Face मा मेसिन लर्निङ इन्जिनियर हुन्, जसले खुला स्रोत उपकरणहरूको विकास र प्रयोगमा सहयोग गर्छिन्। उनी सहयोगात्मक प्रशिक्षण र BigScience जस्ता प्राकृतिक भाषा प्रशोधन क्षेत्रका धेरै अनुसन्धान परियोजनाहरूमा पनि सक्रिय र संलग्न छिन्।

Lewis Tunstall Hugging Face मा मेसिन लर्निङ इन्जिनियर हुन्, जसले खुला स्रोत उपकरणहरूको विकास र तिनलाई व्यापक समुदायको लागि पहुँचयोग्य बनाउनमा ध्यान केन्द्रित गर्छन्। उनी O’Reilly पुस्तक Natural Language Processing with Transformers का सह-लेखक पनि हुन्।

Leandro von Werra Hugging Face को खुला स्रोत टिममा मेसिन लर्निङ इन्जिनियर र O’Reilly पुस्तक Natural Language Processing with Transformers का सह-लेखक हुन्। उनीसँग सम्पूर्ण मेसिन लर्निङ स्ट्याकमा काम गरेर NLP परियोजनाहरूलाई उत्पादनमा ल्याउने कई वर्षको उद्योग अनुभव छ।

बारम्बार सोधिने प्रश्नहरू

यहाँ बारम्बार सोधिने प्रश्नहरूका केही उत्तरहरू छन्:

के यो पाठ्यक्रम पूरा गरेपछि प्रमाणपत्र दिइन्छ? हाल हामीसँग यो पाठ्यक्रमको लागि कुनै प्रमाणपत्र छैन। तथापि, हामी Hugging Face इकोसिस्टमको लागि एउटा प्रमाणीकरण कार्यक्रममा काम गरिरहेका छौं — पर्खनुहोस्!
यो पाठ्यक्रममा कति समय लगाउनुपर्छ? यस पाठ्यक्रमको प्रत्येक अध्याय १ हप्तामा पूरा गर्न डिजाइन गरिएको छ, प्रति हप्ता लगभग ६-८ घण्टाको काम। तथापि, तपाईंले पाठ्यक्रम पूरा गर्न आवश्यक जति समय लिन सक्नुहुन्छ।
कुनै प्रश्न भएमा कहाँ सोध्ने? यदि पाठ्यक्रमको कुनै खण्डको बारेमा प्रश्न छ भने, पृष्ठको माथिल्लो भागमा रहेको ”प्रश्न सोध्नुहोस्” बटनमा क्लिक गर्नुहोस् र तपाईं स्वचालित रूपमा Hugging Face फोरम को सही खण्डमा पुग्नुहुनेछ:

पाठ्यक्रम पूरा गरेपछि थप अभ्यास गर्न चाहनुहुन्छ भने फोरममा परियोजना विचारहरूको सूची पनि उपलब्ध छ।

पाठ्यक्रमको कोड कहाँ पाइन्छ? प्रत्येक खण्डको लागि, पृष्ठको माथिल्लो भागमा रहेको बटनमा क्लिक गरेर Google Colab वा Amazon SageMaker Studio Lab मा कोड चलाउन सक्नुहुन्छ:

पाठ्यक्रमका सबै कोड समावेश भएका Jupyter नोटबुकहरू huggingface/notebooks रेपोमा होस्ट गरिएका छन्। यदि तपाईं तिनीहरूलाई स्थानीय रूपमा तयार गर्न चाहनुहुन्छ भने, GitHub मा course रेपोमा निर्देशनहरू जाँच गर्नुहोस्।

मैले पाठ्यक्रममा कसरी योगदान गर्न सक्छु? पाठ्यक्रममा योगदान गर्ने धेरै तरिकाहरू छन्! यदि तपाईंले कुनै टाइपो वा बग फेला पार्नुभयो भने, कृपया course रेपोमा एउटा इश्यु खोल्नुहोस्। यदि तपाईं पाठ्यक्रमलाई आफ्नो मातृभाषामा अनुवाद गर्न सहयोग गर्न चाहनुहुन्छ भने, यहाँ निर्देशनहरू जाँच गर्नुहोस्।
प्रत्येक अनुवादमा के-के छनोटहरू गरिएका छन्? प्रत्येक अनुवादमा एउटा शब्दावली र TRANSLATING.txt फाइल छ जसले मेसिन लर्निङ शब्दावली आदिको लागि गरिएका छनोटहरूको विवरण दिन्छ। जर्मनको लागि एउटा उदाहरण यहाँ हेर्न सक्नुहुन्छ।
के मैले यो पाठ्यक्रम पुन: प्रयोग गर्न सक्छु? पक्कै! यो पाठ्यक्रम Apache 2 license अन्तर्गत जारी गरिएको छ। यसको अर्थ तपाईंले उचित श्रेय दिनुपर्छ, लाइसेन्सको लिंक प्रदान गर्नुपर्छ, र परिवर्तनहरू गरिएको छ भने संकेत गर्नुपर्छ। तपाईंले कुनै उचित तरिकाले यसो गर्न सक्नुहुन्छ, तर लाइसेन्सदाताले तपाईंलाई वा तपाईंको प्रयोगलाई समर्थन गर्छ भन्ने संकेत नगर्ने गरी। यदि तपाईं पाठ्यक्रमलाई उद्धृत गर्न चाहनुहुन्छ भने, कृपया निम्न BibTeX प्रयोग गर्नुहोस्:

@misc{huggingfacecourse,
  author = {Hugging Face},
  title = {The Hugging Face Course, 2022},
  howpublished = "\url{https://huggingface.co/course}",
  year = {2022},
  note = "[Online; accessed <today>]"
}

सुरु गरौं

के तपाईं तयार हुनुहुन्छ? यस अध्यायमा, तपाईंले सिक्नुहुनेछ:

पाठ उत्पादन र वर्गीकरण जस्ता NLP कार्यहरू समाधान गर्न pipeline() फंक्शन कसरी प्रयोग गर्ने
Transformer आर्किटेक्चरको बारेमा
एन्कोडर, डिकोडर, र एन्कोडर-डिकोडर आर्किटेक्चरहरू र तिनका प्रयोग केसहरू बीच कसरी भिन्नता छुट्याउने