againeureka
/

klue_roberta_base_for_legal

Inference Endpoints

Model card Files Files and versions Metrics Training metrics Community

againeureka commited on May 29, 2024

Commit

f984e6d

·

verified ·

1 Parent(s): f5aa5d1

Update README.md

Files changed (1) hide show

README.md +2 -27

README.md CHANGED Viewed

@@ -28,15 +28,15 @@ library_name: transformers
 ### 학습 방법
 ```python
 from transformers import RobertaTokenizer, RobertaForMaskedLM
 from transformers import AutoModel, AutoTokenizer
 model = RobertaForMaskedLM.from_pretrained(base_model)
 tokenizer = AutoTokenizer.from_pretrained(base_tokenizer)
 from transformers import LineByLineTextDataset
 dataset = LineByLineTextDataset(
     tokenizer=tokenizer,
     file_path=fpath_dataset,
@@ -44,13 +44,11 @@ dataset = LineByLineTextDataset(
 )
 from transformers import DataCollatorForLanguageModeling
 data_collator = DataCollatorForLanguageModeling(
     tokenizer=tokenizer, mlm=True, mlm_probability=0.15
 )
 from transformers import Trainer, TrainingArguments
 training_args = TrainingArguments(
     output_dir=output_dir,
     overwrite_output_dir=True,
@@ -69,29 +67,6 @@ trainer = Trainer(
 )
 train_metrics = trainer.train()
 trainer.save_model(output_dir)
 trainer.push_to_hub()
 ```
-### 학습용 configuration
-- number of epochs
-```bash
-  epochs = 50
-```
-- JSON file
-```json
-[
-    {'basemodel'      : 'againeureka/klue_roberta_base_for_legal',
-     'basetokenizer'  : 'klue/roberta-base',
-     'trainmodel'     : 'againeureka/toulmin_classifier8_klue_roberta_base_retrained6',
-     'batchsize'      : 92,
-     'epochs'         : epochs,
-     'push_to_hub'    : True,
-     'is_on'          : True,
-    },
-]
-```

 ### 학습 방법
 ```python
+base_model = 'klue/roberta-base'
+base_tokenizer = 'klue/roberta-base'
 from transformers import RobertaTokenizer, RobertaForMaskedLM
 from transformers import AutoModel, AutoTokenizer
 model = RobertaForMaskedLM.from_pretrained(base_model)
 tokenizer = AutoTokenizer.from_pretrained(base_tokenizer)
 from transformers import LineByLineTextDataset
 dataset = LineByLineTextDataset(
     tokenizer=tokenizer,
     file_path=fpath_dataset,
 )
 from transformers import DataCollatorForLanguageModeling
 data_collator = DataCollatorForLanguageModeling(
     tokenizer=tokenizer, mlm=True, mlm_probability=0.15
 )
 from transformers import Trainer, TrainingArguments
 training_args = TrainingArguments(
     output_dir=output_dir,
     overwrite_output_dir=True,
 )
 train_metrics = trainer.train()
 trainer.save_model(output_dir)
 trainer.push_to_hub()
 ```