Tanrei
/

GPTSAN-japanese

Text Generation

gptsan-japanese

text2text-generation

Model card Files Files and versions Community

Tanrei commited on Feb 7, 2023

Commit

4b02c2c

·

1 Parent(s): 506516b

Update README.md

Files changed (1) hide show

README.md +7 -4

README.md CHANGED Viewed

@@ -41,8 +41,7 @@ General-purpose Swich transformer based Japanese language model
 ```
-## Masked Language Model
 ```python
 >>> from transformers import AutoModel, AutoTokenizer, trainer_utils
@@ -51,9 +50,13 @@ General-purpose Swich transformer based Japanese language model
 >>> model = AutoModel.from_pretrained("Tanrei/GPTSAN-japanese").to(device)
 >>> tokenizer = AutoTokenizer.from_pretrained("Tanrei/GPTSAN-japanese")
 >>> x_token = tokenizer.encode("", prefix_text="武田信玄は、<|inputmask|>時代ファンならぜひ押さえ<|inputmask|>きたい名将の一人。", return_tensors="pt").to(device)
->>> out_token = model(x_token)
->>> tokenizer.decode(out_token[0].argmax(axis=-1)[0])
 "武田信玄は、戦国時代ファンならぜひ押さえておきたい名将の一人。"
 ```

 ```
+## Masked Language Model And Text Generation
 ```python
 >>> from transformers import AutoModel, AutoTokenizer, trainer_utils
 >>> model = AutoModel.from_pretrained("Tanrei/GPTSAN-japanese").to(device)
 >>> tokenizer = AutoTokenizer.from_pretrained("Tanrei/GPTSAN-japanese")
 >>> x_token = tokenizer.encode("", prefix_text="武田信玄は、<|inputmask|>時代ファンならぜひ押さえ<|inputmask|>きたい名将の一人。", return_tensors="pt").to(device)
+>>> trainer_utils.set_seed(30)
+>>> out_lm_token = model.generate(x_token, max_new_tokens=50)
+>>> out_mlm_token = model(x_token)[0].argmax(axis=-1)
+>>> tokenizer.decode(out_mlm_token[0])
 "武田信玄は、戦国時代ファンならぜひ押さえておきたい名将の一人。"
+>>> tokenizer.decode(out_lm_token[0][x_token.shape[1]:])
+"武田氏の三代に渡った武田家のひとり\n甲斐市に住む、日本史上最大の戦国大名。"
 ```