SakanaAI
/

Llama-3-Karamaru-v1

Text Generation

text-generation-inference

Model card Files Files and versions

tkasasagi commited on Apr 1

Commit

1741192

·

verified ·

1 Parent(s): e10984f

Update README.md

Files changed (1) hide show

README.md +1 -1

README.md CHANGED Viewed

@@ -69,7 +69,7 @@ print(output)
 ## Training Data
-Karamaru was trained using a custom Edo-period text dataset totaling approximately 24 million characters.
 1. [Minna de Honkoku](https://www.honkoku.org/) 12 millions characters.
 2. [Kuzushiji Dataset](https://codh.rois.ac.jp/char-shape/) 1 million characters.
 3. [Pre-Modern Japanese Text Dataset](https://codh.rois.ac.jp/pmjt/) 12 million characters using AI Kuzushiji OCR model [RURI](https://codh.rois.ac.jp/miwo/) and using Sakana AI's LLM based [classical Japanese OCR Refiner](https://ipsj.ixsq.nii.ac.jp/records/241512).

 ## Training Data
+Karamaru was trained using a custom Edo-period text dataset totaling approximately 25 million characters.
 1. [Minna de Honkoku](https://www.honkoku.org/) 12 millions characters.
 2. [Kuzushiji Dataset](https://codh.rois.ac.jp/char-shape/) 1 million characters.
 3. [Pre-Modern Japanese Text Dataset](https://codh.rois.ac.jp/pmjt/) 12 million characters using AI Kuzushiji OCR model [RURI](https://codh.rois.ac.jp/miwo/) and using Sakana AI's LLM based [classical Japanese OCR Refiner](https://ipsj.ixsq.nii.ac.jp/records/241512).