Vietnamese to Korean translator

Usage

Inference

from transformers import (
    AutoTokenizer,
    AutoModelForSeq2SeqLM)

tokenizer = AutoTokenizer.from_pretrained("bluexmas/mbart50_vi_ko")
model = AutoModelForSeq2SeqLM.from_pretrained("bluexmas/mbart50_vi_ko")

def translate(text):
    batch = tokenizer.prepare_seq2seq_batch([text], return_tensors="pt", max_length=128, truncation=True)
    translated = model.generate(**batch)
    return tokenizer.batch_decode(translated, skip_special_tokens=True)[0]

text = "Xin chào. Hôm nay thời tiết thế nào ạ?"
print(text, "--->", translate(text))
# 안녕하세요, 오늘 날씨는 어떠세요?

text = "Hôm nay thời tiết đẹp thật đấy."
print(text, "--->", translate(text))
# 오늘 날씨 정말 좋다.

text = "Tất cả người dân đều bình đẳng trước pháp luật. Bất kỳ ai cũng không bị phân biệt đối xử trong mọi lĩnh vực đời sống chính trị, kinh tế, xã hội, văn hóa dựa trên giới tính, tôn giáo hay thân phận xã hội."
print(text, "--->", translate(text))
# 모든 국민은 법 앞에 평등하고, 성별·종교·사회적 정체성에 따라 정치·경제·사회·문화의 모든 영역에서 누구나 차별받지 않는다.

Dataset list

The dataset used to train the model is merged following sub-datasets:

한국어-베트남어 병렬 말뭉치 2023 [Link]
한국어-베트남어 병렬 말뭉치 2022 [Link]

Blog

https://bluexmas.tistory.com