polyglot-ko-1b-txt2sql

polyglot-ko-1b-txt2sql은 한국어 자연어 질문을 SQL 쿼리로 변환하기 위해 파인튜닝된 텍스트 생성 모델입니다.
기반 모델은 EleutherAI/polyglot-ko-1.3b를 사용했으며, LoRA를 통해 경량 파인튜닝되었습니다.

모델 정보

Base model: EleutherAI/polyglot-ko-1.3b
Fine-tuning: QLoRA (4bit quantization + PEFT)
Task: Text2SQL (자연어 → SQL 변환)
Tokenizer: 동일한 토크나이저 사용

학습 데이터

모델은 한국어 SQL 변환 태스크를 위해 설계된 자연어 질문-쿼리 페어로 파인튜닝되었습니다.
데이터는 다음 두 가지 소스 기반으로 구성되었습니다:

shangrilar/ko_text2sql 데이터셋 일부
OpenAI 기반 LLM(GPT) 추론을 통해 생성된 synthetic Korean SQL pairs

사용 예시

from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline

model = AutoModelForCausalLM.from_pretrained("your-username/polyglot-ko-1b-txt2sql", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("your-username/polyglot-ko-1b-txt2sql")

generator = pipeline("text-generation", model=model, tokenizer=tokenizer)

prompt = """
당신은 SQL 전문가입니다.

### DDL:
CREATE TABLE players (
  player_id INT PRIMARY KEY AUTO_INCREMENT,
  username VARCHAR(255) UNIQUE NOT NULL,
  email VARCHAR(255) UNIQUE NOT NULL,
  password_hash VARCHAR(255) NOT NULL,
  date_joined DATETIME NOT NULL,
  last_login DATETIME
);

### Question:
사용자 이름에 'admin'이 포함된 계정 수는?

### SQL:
"""

outputs = generator(prompt, do_sample=False, max_new_tokens=128)
print(outputs[0]["generated_text"])

castellina
/

polyglot-ko-txt2sql

polyglot-ko-1b-txt2sql

모델 정보

학습 데이터

사용 예시

Model tree for castellina/polyglot-ko-txt2sql

Dataset used to train castellina/polyglot-ko-txt2sql