language: ko license: apache-2.0 library_name: sentence-transformers pipeline_tag: sentence-similarity tags: - sentence-transformers - sentence-similarity - feature-extraction - korean - legal - bert datasets: - custom metrics: - cosine_similarity widget: - source_sentence: "์ธํฐ๋ท ์ฌ๊ธฐ ํผํด ์ํด๋ฐฐ์ ์ฒญ๊ตฌ" sentences: - "์จ๋ผ์ธ ๊ฑฐ๋ ์ฌ๊ธฐ ํผํด ๊ตฌ์ " - "์ ์์๊ฑฐ๋ ์ฌ๊ธฐ ๋ฏผ์ฌ์ฑ ์" - "ํ๋ฒ์ ์ฌ๊ธฐ์ฃ ๊ตฌ์ฑ์๊ฑด" - source_sentence: "์์ฌ๊ธ์ ์๊ธ์ผ๋ก ์ธ์ ํ๊ธฐ ์ํ ์๊ฑด" sentences: - "๊ทผ๋ก์ ์๊ธ ์ฒด๋ถ ์ํด๋ฐฐ์" - "ํด์ง๊ธ ์ฐ์ ๊ธฐ์ด ํ๊ท ์๊ธ" - "๋ถ๋์ฐ ๋งค๋งค๊ณ์ฝ ํด์ " inference: parameters: task: sentence-similarity normalize_embeddings: true model-index: - name: Ko-Legal-SBERT results: - task: type: sentence-similarity name: Sentence Similarity dataset: type: custom name: Korean Legal Dataset metrics: - type: cosine_similarity value: 0.85 name: Same Domain Similarity
๐๏ธ Ko-Legal-SBERT: ํ๊ตญ ๋ฒ๋ฅ ํนํ ์๋ฒ ๋ฉ ๋ชจ๋ธ
Ko-Legal-SBERT๋ ํ๊ตญ ๋ฒ๋ฅ ๋ฌธ์์ ํนํ๋ ๋ฌธ์ฅ ์๋ฒ ๋ฉ ๋ชจ๋ธ์ ๋๋ค. 35,104๊ฐ์ ๊ณ ํ์ง ๋ฒ๋ฅ ํธ๋ฆฌํ์ ์ผ๋ก ํ์ธํ๋๋์ด ๋ฒ๋ฅ ๋ฌธ์ ๊ฐ์ ์๋ฏธ์ ์ ์ฌ๋๋ฅผ ์ ํํ๊ฒ ์ธก์ ํ ์ ์์ต๋๋ค.
๐ ๋น ๋ฅธ ์์
Inference API ์ฌ์ฉ (๊ถ์ฅ)
import requests
API_URL = "https://api-inference.huggingface.co/models/woong0322/ko-legal-sbert-finetuned"
headers = {"Authorization": "Bearer YOUR_TOKEN"}
def query(payload):
response = requests.post(API_URL, headers=headers, json=payload)
return response.json()
# ์๋ฒ ๋ฉ ์์ฑ
output = query({
"inputs": "์ธํฐ๋ท ์ฌ๊ธฐ ํผํด ์ํด๋ฐฐ์ ์ฒญ๊ตฌ"
})
sentence-transformers ์ฌ์ฉ
from sentence_transformers import SentenceTransformer
import numpy as np
# ๋ชจ๋ธ ๋ก๋
model = SentenceTransformer('woong0322/ko-legal-sbert-finetuned')
# ๋ฒ๋ฅ ํ
์คํธ ์๋ฒ ๋ฉ
texts = [
"์์ฌ๊ธ์ ์๊ธ์ผ๋ก ์ธ์ ํ๊ธฐ ์ํ ์๊ฑด",
"ํด์ง๊ธ ์ฐ์ ์ ๊ธฐ์ด๊ฐ ๋๋ ํ๊ท ์๊ธ",
"ํ๋ฒ์ ์ ๋์ ๋ฒ์์ ๊ณ ์"
]
embeddings = model.encode(texts)
# ์ ์ฌ๋ ๊ณ์ฐ
similarity_01 = np.dot(embeddings[0], embeddings[1]) # ๋
ธ๋๋ฒ ๊ด๋ จ: ๋์ ์ ์ฌ๋
similarity_02 = np.dot(embeddings[0], embeddings[2]) # ๋
ธ๋๋ฒ vs ํ๋ฒ: ๋ฎ์ ์ ์ฌ๋
print(f"๋
ธ๋๋ฒ ๋ฌธ์ ๊ฐ ์ ์ฌ๋: {similarity_01:.3f}") # ์์: 0.85+
print(f"๋
ธ๋๋ฒ vs ํ๋ฒ ์ ์ฌ๋: {similarity_02:.3f}") # ์์: 0.0 ๊ทผ์ฒ
๐ ์ฑ๋ฅ ํ๊ฐ
๋ฉํธ๋ฆญ | ์ ์ | ์ค๋ช |
---|---|---|
๋์ผ ๋ถ์ผ ์ ์ฌ๋ | 0.853 | ๊ฐ์ ๋ฒ ๋ถ์ผ ๋ฌธ์ ๊ฐ ํ๊ท ์ ์ฌ๋ |
๋ถ์ผ ๊ฐ ๊ตฌ๋ถ๋ | 0.023 | ๋ค๋ฅธ ๋ฒ ๋ถ์ผ ๊ฐ ํ๊ท ์ ์ฌ๋ (๋ฎ์์๋ก ์ข์) |
์ ์ฒด ํ์ง ์ ์ | 95.0/100 | ๋ฐ์ดํฐ ํ์ง ์ข ํฉ ํ๊ฐ |
๋ถ์ผ๋ณ ์ฑ๋ฅ
- ๋ฏผ์ฌ๋ฒ: 36.3% ์ปค๋ฒ๋ฆฌ์ง, ๋์ ์ ํ๋
- ์ธ๋ฒ: 16.4% ์ปค๋ฒ๋ฆฌ์ง, ์ฐ์ํ ๊ตฌ๋ถ ๋ฅ๋ ฅ
- ํ์ ๋ฒ: 14.9% ์ปค๋ฒ๋ฆฌ์ง, ์์ ์ ์ฑ๋ฅ
- ํ์ฌ๋ฒ: 6.2% ์ปค๋ฒ๋ฆฌ์ง, ๋ช ํํ ๋ถ๋ฅ
๐๏ธ ๋ชจ๋ธ ๊ตฌ์กฐ
- ๋ฒ ์ด์ค ๋ชจ๋ธ: jhgan/ko-sbert-nli
- ์๋ฒ ๋ฉ ์ฐจ์: 768
- ์ต๋ ์ํ์ค ๊ธธ์ด: 512 ํ ํฐ
- ํ์ต ๋ฐฉ๋ฒ: Triplet Loss with Hard Negative Mining
ํ์ต ๋ฐ์ดํฐ
- ์ด ํธ๋ฆฌํ์ : 35,104๊ฐ
- ํ์ต ์์ : 70,208๊ฐ (Anchor-Positive, Anchor-Negative ์)
- ๋ฐ์ดํฐ ์ถ์ฒ: ํ๊ตญ ๋ฒ์ ํ๋ก, ๋ฒ๋ น ๋ฐ์ดํฐ
- ํ์ง ๊ฒ์ฆ: 98.6% ๋ฒ๋ฅ ํค์๋ ํฌํจ, ์ค๋ณต ์ ๊ฑฐ ์๋ฃ
๐ฏ ํ์ฉ ๋ถ์ผ
๐ผ ๋น์ฆ๋์ค ํ์ฉ
- ๋ฒ๋ฅ ๊ฒ์ ์์ง: ์๋ฏธ ๊ธฐ๋ฐ ํ๋ก/๋ฒ๋ น ๊ฒ์
- ๋ฒ๋ฅ ์๋ด ์์คํ : ์ ์ฌ ์ฌ๋ก ์๋ ์ถ์ฒ
- ๊ณ์ฝ์ ๋ถ์: ์กฐํญ ๊ฐ ์ ์ฌ๋ ๋ฐ ์ค๋ณต ๊ฒ์ถ
- ์ปดํ๋ผ์ด์ธ์ค: ๊ท์ ์ค์ ์ฌ๋ถ ์๋ ๊ฒํ
๐ฌ ์ฐ๊ตฌ ํ์ฉ
- ๋ฒ๋ฅ AI ์ฐ๊ตฌ: ํ๊ตญ์ด ๋ฒ๋ฅ NLP ๋ฒค์น๋งํฌ
- ํ๋ก ๋ถ์: ํ๊ฒฐ ํจํด ๋ฐ ๊ฒฝํฅ ๋ถ์
- ๋ฒ๋ฅ ์จํจ๋ก์ง: ๋ฒ๋ฅ ๊ฐ๋ ๊ฐ ๊ด๊ณ ๋ชจ๋ธ๋ง
- ์๋ ๋ถ๋ฅ: ๋ฒ๋ฅ ๋ฌธ์ ์นดํ ๊ณ ๋ฆฌ ์๋ ๋ถ๋ฅ
๐ ๊ธฐ์ ์ ์ธ๋ถ์ฌํญ
์ด ๋ชจ๋ธ์ SentenceTransformers ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ฌ์ฉํ์ฌ ํ์ต๋์์ผ๋ฉฐ, ๋ค์๊ณผ ๊ฐ์ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๋๋ค:
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
๐ค ๊ธฐ์ฌ ๋ฐ ํผ๋๋ฐฑ
์ด ๋ชจ๋ธ์ ์ฐ๊ตฌ๋ ์์ ์ ๋ชฉ์ ์ผ๋ก ์ฌ์ฉํ์ค ๋๋ ๋ค์๊ณผ ๊ฐ์ด ์ธ์ฉํด์ฃผ์ธ์:
@misc{ko-legal-sbert-2025,
title={Ko-Legal-SBERT: Korean Legal Domain Specialized Sentence Embedding Model},
author={woong0322},
year={2025},
url={https://huggingface.co/woong0322/ko-legal-sbert-finetuned}
}
๐ ๋ผ์ด์ ์ค
์ด ๋ชจ๋ธ์ Apache 2.0 ๋ผ์ด์ ์ค ํ์ ๋ฐฐํฌ๋ฉ๋๋ค. ์์ ์ ์ฌ์ฉ์ด ๊ฐ๋ฅํ๋ฉฐ, ์ถ์ฒ๋ง ๋ช ์ํ๋ฉด ์์ ๋กญ๊ฒ ์ฌ์ฉํ์ค ์ ์์ต๋๋ค.
๐ก ์ด ๋ชจ๋ธ์ด ๋์์ด ๋์ จ๋ค๋ฉด โญ์ ๋๋ฌ์ฃผ์ธ์!
- Downloads last month
- 11
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
๐
Ask for provider support