asiansoul's picture
Update README.md
2c31d91 verified
---
base_model:
- sh2orc/Llama-3.1-Korean-8B-Instruct
- deepseek-ai/DeepSeek-R1-Distill-Llama-8B
- NousResearch/Meta-Llama-3.1-8B-Instruct
library_name: transformers
tags:
- mergekit
- merge
---
# Llama-3.1-SISaAI-Ko-merge-8B-Instruct
This is a merge of pre-trained language models distilled DeepSeek-R1.
Subscribe my youtube channel -------> [μ‹œμ‚¬AI](https://www.youtube.com/@JayLee-gv8tv)
"Performance Disclaimer:
This merged model has not undergone comprehensive validation testing.
As such, its actual performance characteristics remain unverified.
I strongly encourage users to conduct thorough evaluations in their specific application contexts before considering production deployment."
## Merge Details
A hybrid model optimized for **Korean NLP** and **code/math reasoning**, created by merging specialized models using DARE-TIES method on Meta-Llama-3.1-8B-Instruct base.
### Merge Method
This model was merged using the [DARE](https://arxiv.org/abs/2311.03099) [TIES](https://arxiv.org/abs/2306.01708) merge method using [NousResearch/Meta-Llama-3.1-8B-Instruct](https://huggingface.co/NousResearch/Meta-Llama-3.1-8B-Instruct) as a base.
### Models Merged
The following models were included in the merge:
* [sh2orc/Llama-3.1-Korean-8B-Instruct](https://huggingface.co/sh2orc/Llama-3.1-Korean-8B-Instruct)
* [deepseek-ai/DeepSeek-R1-Distill-Llama-8B](https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Llama-8B)
### Configuration
The following YAML configuration was used to produce this model:
```yaml
base_model: NousResearch/Meta-Llama-3.1-8B-Instruct
merge_method: dare_ties
models:
- model: "deepseek-ai/DeepSeek-R1-Distill-Llama-8B"
parameters:
density: 0.55 # 45% params dropped β†’ 2.22x scaling
weight: 0.35 # 35% final contribution
- model: "sh2orc/Llama-3.1-Korean-8B-Instruct"
parameters:
density: 0.75 # 25% params dropped β†’ 1.33x scaling
weight: 0.65 # 65% final contribution
tokenizer_source: "sh2orc/Llama-3.1-Korean-8B-Instruct"
dtype: bfloat16 # Memory optimization
int8_mask: true # 30% KV cache reduction
```
### Test (MAC M1 MPS)
```
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
import warnings
warnings.filterwarnings("ignore")
device = torch.device("mps")
model = AutoModelForCausalLM.from_pretrained(
"./Llama-3.1-SISaAI-Ko-merge-8B-Instruct",
torch_dtype=torch.float16,
device_map="auto",
low_cpu_mem_usage=True
).to(device).eval()
tokenizer = AutoTokenizer.from_pretrained("./Llama-3.1-SISaAI-Ko-merge-8B-Instruct")
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "left"
tests = [
{"prompt": "ν•œκ΅­μ–΄μ™€ μˆ˜ν•™μ„ κ²°ν•©ν•œ AI의 μž₯점은?", "max_tokens": 500},
{"prompt": "파이썬으둜 κ°„λ‹¨ν•œ 계산기 클래슀λ₯Ό λ§Œλ“€κ³  μ„€λͺ…ν•΄μ€˜", "max_tokens": 800}
]
for test in tests:
inputs = tokenizer(
test["prompt"],
return_tensors="pt",
padding=True,
truncation=True,
max_length=512
).to(device)
outputs = model.generate(
**inputs,
max_length=1024,
max_new_tokens=test["max_tokens"],
temperature=0.7,
top_p=0.9,
do_sample=True,
eos_token_id=tokenizer.eos_token_id,
pad_token_id=tokenizer.eos_token_id,
early_stopping=True,
num_return_sequences=1
)
print(f"\n[μž…λ ₯] {test['prompt']}")
print(f"[좜λ ₯]\n{tokenizer.decode(outputs[0], skip_special_tokens=True)}")
print("-"*50)
[μž…λ ₯] ν•œκ΅­μ–΄μ™€ μˆ˜ν•™μ„ κ²°ν•©ν•œ AI의 μž₯점은?
[좜λ ₯]
ν•œκ΅­μ–΄μ™€ μˆ˜ν•™μ„ κ²°ν•©ν•œ AI의 μž₯점은? [1]
ν•œκ΅­μ–΄μ™€ μˆ˜ν•™μ„ κ²°ν•©ν•œ AIλŠ” ν•œκ΅­μ–΄λ₯Ό μ΄ν•΄ν•˜κ³  μˆ˜ν•™μ  계산을 μˆ˜ν–‰ν•  수 μžˆλŠ” AIμž…λ‹ˆλ‹€. 이 AIλŠ” λ‹€μ–‘ν•œ λΆ„μ•Όμ—μ„œ μ‚¬μš©λ  수 μžˆμŠ΅λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, μˆ˜ν•™ 문제λ₯Ό ν•΄κ²°ν•˜λŠ” AI, μžμ—°μ–΄ 처리(AI)κ°€ μˆ˜ν•™ 문제λ₯Ό ν•΄κ²°ν•˜λŠ” AI, λ˜λŠ” ν•œκ΅­μ–΄λ‘œ 된 μˆ˜ν•™ ꡐ재λ₯Ό μžλ™μœΌλ‘œ λ²ˆμ—­ν•˜λŠ” AIμž…λ‹ˆλ‹€. 이 AIλŠ” μˆ˜ν•™μ  계산 λŠ₯λ ₯κ³Ό ν•œκ΅­μ–΄η†θ§£ λŠ₯λ ₯을 λͺ¨λ‘ κ°–μΆ”κ³  μžˆμ–΄, 더 λ‚˜μ€ μ„±λŠ₯κ³Ό μœ μš©μ„±μ„ μ œκ³΅ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
ν•œκ΅­μ–΄μ™€ μˆ˜ν•™μ„ κ²°ν•©ν•œ AIλŠ” μˆ˜ν•™μ  계산을 μˆ˜ν–‰ν•˜λŠ” 데 ν•œκ΅­μ–΄λ₯Ό μ΄ν•΄ν•˜λŠ” λŠ₯λ ₯을 κ²°ν•©ν•œ AIμž…λ‹ˆλ‹€. λ”°λΌμ„œ 이 AIλŠ” μˆ˜ν•™μ  계산을 μˆ˜ν–‰ν•  λ•Œ, ν•œκ΅­μ–΄λ‘œ 된 λ¬Έμž₯μ΄λ‚˜ λͺ…령을 μ΄ν•΄ν•˜κ³  μˆ˜ν–‰ν•  수 μžˆμŠ΅λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, "2+3=5"이라고 λ§ν•˜λ©΄ AIλŠ” 2+3=5λ₯Ό 계산할 수 μžˆμŠ΅λ‹ˆλ‹€. λ˜ν•œ, "μ‚Όκ°ν˜•μ˜ 넓이λ₯Ό κ΅¬ν•˜λΌ"라고 λ§ν•˜λ©΄ AIλŠ” μ‚Όκ°ν˜•μ˜ 넓이 계산을 μˆ˜ν–‰ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
이 AIλŠ” μˆ˜ν•™μ  계산을 μˆ˜ν–‰ν•˜λŠ” 데 ν•œκ΅­μ–΄λ₯Ό μ΄ν•΄ν•˜λŠ” λŠ₯λ ₯을 κ²°ν•©ν•œ AI둜, λ‹€μ–‘ν•œ λΆ„μ•Όμ—μ„œ μ‚¬μš©λ  수 μžˆμŠ΅λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, μˆ˜ν•™ 문제λ₯Ό ν•΄κ²°ν•˜λŠ” AI, μžμ—°μ–΄ 처리(AI)κ°€ μˆ˜ν•™ 문제λ₯Ό ν•΄κ²°ν•˜λŠ” AI, λ˜λŠ” ν•œκ΅­μ–΄λ‘œ 된 μˆ˜ν•™ ꡐ재λ₯Ό μžλ™μœΌλ‘œ λ²ˆμ—­ν•˜λŠ” AIμž…λ‹ˆλ‹€. 이 AIλŠ” μˆ˜ν•™μ  계산 λŠ₯λ ₯κ³Ό ν•œκ΅­μ–΄η†θ§£ λŠ₯λ ₯을 λͺ¨λ‘ κ°–μΆ”κ³  μžˆμ–΄, 더 λ‚˜μ€ μ„±λŠ₯κ³Ό μœ μš©μ„±μ„ μ œκ³΅ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
ν•œκ΅­μ–΄μ™€ μˆ˜ν•™μ„ κ²°ν•©ν•œ AI의 μž₯점은?
1. μˆ˜ν•™μ  계산 λŠ₯λ ₯κ³Ό ν•œκ΅­μ–΄ 이해 λŠ₯λ ₯을 λͺ¨λ‘ κ°–μΆ”κ³  μžˆμŠ΅λ‹ˆλ‹€.
2. λ‹€μ–‘ν•œ λΆ„μ•Όμ—μ„œ μ‚¬μš©λ  수 μžˆμŠ΅λ‹ˆλ‹€.
3. μˆ˜ν•™μ  계산을 μˆ˜ν–‰ν•˜λŠ” 데 ν•œκ΅­μ–΄λ₯Ό μ΄ν•΄ν•˜λŠ” λŠ₯λ ₯을 κ²°ν•©ν•œ AI둜, 더 λ‚˜μ€ μ„±λŠ₯κ³Ό μœ μš©μ„±μ„ μ œκ³΅ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
4. μˆ˜ν•™ ꡐ재λ₯Ό μžλ™μœΌλ‘œ λ²ˆμ—­ν•˜λŠ” AI둜, μˆ˜ν•™ ꡐ재λ₯Ό λ²ˆμ—­ν•˜λŠ” 데 μ‚¬μš©λ  수 μžˆμŠ΅λ‹ˆλ‹€.
5. μžμ—°μ–΄ 처리(AI)κ°€ μˆ˜ν•™ 문제λ₯Ό ν•΄κ²°ν•˜λŠ” AI둜, μˆ˜ν•™ 문제
--------------------------------------------------
Both `max_new_tokens` (=800) and `max_length`(=1024) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)
[μž…λ ₯] 파이썬으둜 κ°„λ‹¨ν•œ 계산기 클래슀λ₯Ό λ§Œλ“€κ³  μ„€λͺ…ν•΄μ€˜
[좜λ ₯]
파이썬으둜 κ°„λ‹¨ν•œ 계산기 클래슀λ₯Ό λ§Œλ“€κ³  μ„€λͺ…ν•΄μ€˜
계산기 클래슀λ₯Ό λ§Œλ“€κΈ° μœ„ν•΄, 클래슀의 μΈμŠ€ν„΄μŠ€ λ³€μˆ˜μ™€ λ©”μ†Œλ“œλ₯Ό μ •μ˜ν•΄μ•Ό ν•œλ‹€. μΈμŠ€ν„΄μŠ€ λ³€μˆ˜λŠ” screen, first_num, operator, second_num이 될 수 μžˆλ‹€. λ©”μ†Œλ“œλŠ” clear, append_num, change_operator, calculate, all_clear 등이 μžˆλ‹€.
```python
class Calculator:
def __init__(self):
self.screen = ""
self.first_num = None
self.operator = None
self.second_num = None
def clear(self):
self.screen = ""
self.first_num = None
self.operator = None
self.second_num = None
def append_num(self, num):
self.screen += str(num)
def change_operator(self, op):
self.operator = op
def calculate(self):
if self.operator == '+':
return self.first_num + self.second_num
elif self.operator == '-':
return self.first_num - self.second_num
elif self.operator == '*':
return self.first_num * self.second_num
elif self.operator == '/':
if self.second_num!= 0:
return self.first_num / self.second_num
else:
return "Error: Division by zero"
else:
return "Error: Invalid operator"
def all_clear(self):
self.screen = ""
self.first_num = None
self.operator = None
self.second_num = None
```
이 ν΄λž˜μŠ€λŠ” 계산기와 μœ μ‚¬ν•œ κΈ°λŠ₯을 μ œκ³΅ν•œλ‹€. clear() λ©”μ†Œλ“œλŠ” μŠ€ν¬λ¦°μ„ μ΄ˆκΈ°ν™”ν•˜κ³ , append_num() λ©”μ†Œλ“œλŠ” μŠ€ν¬λ¦°μ— 숫자λ₯Ό μΆ”κ°€ν•œλ‹€. change_operator() λ©”μ†Œλ“œλŠ” 기쑴의 μ—°μ‚°μžλ₯Ό λ³€κ²½ν•œλ‹€. calculate() λ©”μ†Œλ“œλŠ” μŠ€ν¬λ¦°μ— μžˆλŠ” 숫자λ₯Ό 읽어듀여 연산을 μˆ˜ν–‰ν•œλ‹€. all_clear() λ©”μ†Œλ“œλŠ” λͺ¨λ“  λ³€μˆ˜λ₯Ό μ΄ˆκΈ°ν™”ν•œλ‹€.
계산기 클래슀λ₯Ό μ‚¬μš©ν•˜λ €λ©΄, Calculator() ν•¨μˆ˜λ₯Ό ν˜ΈμΆœν•˜κ³  계산기λ₯Ό μ‚¬μš©ν•˜λŠ” λ©”μ†Œλ“œλ₯Ό ν˜ΈμΆœν•˜λ©΄ λœλ‹€. 예λ₯Ό λ“€μ–΄, Calculator().append_num(5)둜 5λ₯Ό μŠ€ν¬λ¦°μ— μΆ”κ°€ν•˜κ³  Calculator().change_operator('+')둜 '+' μ—°μ‚°μžλ₯Ό λ³€κ²½ν•  수 μžˆλ‹€. Calculator().calculate()둜 κ²°κ³Όλ₯Ό 계산할 수 μžˆλ‹€.
```python
calc = Calculator()
calc.append_num(5)
calc.change_operator('+')
calc.append_num(3)
print(calc.calculate()) # 8
calc.all_clear()
print(calc.screen) # ""
```
이 ν΄λž˜μŠ€λŠ” κ°„λ‹¨ν•œ 계산기와 μœ μ‚¬ν•œ κΈ°λŠ₯을 μ œκ³΅ν•˜μ§€λ§Œ, 더 λ³΅μž‘ν•œ 계산기 κΈ°λŠ₯을 μΆ”κ°€ν•˜λ €λ©΄ 클래슀λ₯Ό ν™•μž₯ν•΄μ•Ό ν•  수 μžˆλ‹€. 예λ₯Ό λ“€μ–΄, 더 λ§Žμ€ μ—°μ‚°μžλ₯Ό μ§€μ›ν•˜κ±°λ‚˜, μŠ€ν¬λ¦°μ— 더 λ§Žμ€ 숫자λ₯Ό ν‘œμ‹œν•˜κ±°λ‚˜, 계산 κ²°κ³Όλ₯Ό μ €μž₯ν•˜κ³  싢을 수 μžˆλ‹€. 이에 λŒ€ν•œ ν™•μž₯은 클래슀λ₯Ό μˆ˜μ •ν•˜κ³  더 λ§Žμ€ λ©”μ†Œλ“œλ₯Ό μΆ”κ°€ν•˜λŠ” λ°©μ‹μœΌλ‘œ 진행할 수 μžˆλ‹€. `
**μ„€λͺ…**
계산기 클래슀λ₯Ό λ§Œλ“€κΈ° μœ„ν•΄, 클래슀의 μΈμŠ€ν„΄μŠ€ λ³€μˆ˜μ™€ λ©”μ†Œλ“œλ₯Ό μ •μ˜ν•΄μ•Ό ν•œλ‹€. μΈμŠ€ν„΄μŠ€ λ³€μˆ˜λŠ” 슀크린, 첫 번째 숫자, μ—°μ‚°μž, 두 번째 숫자이 될 수 μžˆλ‹€. λ©”μ†Œλ“œλŠ” clear, append_num, change_operator, calculate, all_clear 등이 μžˆλ‹€.
- `clear()`: μŠ€ν¬λ¦°μ„ μ΄ˆκΈ°ν™”ν•˜κ³ , 첫 번째 숫자, μ—°μ‚°μž, 두 번째 숫자λ₯Ό None으둜 μ„€μ •ν•œλ‹€.
- `append_num(num)`: μŠ€ν¬λ¦°μ— 숫자λ₯Ό μΆ”κ°€ν•œλ‹€.
- `change_operator(op)`: 기쑴의 μ—°μ‚°μžλ₯Ό λ³€κ²½ν•œλ‹€.
- `calculate()`: μŠ€ν¬λ¦°μ— μžˆλŠ” 숫자λ₯Ό 읽어듀여 μ—°μ‚°
--------------------------------------------------
[μž…λ ₯] λŒ€ν•œλ―Όκ΅­ 강남 맛집 μ†Œκ°œν•΄μ€˜.
[좜λ ₯]
λŒ€ν•œλ―Όκ΅­ 강남 맛집 μ†Œκ°œν•΄μ€˜. 강남 맛집은 λ‹€μ–‘ν•œ μ’…λ₯˜κ°€ μžˆμ§€λ§Œ, 주둜 뢄식, ν•œμ‹, 쀑식, 일식, μœ λŸ½μ‹, μ•„μ‹œμ•ˆ 등이 λ§Žλ‹€. κ°€μž₯ 유λͺ…ν•œ 강남 맛집은?
### 1. 뢄식
- **강남역 맛집**: 강남역 1λ²ˆμΆœκ΅¬μ—μ„œ λ‚˜μ™€ λ°˜λŒ€νŽΈμ— μžˆλŠ” 뢄식점.
- **신세계 ν•œμ •μ‹**: κ°•λ‚¨μ˜ 유λͺ…ν•œ 뢄식점. 유λͺ…ν•œ λ©”λ‰΄λŠ” '신세계'λΌλŠ” μ΄λ¦„μ˜ 메뉴가 유λͺ…ν•˜λ‹€.
### 2. ν•œμ‹
- **도원**: κ°•λ‚¨μ˜ 유λͺ…ν•œ ν•œμ‹λ‹Ή. λ‹€μ–‘ν•œ ν•œμ‹ 메뉴λ₯Ό μ œκ³΅ν•œλ‹€.
- **ν•œμš°λ¦¬**: κ°•λ‚¨μ˜ ν•œμ‹λ‹Ή. ν•œκ΅­μ˜ 전톡적인 ν•œμ‹ 메뉴λ₯Ό μ œκ³΅ν•œλ‹€.
### 3. 쀑식
- **쀑화당**: κ°•λ‚¨μ˜ 쀑식당. λ‹€μ–‘ν•œ 쀑식 메뉴λ₯Ό μ œκ³΅ν•œλ‹€.
- **쀑화관**: κ°•λ‚¨μ˜ 쀑식당. μ€‘ν™”μš”λ¦¬ 전문점.
### 4. 일식
- **일식당**: κ°•λ‚¨μ˜ 일식당. λ‹€μ–‘ν•œ 일식 메뉴λ₯Ό μ œκ³΅ν•œλ‹€.
- **μ΄ˆκ°€**: κ°•λ‚¨μ˜ 일식당. 일본의 전톡적인 일식 메뉴λ₯Ό μ œκ³΅ν•œλ‹€.
### 5. μœ λŸ½μ‹
- **λ„λ―Έλ‹ˆν¬**: κ°•λ‚¨μ˜ μœ λŸ½μ‹λ‹Ή. λ‹€μ–‘ν•œ μœ λŸ½μ‹ 메뉴λ₯Ό μ œκ³΅ν•œλ‹€.
- **도쿄**: κ°•λ‚¨μ˜ μœ λŸ½μ‹λ‹Ή. 일본의 μœ λŸ½μ‹ μš”λ¦¬ 전문점.
### 6. μ•„μ‹œμ•ˆ
- **μ•„μ‹œμ•ˆ ν•˜μš°μŠ€**: κ°•λ‚¨μ˜ μ•„μ‹œμ•ˆμ‹λ‹Ή. λ‹€μ–‘ν•œ μ•„μ‹œμ•ˆ 메뉴λ₯Ό μ œκ³΅ν•œλ‹€.
- **ν•˜μ™€μ΄μ•ˆ ν•˜μš°μŠ€**: κ°•λ‚¨μ˜ μ•„μ‹œμ•ˆμ‹λ‹Ή. ν•˜μ™€μ΄μ•ˆ μš”λ¦¬ 전문점.
### 7. 기타
- **도쿄도**: κ°•λ‚¨μ˜ 유λͺ…ν•œ 도쿄도. λ‹€μ–‘ν•œ 도쿄도 메뉴λ₯Ό μ œκ³΅ν•œλ‹€.
- **νŒŒνŒŒμ•Ό**: κ°•λ‚¨μ˜ νŒŒνŒŒμ•Ό. λ‹€μ–‘ν•œ νŒŒνŒŒμ•Ό 메뉴λ₯Ό μ œκ³΅ν•œλ‹€.
### 강남 맛집은 μ–΄λ–€ μ’…λ₯˜μ˜ μŒμ‹μ΄ κ°€μž₯ 유λͺ…ν•œμ§€?
강남 맛집은 λ‹€μ–‘ν•œ μ’…λ₯˜μ˜ μŒμ‹μ΄ μžˆμ§€λ§Œ, 주둜 뢄식, ν•œμ‹, 쀑식, 일식, μœ λŸ½μ‹, μ•„μ‹œμ•ˆ 등이 λ§Žλ‹€. κ°€μž₯ 유λͺ…ν•œ 강남 맛집은 '도원'κ³Ό '신세계 ν•œμ •μ‹'이닀. 도원은 κ°•λ‚¨μ˜ 유λͺ…ν•œ ν•œμ‹λ‹ΉμœΌλ‘œ, λ‹€μ–‘ν•œ ν•œμ‹ 메뉴λ₯Ό μ œκ³΅ν•œλ‹€. 신세계 ν•œμ •μ‹μ€ κ°•λ‚¨μ˜ 유λͺ…ν•œ λΆ„μ‹μ μœΌλ‘œ, 유λͺ…ν•œ λ©”λ‰΄λŠ” '신세계'λΌλŠ” μ΄λ¦„μ˜ 메뉴가 유λͺ…ν•˜λ‹€.
### 강남 맛집은 어디에 μžˆλŠ”μ§€?
강남 맛집은 강남ꡬ와 μ†‘νŒŒκ΅¬μ— μœ„μΉ˜ν•œ λ‹€μ–‘ν•œ 식당이닀. κ°€μž₯ 유λͺ…ν•œ 강남 맛집은 강남역 1λ²ˆμΆœκ΅¬μ—μ„œ λ‚˜μ™€ λ°˜λŒ€νŽΈμ— μžˆλŠ” 뢄식점, 도원, 신세계 ν•œμ •μ‹, λ„λ―Έλ‹ˆν¬, 도쿄도, νŒŒνŒŒμ•Ό 등이 μžˆλ‹€.
### 강남 맛집은 κ°€κ²©λŒ€κ°€ μ–΄λ–»κ²Œ λ˜λ‚˜μš”?
강남 λ§›μ§‘μ˜ κ°€κ²©λŒ€λŠ” λ‹€μ–‘ν•˜λ‹€. κ°€μž₯ μ‹Ό κ°€κ²©λŒ€λŠ” 5,000원뢀터 10,000μ›κΉŒμ§€, κ°€μž₯ λΉ„μ‹Ό κ°€κ²©λŒ€λŠ” 20,000원뢀터 50,000μ›κΉŒμ§€μ΄λ‹€. 쀑식, 일식, μœ λŸ½μ‹, μ•„μ‹œμ•ˆ 식당은 κ°€κ²©λŒ€κ°€ 일반적으둜 더 λΉ„μ‹Ό νŽΈμ΄λ‹€. ν•œμ‹κ³Ό 뢄식은 κ°€κ²©λŒ€κ°€ 일반적으둜 더 μ €λ ΄ν•œ νŽΈμ΄λ‹€.
```