Fixed Speaker Segmentation Model
์ด ๋ชจ๋ธ์ jaeyong2/speaker-segmentation-merge
์์ ํค ๋งคํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ๋ฒ์ ์
๋๋ค.
๋ฌธ์ ํด๊ฒฐ
- ์๋ณธ ๋ชจ๋ธ: ํค์
model.
์ ๋์ฌ ์์ - ํ์ฌ ๋ชจ๋ธ: ํค์
model.
์ ๋์ฌ ์์ - ํด๊ฒฐ: ์ ๋์ฌ ๋งคํ์ผ๋ก 100% ํค ๋งค์นญ ์ฑ๊ณต
์ฌ์ฉ๋ฒ
from diarizers import SegmentationModel
import torch
# ๋ชจ๋ธ ๋ก๋
model = SegmentationModel()
state_dict = torch.load('pytorch_model.bin', map_location='cpu')
model.load_state_dict(state_dict)
# ์ถ๋ก
model.eval()
with torch.no_grad():
# ์ค๋์ค ์
๋ ฅ: (batch_size, audio_length)
audio = torch.randn(1, 16000) # 1์ด ์ค๋์ค ์์
output = model(audio)
print(f"Output shape: {output.shape}")
๋ชจ๋ธ ์์ธ
- ์ด ํ๋ผ๋ฏธํฐ: 54๊ฐ ๋ ์ด์ด
- ์ํคํ ์ฒ: SincNet + LSTM + Linear + Classifier
- ์ ๋ ฅ: ์์ ์ค๋์ค ํํ
- ์ถ๋ ฅ: ํ์ ๋ถํ ๊ฒฐ๊ณผ
์๋ณธ ๋ชจ๋ธ
- Repository: jaeyong2/speaker-segmentation-merge
- ํค ๋งคํ 100% ์๋ฃ
- ๋ชจ๋ ์ฌ์ ํ๋ จ ๊ฐ์ค์น ๋ณด์กด