SentenceTransformer based on vinai/phobert-base-v2

This is a sentence-transformers model finetuned from vinai/phobert-base-v2 on the vietnamese-ecommerce-alpaca dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Type: Sentence Transformer
Base model: vinai/phobert-base-v2
Maximum Sequence Length: 256 tokens
Output Dimensionality: 768 dimensions
Similarity Function: Cosine Similarity
Training Dataset:
- vietnamese-ecommerce-alpaca

Model Sources

Documentation: Sentence Transformers Documentation
Repository: Sentence Transformers on GitHub
Hugging Face: Sentence Transformers on Hugging Face

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: RobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("iambestfeed/phobert-base-v2-Vietnamese-Ecommerce-Alpaca-raw_data_wseg-lr2e-05-1-epochs-bs-48")
# Run inference
sentences = [
    'Mô_tả cách_thức hoạt_động của thực_phẩm khô trong một_vài câu .',
    'Thực_phẩm khô là loại thực_phẩm đã được loại_bỏ phần_lớn độ_ẩm , giúp bảo_quản được lâu hơn mà không bị hư_hỏng . Chúng thường được chế_biến bằng cách sấy khô , đóng_hộp , đóng_gói chân_không hoặc đông_lạnh . Thực_phẩm khô có_thể bao_gồm các loại ngũ_cốc , đậu , hạt , trái_cây khô , rau củ sấy khô và các loại thực_phẩm chế_biến khác . Chúng thường được sử_dụng trong các bữa ăn nhẹ , nấu_ăn và làm bánh .',
    'Dịch COVID - 19 đã có tác_động đáng_kể đến thị_trường nước xả vải toàn_cầu . Đầu năm 2020 , khi dịch COVID - 19 lần đầu_tiên lan rộng trên toàn thế_giới , nhu_cầu về nước xả vải giảm mạnh do nhiều người tiêu_dùng ở nhà nhiều hơn và giặt_giũ ít hơn . Điều này dẫn đến sự sụt_giảm doanh_số bán hàng của các công_ty sản_xuất nước xả vải . Khi dịch COVID - 19 tiếp_tục và tác_động_kinh_tế ngày_càng rõ_rệt , nhiều người tiêu_dùng phải thắt chặt chi_tiêu , dẫn đến nhu_cầu về nước xả vải cao_cấp giảm . Tuy_nhiên , nhu_cầu về nước xả vải giá rẻ lại tăng lên do nhiều người tiêu_dùng tìm cách tiết_kiệm tiền . Các công_ty sản_xuất nước xả vải đã phải điều_chỉnh chiến_lược kinh_doanh của mình để thích_ứng với tình_hình mới . Nhiều công_ty đã tăng_cường quảng_cáo và khuyến_mãi để thu_hút người tiêu_dùng . Một_số công_ty cũng đã phát_triển các sản_phẩm mới đáp_ứng nhu_cầu của người tiêu_dùng trong thời_kỳ đại_dịch . Tác_động_kinh_tế đầy_đủ của dịch COVID - 19 đối_với thị_trường nước xả vải toàn_cầu vẫn còn chờ xem , nhưng có khả_năng chúng_ta sẽ thấy sự phục_hồi khi thế_giới dần thoát khỏi đại_dịch .',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Dataset

vietnamese-ecommerce-alpaca

Dataset: vietnamese-ecommerce-alpaca at 1f7a960
Size: 69,292 training samples
Columns: anchor and positive
Approximate statistics based on the first 1000 samples:
anchor positive
type string string
details
min: 8 tokens
mean: 22.68 tokens
max: 147 tokens

min: 18 tokens
mean: 144.01 tokens
max: 256 tokens

	anchor	positive
type	string	string
details	min: 8 tokens mean: 22.68 tokens max: 147 tokens	min: 18 tokens mean: 144.01 tokens max: 256 tokens

Samples:

anchor	positive
`Sử_dụng cánh_tay robot để nhặt một nồi điện cụ_thể và di_chuyển nó đến một vị_trí cụ_thể . Nồi điện đó là nồi cơm_điện màu đỏ , vị_trí là tủ bếp gần đó .`	Được thôi ! Đầu_tiên , cánh_tay robot sẽ thu_thập thông_tin về tọa_độ của vị_trí hiện_tại của nồi cơm_điện màu đỏ và tủ bếp gần đó . Khi thông_tin đã được nhập , cánh_tay robot sẽ xoay về phía nồi cơm_điện , kéo_dài cánh_tay để chạm đến nồi và đóng chốt xung_quanh để giữ nó chắc_chắn . Sau đó , cánh_tay robot sẽ được kéo_lại trong khi vẫn giữ chắc nồi cơm_điện và cuối_cùng xoay về phía tủ bếp gần đó . Cánh_tay robot sẽ được hạ xuống để đặt nồi cơm_điện vào tủ bếp và chốt được thả ra để bỏ nồi cơm_điện đi . Sau đó , cánh_tay robot sẽ thu lại vị_trí ban_đầu .
`Nói cho tôi biết tại_sao nên sử_dụng túi giặt .`	Sử_dụng túi giặt có_thể mang lại một_số lợi_ích , bao_gồm : - Bảo_vệ quần_áo : Túi giặt có_thể giúp bảo_vệ quần_áo khỏi bị hư_hỏng trong quá_trình giặt , đặc_biệt là đối_với quần_áo mỏng_manh hoặc dễ bị rách . - Giúp giặt sạch hơn : Túi giặt có_thể giúp quần_áo được giặt sạch hơn bằng cách tạo ra chuyển_động tốt hơn trong máy_giặt và giúp chất tẩy_rửa tiếp_xúc với quần_áo tốt hơn . - Giảm xoắn rối : Túi giặt có_thể giúp giảm xoắn rối quần_áo trong quá_trình giặt , giúp quần_áo dễ ủi hơn và trông đẹp hơn . - Tiết_kiệm thời_gian : Túi giặt có_thể giúp tiết_kiệm thời_gian bằng cách giảm thời_gian ủi quần_áo và giúp quần_áo khô nhanh hơn . - Giảm tiếng ồn : Túi giặt có_thể giúp giảm tiếng ồn từ máy_giặt , đặc_biệt là đối_với máy_giặt cũ hoặc bị hỏng .
`Cách tốt nhất để tối_đa hoá kết_quả khi sử_dụng váy chống nắng là gì ?`	Để đạt được hiệu_quả tối_đa khi sử_dụng váy chống nắng , bạn có_thể tham_khảo những cách sau đây : * * * Chọn loại váy chống nắng phù_hợp với nhu_cầu và sở_thích của bạn : * * Hãy cân_nhắc các yếu_tố như chất_liệu , kiểu_dáng , màu_sắc và các tính_năng đặc_biệt khi lựa_chọn váy chống nắng . Đảm_bảo rằng chiếc váy bạn chọn thoải_mái khi mặc , phù_hợp với vóc_dáng và phong_cách của bạn . * * * Kiểm_tra chất_lượng của váy chống nắng : * * Hãy kiểm_tra chất_liệu vải , đường may và các chi_tiết khác của váy chống nắng để đảm_bảo rằng sản_phẩm có chất_lượng tốt và bền_bỉ . * * * Mặc váy chống nắng đúng cách : * * Mặc váy chống nắng đúng cách sẽ giúp bạn đạt được hiệu_quả chống nắng tối_ưu . Đảm_bảo rằng váy được mặc vừa_vặn , không quá chật hoặc quá rộng , và che_phủ toàn_bộ các vùng da cần bảo_vệ . * * * Giặt và bảo_quản váy chống nắng đúng cách : * * Giặt váy chống nắng theo hướng_dẫn của nhà sản_xuất để đảm_bảo rằng chất_liệu vải và các tính_năng chống nắng của váy được du...

Loss: MultipleNegativesRankingLoss with these parameters:

{
    "scale": 20.0,
    "similarity_fct": "cos_sim"
}

Training Hyperparameters

Non-Default Hyperparameters

per_device_train_batch_size: 48
learning_rate: 2e-05
num_train_epochs: 1
warmup_ratio: 0.1
save_safetensors: False
fp16: True
push_to_hub: True
hub_model_id: iambestfeed/phobert-base-v2-Vietnamese-Ecommerce-Alpaca-raw_data_wseg-lr2e-05-1-epochs-bs-48
batch_sampler: no_duplicates

All Hyperparameters

Click to expand

overwrite_output_dir: False
do_predict: False
eval_strategy: no
prediction_loss_only: True
per_device_train_batch_size: 48
per_device_eval_batch_size: 8
per_gpu_train_batch_size: None
per_gpu_eval_batch_size: None
gradient_accumulation_steps: 1
eval_accumulation_steps: None
torch_empty_cache_steps: None
learning_rate: 2e-05
weight_decay: 0.0
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
max_grad_norm: 1.0
num_train_epochs: 1
max_steps: -1
lr_scheduler_type: linear
lr_scheduler_kwargs: {}
warmup_ratio: 0.1
warmup_steps: 0
log_level: passive
log_level_replica: warning
log_on_each_node: True
logging_nan_inf_filter: True
save_safetensors: False
save_on_each_node: False
save_only_model: False
restore_callback_states_from_checkpoint: False
no_cuda: False
use_cpu: False
use_mps_device: False
seed: 42
data_seed: None
jit_mode_eval: False
use_ipex: False
bf16: False
fp16: True
fp16_opt_level: O1
half_precision_backend: auto
bf16_full_eval: False
fp16_full_eval: False
tf32: None
local_rank: 0
ddp_backend: None
tpu_num_cores: None
tpu_metrics_debug: False
debug: []
dataloader_drop_last: True
dataloader_num_workers: 0
dataloader_prefetch_factor: None
past_index: -1
disable_tqdm: False
remove_unused_columns: True
label_names: None
load_best_model_at_end: False
ignore_data_skip: False
fsdp: []
fsdp_min_num_params: 0
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
fsdp_transformer_layer_cls_to_wrap: None
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
deepspeed: None
label_smoothing_factor: 0.0
optim: adamw_torch
optim_args: None
adafactor: False
group_by_length: False
length_column_name: length
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
dataloader_pin_memory: True
dataloader_persistent_workers: False
skip_memory_metrics: True
use_legacy_prediction_loop: False
push_to_hub: True
resume_from_checkpoint: None
hub_model_id: iambestfeed/phobert-base-v2-Vietnamese-Ecommerce-Alpaca-raw_data_wseg-lr2e-05-1-epochs-bs-48
hub_strategy: every_save
hub_private_repo: None
hub_always_push: False
gradient_checkpointing: False
gradient_checkpointing_kwargs: None
include_inputs_for_metrics: False
include_for_metrics: []
eval_do_concat_batches: True
fp16_backend: auto
push_to_hub_model_id: None
push_to_hub_organization: None
mp_parameters:
auto_find_batch_size: False
full_determinism: False
torchdynamo: None
ray_scope: last
ddp_timeout: 1800
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
dispatch_batches: None
split_batches: None
include_tokens_per_second: False
include_num_input_tokens_seen: False
neftune_noise_alpha: None
optim_target_modules: None
batch_eval_metrics: False
eval_on_start: False
use_liger_kernel: False
eval_use_gather_object: False
average_tokens_across_devices: False
prompts: None
batch_sampler: no_duplicates
multi_dataset_batch_sampler: proportional

Training Logs

Epoch	Step	Training Loss
0.0139	10	2.1773
0.0277	20	1.7934
0.0416	30	0.9058
0.0555	40	0.3905
0.0693	50	0.1947
0.0832	60	0.1825
0.0971	70	0.1067
0.1110	80	0.1102
0.1248	90	0.0861
0.1387	100	0.0898
0.1526	110	0.0768
0.1664	120	0.0581
0.1803	130	0.0445
0.1942	140	0.0568
0.2080	150	0.0768
0.2219	160	0.054
0.2358	170	0.0451
0.2497	180	0.0585
0.2635	190	0.0316
0.2774	200	0.0421
0.2913	210	0.0416
0.3051	220	0.0416
0.3190	230	0.0412
0.3329	240	0.0521
0.3467	250	0.0738
0.3606	260	0.0247
0.3745	270	0.0353
0.3883	280	0.0469
0.4022	290	0.0449
0.4161	300	0.0301
0.4300	310	0.0425
0.4438	320	0.023
0.4577	330	0.0544
0.4716	340	0.0443
0.4854	350	0.028
0.4993	360	0.0409
0.5132	370	0.0456
0.5270	380	0.039
0.5409	390	0.0451
0.5548	400	0.0482
0.5687	410	0.0213
0.5825	420	0.0242
0.5964	430	0.0248
0.6103	440	0.0298
0.6241	450	0.0179
0.6380	460	0.0459
0.6519	470	0.0294
0.6657	480	0.0377
0.6796	490	0.0292
0.6935	500	0.0181
0.7074	510	0.0436
0.7212	520	0.0265
0.7351	530	0.0324
0.7490	540	0.0286
0.7628	550	0.0279
0.7767	560	0.0219
0.7906	570	0.0365
0.8044	580	0.0257
0.8183	590	0.0206
0.8322	600	0.025
0.8460	610	0.0404
0.8599	620	0.0405
0.8738	630	0.0281
0.8877	640	0.0236
0.9015	650	0.0278
0.9154	660	0.0242
0.9293	670	0.0296
0.9431	680	0.0249
0.9570	690	0.0322
0.9709	700	0.0206
0.9847	710	0.0212
0.9986	720	0.0204

Framework Versions

Python: 3.10.12
Sentence Transformers: 3.3.1
Transformers: 4.47.0
PyTorch: 2.5.1+cu121
Accelerate: 1.2.1
Datasets: 3.3.1
Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

iambestfeed
/

phobert-base-v2-Vietnamese-Ecommerce-Alpaca-raw_data_wseg-lr2e-05-1-epochs-bs-48