SentenceTransformer based on vinai/phobert-base-v2

This is a sentence-transformers model finetuned from vinai/phobert-base-v2 on the vietnamese-ecommerce-alpaca dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: RobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("iambestfeed/phobert-base-v2-Vietnamese-Ecommerce-Alpaca-raw_data_wseg-lr2e-05-1-epochs-bs-48")
# Run inference
sentences = [
    'Mô_tả cách_thức hoạt_động của thực_phẩm khô trong một_vài câu .',
    'Thực_phẩm khô là loại thực_phẩm đã được loại_bỏ phần_lớn độ_ẩm , giúp bảo_quản được lâu hơn mà không bị hư_hỏng . Chúng thường được chế_biến bằng cách sấy khô , đóng_hộp , đóng_gói chân_không hoặc đông_lạnh . Thực_phẩm khô có_thể bao_gồm các loại ngũ_cốc , đậu , hạt , trái_cây khô , rau củ sấy khô và các loại thực_phẩm chế_biến khác . Chúng thường được sử_dụng trong các bữa ăn nhẹ , nấu_ăn và làm bánh .',
    'Dịch COVID - 19 đã có tác_động đáng_kể đến thị_trường nước xả vải toàn_cầu . Đầu năm 2020 , khi dịch COVID - 19 lần đầu_tiên lan rộng trên toàn thế_giới , nhu_cầu về nước xả vải giảm mạnh do nhiều người tiêu_dùng ở nhà nhiều hơn và giặt_giũ ít hơn . Điều này dẫn đến sự sụt_giảm doanh_số bán hàng của các công_ty sản_xuất nước xả vải . Khi dịch COVID - 19 tiếp_tục và tác_động_kinh_tế ngày_càng rõ_rệt , nhiều người tiêu_dùng phải thắt chặt chi_tiêu , dẫn đến nhu_cầu về nước xả vải cao_cấp giảm . Tuy_nhiên , nhu_cầu về nước xả vải giá rẻ lại tăng lên do nhiều người tiêu_dùng tìm cách tiết_kiệm tiền . Các công_ty sản_xuất nước xả vải đã phải điều_chỉnh chiến_lược kinh_doanh của mình để thích_ứng với tình_hình mới . Nhiều công_ty đã tăng_cường quảng_cáo và khuyến_mãi để thu_hút người tiêu_dùng . Một_số công_ty cũng đã phát_triển các sản_phẩm mới đáp_ứng nhu_cầu của người tiêu_dùng trong thời_kỳ đại_dịch . Tác_động_kinh_tế đầy_đủ của dịch COVID - 19 đối_với thị_trường nước xả vải toàn_cầu vẫn còn chờ xem , nhưng có khả_năng chúng_ta sẽ thấy sự phục_hồi khi thế_giới dần thoát khỏi đại_dịch .',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Dataset

vietnamese-ecommerce-alpaca

  • Dataset: vietnamese-ecommerce-alpaca at 1f7a960
  • Size: 69,292 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 8 tokens
    • mean: 22.68 tokens
    • max: 147 tokens
    • min: 18 tokens
    • mean: 144.01 tokens
    • max: 256 tokens
  • Samples:
    anchor positive
    Sử_dụng cánh_tay robot để nhặt một nồi điện cụ_thể và di_chuyển nó đến một vị_trí cụ_thể . Nồi điện đó là nồi cơm_điện màu đỏ , vị_trí là tủ bếp gần đó . Được thôi ! Đầu_tiên , cánh_tay robot sẽ thu_thập thông_tin về tọa_độ của vị_trí hiện_tại của nồi cơm_điện màu đỏ và tủ bếp gần đó . Khi thông_tin đã được nhập , cánh_tay robot sẽ xoay về phía nồi cơm_điện , kéo_dài cánh_tay để chạm đến nồi và đóng chốt xung_quanh để giữ nó chắc_chắn . Sau đó , cánh_tay robot sẽ được kéo_lại trong khi vẫn giữ chắc nồi cơm_điện và cuối_cùng xoay về phía tủ bếp gần đó . Cánh_tay robot sẽ được hạ xuống để đặt nồi cơm_điện vào tủ bếp và chốt được thả ra để bỏ nồi cơm_điện đi . Sau đó , cánh_tay robot sẽ thu lại vị_trí ban_đầu .
    Nói cho tôi biết tại_sao nên sử_dụng túi giặt . Sử_dụng túi giặt có_thể mang lại một_số lợi_ích , bao_gồm :

    - Bảo_vệ quần_áo : Túi giặt có_thể giúp bảo_vệ quần_áo khỏi bị hư_hỏng trong quá_trình giặt , đặc_biệt là đối_với quần_áo mỏng_manh hoặc dễ bị rách .

    - Giúp giặt sạch hơn : Túi giặt có_thể giúp quần_áo được giặt sạch hơn bằng cách tạo ra chuyển_động tốt hơn trong máy_giặt và giúp chất tẩy_rửa tiếp_xúc với quần_áo tốt hơn .

    - Giảm xoắn rối : Túi giặt có_thể giúp giảm xoắn rối quần_áo trong quá_trình giặt , giúp quần_áo dễ ủi hơn và trông đẹp hơn .

    - Tiết_kiệm thời_gian : Túi giặt có_thể giúp tiết_kiệm thời_gian bằng cách giảm thời_gian ủi quần_áo và giúp quần_áo khô nhanh hơn .

    - Giảm tiếng ồn : Túi giặt có_thể giúp giảm tiếng ồn từ máy_giặt , đặc_biệt là đối_với máy_giặt cũ hoặc bị hỏng .
    Cách tốt nhất để tối_đa hoá kết_quả khi sử_dụng váy chống nắng là gì ? Để đạt được hiệu_quả tối_đa khi sử_dụng váy chống nắng , bạn có_thể tham_khảo những cách sau đây :

    * * * Chọn loại váy chống nắng phù_hợp với nhu_cầu và sở_thích của bạn : * * Hãy cân_nhắc các yếu_tố như chất_liệu , kiểu_dáng , màu_sắc và các tính_năng đặc_biệt khi lựa_chọn váy chống nắng . Đảm_bảo rằng chiếc váy bạn chọn thoải_mái khi mặc , phù_hợp với vóc_dáng và phong_cách của bạn .

    * * * Kiểm_tra chất_lượng của váy chống nắng : * * Hãy kiểm_tra chất_liệu vải , đường may và các chi_tiết khác của váy chống nắng để đảm_bảo rằng sản_phẩm có chất_lượng tốt và bền_bỉ .

    * * * Mặc váy chống nắng đúng cách : * * Mặc váy chống nắng đúng cách sẽ giúp bạn đạt được hiệu_quả chống nắng tối_ưu . Đảm_bảo rằng váy được mặc vừa_vặn , không quá chật hoặc quá rộng , và che_phủ toàn_bộ các vùng da cần bảo_vệ .

    * * * Giặt và bảo_quản váy chống nắng đúng cách : * * Giặt váy chống nắng theo hướng_dẫn của nhà sản_xuất để đảm_bảo rằng chất_liệu vải và các tính_năng chống nắng của váy được du...
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 48
  • learning_rate: 2e-05
  • num_train_epochs: 1
  • warmup_ratio: 0.1
  • save_safetensors: False
  • fp16: True
  • push_to_hub: True
  • hub_model_id: iambestfeed/phobert-base-v2-Vietnamese-Ecommerce-Alpaca-raw_data_wseg-lr2e-05-1-epochs-bs-48
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 48
  • per_device_eval_batch_size: 8
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: False
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: True
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: True
  • resume_from_checkpoint: None
  • hub_model_id: iambestfeed/phobert-base-v2-Vietnamese-Ecommerce-Alpaca-raw_data_wseg-lr2e-05-1-epochs-bs-48
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss
0.0139 10 2.1773
0.0277 20 1.7934
0.0416 30 0.9058
0.0555 40 0.3905
0.0693 50 0.1947
0.0832 60 0.1825
0.0971 70 0.1067
0.1110 80 0.1102
0.1248 90 0.0861
0.1387 100 0.0898
0.1526 110 0.0768
0.1664 120 0.0581
0.1803 130 0.0445
0.1942 140 0.0568
0.2080 150 0.0768
0.2219 160 0.054
0.2358 170 0.0451
0.2497 180 0.0585
0.2635 190 0.0316
0.2774 200 0.0421
0.2913 210 0.0416
0.3051 220 0.0416
0.3190 230 0.0412
0.3329 240 0.0521
0.3467 250 0.0738
0.3606 260 0.0247
0.3745 270 0.0353
0.3883 280 0.0469
0.4022 290 0.0449
0.4161 300 0.0301
0.4300 310 0.0425
0.4438 320 0.023
0.4577 330 0.0544
0.4716 340 0.0443
0.4854 350 0.028
0.4993 360 0.0409
0.5132 370 0.0456
0.5270 380 0.039
0.5409 390 0.0451
0.5548 400 0.0482
0.5687 410 0.0213
0.5825 420 0.0242
0.5964 430 0.0248
0.6103 440 0.0298
0.6241 450 0.0179
0.6380 460 0.0459
0.6519 470 0.0294
0.6657 480 0.0377
0.6796 490 0.0292
0.6935 500 0.0181
0.7074 510 0.0436
0.7212 520 0.0265
0.7351 530 0.0324
0.7490 540 0.0286
0.7628 550 0.0279
0.7767 560 0.0219
0.7906 570 0.0365
0.8044 580 0.0257
0.8183 590 0.0206
0.8322 600 0.025
0.8460 610 0.0404
0.8599 620 0.0405
0.8738 630 0.0281
0.8877 640 0.0236
0.9015 650 0.0278
0.9154 660 0.0242
0.9293 670 0.0296
0.9431 680 0.0249
0.9570 690 0.0322
0.9709 700 0.0206
0.9847 710 0.0212
0.9986 720 0.0204

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 3.3.1
  • Transformers: 4.47.0
  • PyTorch: 2.5.1+cu121
  • Accelerate: 1.2.1
  • Datasets: 3.3.1
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
4
Safetensors
Model size
135M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for iambestfeed/phobert-base-v2-Vietnamese-Ecommerce-Alpaca-raw_data_wseg-lr2e-05-1-epochs-bs-48

Finetuned
(221)
this model
Finetunes
1 model