SentenceTransformer based on hiieu/halong_embedding

This is a sentence-transformers model finetuned from hiieu/halong_embedding. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: hiieu/halong_embedding
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("MinhViet/halong_embedding_new")
# Run inference
sentences = [
    'iCTSV giúp sinh viên rèn luyện những kỹ năng nào?',
    'Tiêu đề: Sổ tay sinh viên 2022\nMục: TỔ HỖ TRỢ TRIỂN KHAI HỆ THỐNG iCTSV\nNội dung: TỔ HỖ TRỢ TRIỂN KHAI HỆ THỐNG iCTSV:\nLà đơn vị trực thuộc Phòng Công tác Sinh viên, tổ được lập ra với nhiệm vụ hỗ trợ triển khai hệ thống iCTSV trong công tác đánh giá kết quả rèn luyện của sinh viên.\nMục tiêu hướng tới giúp sinh viên hoàn thiện quá trình rèn luyện tại trường với “Kiến thức - Kỹ năng - Thái độ”',
    'Tiêu đề: Cấp giấy tờ cho sinh viên (Giấy giới thiệu, giấy chứng nhận, giấy vay vốn ngân hàng, giấy làm Thẻ xe buýt ...)\nMục: 1. Cách thức đăng ký:\nNội dung: Cấp giấy tờ cho sinh viên (Giấy giới thiệu, giấy chứng nhận, giấy vay vốn ngân hàng, giấy làm Thẻ xe buýt ...)\nCách 1: Sinh viên đăng nhập vào hệ thống\xa0ctt.hust.edu.vn\xa0(tài khoản là địa chỉ email của sinh viên, mật khẩu là mật khẩu của email), sau đó vào mục “DỊCH VỤ” và chọn mục “THỦ TỤC HÀNH CHÍNH” để đăng ký cấp các loại giấy tờ cần thiết. Sau khi đăng ký xong, hệ thống sẽ thông báo qua email (do Trường cấp) cho sinh viên biết lịch nhận kết quả. Sinh viên đăng ký giấy tờ\xa0tại https://sv-ctt.hust.edu.vn/\nCách 2: Sinh viên cũng có thể đăng ký các loại giấy tờ trên bằng ứng dụng\xa0iCTSV\xa0(tải App iCTSV trên Apple App Store hoặc Google Play Store).\nCách 3:\xa0Đăng ký trực tiếp tại Ban CTSV (Phòng 103 nhà C1). Việc đăng ký cấp giấy tờ trực tiếp tại Phòng\xa0chỉ áp dụng giải quyết cho các loại giấy tờ không cung cấp mẫu đăng ký trên hệ thống.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric Value
cosine_accuracy@1 0.4733
cosine_accuracy@3 0.706
cosine_accuracy@5 0.8056
cosine_accuracy@10 0.8948
cosine_precision@1 0.4733
cosine_precision@3 0.2574
cosine_precision@5 0.1823
cosine_precision@10 0.1038
cosine_recall@1 0.4266
cosine_recall@3 0.6717
cosine_recall@5 0.7806
cosine_recall@10 0.8825
cosine_ndcg@10 0.6722
cosine_mrr@10 0.6138
cosine_map@100 0.6032

Training Details

Training Dataset

Unnamed Dataset

  • Size: 11,799 training samples
  • Columns: question, context, negative_4, and negative_5
  • Approximate statistics based on the first 1000 samples:
    question context negative_4 negative_5
    type string string string string
    details
    • min: 7 tokens
    • mean: 19.26 tokens
    • max: 41 tokens
    • min: 39 tokens
    • mean: 136.46 tokens
    • max: 365 tokens
    • min: 44 tokens
    • mean: 143.31 tokens
    • max: 512 tokens
    • min: 39 tokens
    • mean: 141.71 tokens
    • max: 512 tokens
  • Samples:
    question context negative_4 negative_5
    Nền giáo dục Việt Nam lấy chủ nghĩa gì làm nền tảng? Tiêu đề: Luật giáo dục 2019
    Mục: Điều 3. Tính chất, nguyên lý giáo dục
    Nội dung: Tính chất, nguyên lý giáo dục
    1. Nền giáo dục Việt Nam là nền giáo dục xã hội chủ nghĩa có tính nhân dân, dân tộc, khoa học, hiện đại, lấy chủ nghĩa Mác - Lê nin và tư tưởng Hồ Chí Minh làm nền tảng.
    2. Hoạt động giáo dục được thực hiện theo nguyên lý học đi đôi với hành, lý luận gắn liền với thực tiễn, giáo dục nhà trường kết hợp với giáo dục gia đình và giáo dục xã hội.
    Tiêu đề: Luật giáo dục 2019
    Mục: Điều 17. Đầu tư cho giáo dục
    Nội dung: Đầu tư cho giáo dục
    1. Đầu tư cho giáo dục là đầu tư phát triển. Đầu tư trong lĩnh vực giáo dục là hoạt động đầu tư thuộc ngành, nghề đầu tư kinh doanh có điều kiện và được ưu đãi, hỗ trợ đầu tư theo quy định của pháp luật.
    2. Nhà nước ưu tiên đầu tư và thu hút các nguồn đầu tư khác cho giáo dục; ưu tiên đầu tư cho phổ cập giáo dục, phát triển giáo dục ở miền núi, hải đảo, vùng đồng bào dân tộc thiểu số, vùng có điều kiện kinh tế - xã hội đặc biệt khó khăn, địa bàn có khu công nghiệp.
    Nhà nước khuyến khích và bảo hộ các quyền, lợi ích hợp pháp của tổ chức, cá nhân trong nước, người Việt Nam định cư ở nước ngoài, tổ chức, cá nhân nước ngoài đầu tư cho giáo dục.
    3. Ngân sách nhà nước giữ vai trò chủ đạo trong tổng nguồn lực đầu tư cho giáo dục.
    Tiêu đề: ĐẠI HỌC BÁCH KHOA HÀ NỘI - SỨ MẠNG, TẦM NHÌN VÀ GIÁ TRỊ CỐT LÕI
    Mục: Giá trị cốt lõi
    Nội dung: Giá trị cốt lõi của Đại học Bách khoa Hà Nội
    Chất lượng - hiệu quả: Yếu tố cốt lõi làm nên thương hiệu Đại học Bách khoa Hà Nội là chất lượng xuất sắc gắn liền với hiệu quả tối ưu trong mọi hoạt động và trên mọi phương diện.
    Tận tụy - cống hiến: Sự tận tụy và đam mê là chìa khóa cho mọi thành công; sự tận tâm và cống hiến hết mình làm nên giá trị cao quý nhất của các thế hệ cán bộ và sinh viên Trường Đại học Bách khoa Hà Nội.
    Chính trực - tôn trọng: Sự chính trực trong chuyên môn, nghiệp vụ và lối sống, cùng với sự tôn trọng nhân phẩm, tôn trọng luật pháp và quy định, tôn trọng sự đa dạng và khác biệt là những chuẩn mực đạo đức cốt lõi trong môi trường đại học.
    Tài năng cá nhân - trí tuệ tập thể: Mọi thành công đột phá đều bắt nguồn từ sáng tạo và tài năng cá nhân, nhưng chìa khóa đảm bảo thành công bền vững chính là sự đoàn kết và trí tuệ tập thể.
    Kế thừa - sáng tạo: Động lực chính ...
    Nguyên lý giáo dục là gì? Tiêu đề: Luật giáo dục 2019
    Mục: Điều 3. Tính chất, nguyên lý giáo dục
    Nội dung: Tính chất, nguyên lý giáo dục
    1. Nền giáo dục Việt Nam là nền giáo dục xã hội chủ nghĩa có tính nhân dân, dân tộc, khoa học, hiện đại, lấy chủ nghĩa Mác - Lê nin và tư tưởng Hồ Chí Minh làm nền tảng.
    2. Hoạt động giáo dục được thực hiện theo nguyên lý học đi đôi với hành, lý luận gắn liền với thực tiễn, giáo dục nhà trường kết hợp với giáo dục gia đình và giáo dục xã hội.
    Tiêu đề: Quy chế tổ chức và quản lý đào tạo
    Mục: TỔ CHỨC ĐÀO TẠO TRÊN NỀN TẢNG SỐ - Điều 33. Một số thuật ngữ liên quan tới đào tạo trên nền tảng số
    Nội dung: 4. Phương thức dạy-học hỗn hợp (thuật ngữ tiếng Anh là Blended Learning và sau đây gọi tắt là B-Learning) là một phương thức truyền tải nội dung kiến thức đến người học bằng sự kết hợp giữa dạy-học trực tiếp trên lớp và dạy-học trực tuyến. Mục tiêu của phương thức B-Learning là nâng cao chất lượng và hiệu quả học tập của người học nhờ sự linh hoạt và thuận tiện của phương thức giảng dạy trực tuyến, trong khi vẫn duy trì được những ưu điểm của giảng dạy truyền thống trên lớp học.
    Tiêu đề: Luật giáo dục 2019
    Mục: Điều 5. Giải thích từ ngữ
    Nội dung: Giáo dục bắt buộc là giáo dục mà mọi công dân trong độ tuổi quy định bắt buộc phải học tập để đạt được trình độ học vấn tối thiểu theo quy định của pháp luật và được Nhà nước bảo đảm điều kiện để thực hiện.
    Giáo dục nhà trường kết hợp với những loại giáo dục nào? Tiêu đề: Luật giáo dục 2019
    Mục: Điều 3. Tính chất, nguyên lý giáo dục
    Nội dung: Tính chất, nguyên lý giáo dục
    1. Nền giáo dục Việt Nam là nền giáo dục xã hội chủ nghĩa có tính nhân dân, dân tộc, khoa học, hiện đại, lấy chủ nghĩa Mác - Lê nin và tư tưởng Hồ Chí Minh làm nền tảng.
    2. Hoạt động giáo dục được thực hiện theo nguyên lý học đi đôi với hành, lý luận gắn liền với thực tiễn, giáo dục nhà trường kết hợp với giáo dục gia đình và giáo dục xã hội.
    Tiêu đề: Luật sửa đổi, bổ sung một số điều luật giáo dục đại học 2018
    Mục: Điều 4. Giải thích từ ngữ
    Nội dung: Cơ sở giáo dục đại học là cơ sở giáo dục thuộc hệ thống giáo dục quốc dân, thực hiện chức năng đào tạo các trình độ của giáo dục đại học, hoạt động khoa học và công nghệ, phục vụ cộng đồng.
    Tiêu đề: Luật giáo dục 2019
    Mục: Điều 5. Giải thích từ ngữ
    Nội dung: Giáo dục chính quy là giáo dục theo khóa học trong cơ sở giáo dục để thực hiện một chương trình giáo dục nhất định, được thiết lập theo mục tiêu của các cấp học, trình độ đào tạo và được cấp văn bằng của hệ thống giáo dục quốc dân.
  • Loss: CachedMultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "mini_batch_size": 32
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 1024
  • per_device_eval_batch_size: 1024
  • weight_decay: 0.0001
  • num_train_epochs: 10
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 1024
  • per_device_eval_batch_size: 1024
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0001
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 10
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • tp_size: 0
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss evaluation_cosine_ndcg@10
0.3333 4 1.3311 0.6303
0.6667 8 0.9396 0.6429
1.0 12 0.9472 0.6502
1.3333 16 0.7951 0.6615
1.6667 20 0.7683 0.6708
2.0 24 0.7156 0.6683
2.3333 28 0.6307 0.6699
2.6667 32 0.6348 0.6719
3.0 36 0.6313 0.6686
3.3333 40 0.5766 0.6656
3.6667 44 0.5821 0.6704
4.0 48 0.5668 0.6731
4.3333 52 0.5384 0.6719
4.6667 56 0.5257 0.6739
5.0 60 0.492 0.6722
5.3333 64 0.4997 0.6652
5.6667 68 0.5011 0.6654
6.0 72 0.4601 0.6660
6.3333 76 0.4519 0.6670
6.6667 80 0.4516 0.6685
7.0 84 0.4766 0.6704
7.3333 88 0.4459 0.6726
7.6667 92 0.4109 0.6706
8.0 96 0.4239 0.6708
8.3333 100 0.403 0.6718
8.6667 104 0.4148 0.6713
9.0 108 0.4235 0.6714
9.3333 112 0.4505 0.6714
9.6667 116 0.4258 0.6723
10.0 120 0.4007 0.6722

Framework Versions

  • Python: 3.11.11
  • Sentence Transformers: 4.1.0
  • Transformers: 4.51.3
  • PyTorch: 2.5.1+cu124
  • Accelerate: 1.3.0
  • Datasets: 3.6.0
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

CachedMultipleNegativesRankingLoss

@misc{gao2021scaling,
    title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
    author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
    year={2021},
    eprint={2101.06983},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}
Downloads last month
5
Safetensors
Model size
278M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for MinhViet/halong_embedding_new

Finetuned
(17)
this model

Evaluation results