SentenceTransformer based on hiieu/halong_embedding

This is a sentence-transformers model finetuned from hiieu/halong_embedding. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: hiieu/halong_embedding
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("MinhViet/halong_embedding_90")
# Run inference
sentences = [
    'Phụ huynh muốn hỏi về yêu cầu cần đạt về phẩm chất và năng lực người học trong chương trình giáo dục phổ thông',
    'Tiêu đề: Luật giáo dục 2019 \nMục: Điều 8. Chương trình giáo dục\nNội dung: Chuẩn kiến thức, kỹ năng, yêu cầu cần đạt về phẩm chất và năng lực người học quy định trong chương trình giáo dục phải được cụ thể hóa thành sách giáo khoa đối với giáo dục phổ thông; giáo trình và tài liệu giảng dạy đối với giáo dục nghề nghiệp, giáo dục đại học. Sách giáo khoa, giáo trình và tài liệu giảng dạy phải đáp ứng yêu cầu về phương pháp giáo dục.',
    'Tiêu đề: Luật giáo dục 2019 \nMục: Điều 8. Chương trình giáo dục\nNội dung: Chương trình giáo dục thể hiện mục tiêu giáo dục; quy định chuẩn kiến thức, kỹ năng, yêu cầu cần đạt về phẩm chất và năng lực của người học; phạm vi và cấu trúc nội dung giáo dục; phương pháp và hình thức tổ chức hoạt động giáo dục; cách thức đánh giá kết quả giáo dục đối với các môn học ở mỗi lớp học, mỗi cấp học hoặc các môn học, mô-đun, ngành học đối với từng trình độ đào tạo.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric Value
cosine_accuracy@1 0.385
cosine_accuracy@3 0.617
cosine_accuracy@5 0.7207
cosine_accuracy@10 0.836
cosine_precision@1 0.385
cosine_precision@3 0.251
cosine_precision@5 0.1929
cosine_precision@10 0.1213
cosine_recall@1 0.276
cosine_recall@3 0.502
cosine_recall@5 0.6197
cosine_recall@10 0.7569
cosine_ndcg@10 0.5548
cosine_mrr@10 0.5258
cosine_map@100 0.4778

Training Details

Training Dataset

Unnamed Dataset

  • Size: 17,571 training samples
  • Columns: question, context, negative_4, and negative_5
  • Approximate statistics based on the first 1000 samples:
    question context negative_4 negative_5
    type string string string string
    details
    • min: 7 tokens
    • mean: 18.99 tokens
    • max: 41 tokens
    • min: 39 tokens
    • mean: 128.93 tokens
    • max: 322 tokens
    • min: 39 tokens
    • mean: 136.92 tokens
    • max: 512 tokens
    • min: 44 tokens
    • mean: 138.06 tokens
    • max: 512 tokens
  • Samples:
    question context negative_4 negative_5
    Mục tiêu giáo dục đại học là gì? Tiêu đề: Luật giáo dục 2019
    Mục: Điều 2. Mục tiêu giáo dục
    Nội dung: Mục tiêu giáo dục nhằm phát triển toàn diện con người Việt Nam có đạo đức, tri thức, văn hóa, sức khỏe, thẩm mỹ và nghề nghiệp; có phẩm chất, năng lực và ý thức công dân; có lòng yêu nước, tinh thần dân tộc, trung thành với lý tưởng độc lập dân tộc và chủ nghĩa xã hội; phát huy tiềm năng, khả năng sáng tạo của mỗi cá nhân; nâng cao dân trí, phát triển nguồn nhân lực, bồi dưỡng nhân tài, đáp ứng yêu cầu của sự nghiệp xây dựng, bảo vệ Tổ quốc và hội nhập quốc tế.
    Tiêu đề: Luật sửa đổi, bổ sung một số điều luật giáo dục đại học 2018
    Mục: Điều 7. Cơ sở giáo dục đại học
    Nội dung: 4. Căn cứ vào năng lực và yêu cầu phát triển kinh tế - xã hội, cơ sở giáo dục đại học xác định mục tiêu phát triển, định hướng hoạt động như sau:
    a) Cơ sở giáo dục đại học định hướng nghiên cứu;
    b) Cơ sở giáo dục đại học định hướng ứng dụng.
    Tiêu đề: Luật sửa đổi, bổ sung một số điều luật giáo dục đại học 2018
    Mục: Điều 7. Cơ sở giáo dục đại học
    Nội dung: 1. Cơ sở giáo dục đại học có tư cách pháp nhân, bao gồm đại học, trường đại học và cơ sở giáo dục đại học có tên gọi khác phù hợp với quy định của pháp luật
    Đại học quốc gia, đại học vùng là đại học thực hiện nhiệm vụ chiến lược quốc gia, nhiệm vụ phát triển vùng của đất nước.
    Em muốn biết về phát triển toàn diện con người Việt Nam trong giáo dục như thế nào? Tiêu đề: Luật giáo dục 2019
    Mục: Điều 2. Mục tiêu giáo dục
    Nội dung: Mục tiêu giáo dục nhằm phát triển toàn diện con người Việt Nam có đạo đức, tri thức, văn hóa, sức khỏe, thẩm mỹ và nghề nghiệp; có phẩm chất, năng lực và ý thức công dân; có lòng yêu nước, tinh thần dân tộc, trung thành với lý tưởng độc lập dân tộc và chủ nghĩa xã hội; phát huy tiềm năng, khả năng sáng tạo của mỗi cá nhân; nâng cao dân trí, phát triển nguồn nhân lực, bồi dưỡng nhân tài, đáp ứng yêu cầu của sự nghiệp xây dựng, bảo vệ Tổ quốc và hội nhập quốc tế.
    Tiêu đề: Luật giáo dục 2019
    Mục: Điều 3. Tính chất, nguyên lý giáo dục
    Nội dung: Tính chất, nguyên lý giáo dục
    1. Nền giáo dục Việt Nam là nền giáo dục xã hội chủ nghĩa có tính nhân dân, dân tộc, khoa học, hiện đại, lấy chủ nghĩa Mác - Lê nin và tư tưởng Hồ Chí Minh làm nền tảng.
    2. Hoạt động giáo dục được thực hiện theo nguyên lý học đi đôi với hành, lý luận gắn liền với thực tiễn, giáo dục nhà trường kết hợp với giáo dục gia đình và giáo dục xã hội.
    Tiêu đề: Luật giáo dục 2019
    Mục: Điều 17. Đầu tư cho giáo dục
    Nội dung: Đầu tư cho giáo dục
    1. Đầu tư cho giáo dục là đầu tư phát triển. Đầu tư trong lĩnh vực giáo dục là hoạt động đầu tư thuộc ngành, nghề đầu tư kinh doanh có điều kiện và được ưu đãi, hỗ trợ đầu tư theo quy định của pháp luật.
    2. Nhà nước ưu tiên đầu tư và thu hút các nguồn đầu tư khác cho giáo dục; ưu tiên đầu tư cho phổ cập giáo dục, phát triển giáo dục ở miền núi, hải đảo, vùng đồng bào dân tộc thiểu số, vùng có điều kiện kinh tế - xã hội đặc biệt khó khăn, địa bàn có khu công nghiệp.
    Nhà nước khuyến khích và bảo hộ các quyền, lợi ích hợp pháp của tổ chức, cá nhân trong nước, người Việt Nam định cư ở nước ngoài, tổ chức, cá nhân nước ngoài đầu tư cho giáo dục.
    3. Ngân sách nhà nước giữ vai trò chủ đạo trong tổng nguồn lực đầu tư cho giáo dục.
    Em cần biết về tầm quan trọng của lòng yêu nước, tinh thần dân tộc trong giáo dục Tiêu đề: Luật giáo dục 2019
    Mục: Điều 2. Mục tiêu giáo dục
    Nội dung: Mục tiêu giáo dục nhằm phát triển toàn diện con người Việt Nam có đạo đức, tri thức, văn hóa, sức khỏe, thẩm mỹ và nghề nghiệp; có phẩm chất, năng lực và ý thức công dân; có lòng yêu nước, tinh thần dân tộc, trung thành với lý tưởng độc lập dân tộc và chủ nghĩa xã hội; phát huy tiềm năng, khả năng sáng tạo của mỗi cá nhân; nâng cao dân trí, phát triển nguồn nhân lực, bồi dưỡng nhân tài, đáp ứng yêu cầu của sự nghiệp xây dựng, bảo vệ Tổ quốc và hội nhập quốc tế.
    Tiêu đề: Sổ tay sinh viên 2022
    Mục: Bộ quy tắc ứng xử văn hoá
    Nội dung: ỨNG XỬ ĐỐI VỚI BẠN BÈ & MÔI TRƯỜNG
    1. Đoàn kết giúp đỡ nhau trong học tập và rèn luyện.
    2. Biết lắng nghe, tôn trọng sự khác biệt về quan điểm, lối sống của nhau. Lời nói, hành vi, cử chỉ phải có văn hóa. Không gây gổ, xích mích, làm tổn thương đến tinh thần, xâm phạm thân thể lẫn nhau.
    3. Không sử dụng mạng internet, mạng xã hội, ...để nói xấu, tuyên truyền nhằm bôi nhọ, kích động hận thù đối với người khác. Giữ gìn mối quan hệ bình đẳng, trong sáng với bạn bè khác giới.
    4. Có ý thức giữ gìn vệ sinh, cảnh quan môi trường và các không gian học tập,bảo vệ cơ sở vật chất của Nhà trường ... không được giẫm chân lên tường, ghế đá, bàn, ghế. Bỏ rác vào đúng nơi quy định.
    5. Tham gia các hoạt động bảo vệ môi trường, sử dụng an toàn và tiết kiệm điện, nước, trang thiết bị của Nhà trường. Có ý thức bảo vệ các công trình văn hóa, các di tích lịch sử ở địa phương.
    6. Không được treo, dán áp phích, băng rôn, biểu ngữ khi chưa...
    Tiêu đề: Sổ tay sinh viên 2022
    Mục: ĐIỂM RÈN LUYỆN SINH VIÊN
    Nội dung: CÁC MẶT ĐÁNH GIÁ ĐIỂM RÈN LUYỆN SINH VIÊN:
    Ý thức, thái độ học tập và nghiên cứu khoa học
    Phẩm chất công dân, trách nhiệm và quan hệ với cộng đồng
    Kết quả hoặc các thành tích đặc biệt trong học tập, rèn luyện của sinh viên
    Ý thức và kết quả chấp hành nội quy, quy chế trong Nhà trường
    Ý thức và kết quả tham gia các hoạt động chính trị, xã hội, văn hoá, văn nghệ, thể thao, khoa học, hướng nghiệp, phòng chống tệ nạn của lớp, các đoàn thể, tổ chức khác trong và ngoài Nhà Trường
  • Loss: CachedMultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "mini_batch_size": 32
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 1024
  • per_device_eval_batch_size: 1024
  • weight_decay: 0.0001
  • num_train_epochs: 5
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 1024
  • per_device_eval_batch_size: 1024
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0001
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 5
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • tp_size: 0
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss evaluation_cosine_ndcg@10
0.2222 4 1.5488 0.5064
0.4444 8 1.195 0.5327
0.6667 12 1.0907 0.5451
0.8889 16 1.0256 0.5583
1.1111 20 0.9215 0.5584
1.3333 24 0.9129 0.5596
1.5556 28 0.8798 0.5587
1.7778 32 0.8194 0.5577
2.0 36 0.7745 0.5556
2.2222 40 0.7281 0.5593
2.4444 44 0.7079 0.5602
2.6667 48 0.7308 0.5633
2.8889 52 0.6881 0.5587
3.1111 56 0.7093 0.5530
3.3333 60 0.6957 0.5554
3.5556 64 0.6616 0.5590
3.7778 68 0.646 0.5616
4.0 72 0.6726 0.5603
4.2222 76 0.6494 0.5578
4.4444 80 0.6248 0.5560
4.6667 84 0.6063 0.5548
4.8889 88 0.635 0.5548

Framework Versions

  • Python: 3.11.11
  • Sentence Transformers: 4.1.0
  • Transformers: 4.51.3
  • PyTorch: 2.5.1+cu124
  • Accelerate: 1.3.0
  • Datasets: 3.5.0
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

CachedMultipleNegativesRankingLoss

@misc{gao2021scaling,
    title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
    author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
    year={2021},
    eprint={2101.06983},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}
Downloads last month
2
Safetensors
Model size
278M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for MinhViet/halong_embedding_90

Finetuned
(17)
this model

Evaluation results