You need to agree to share your contact information to access this model

This repository is publicly accessible, but you have to accept the conditions to access its files and content.

Log in or Sign Up to review the conditions and access this model content.

SentenceTransformer based on hiieu/halong_embedding

This is a sentence-transformers model finetuned from hiieu/halong_embedding on the law_data_finetune dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: hiieu/halong_embedding
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity
  • Training Dataset:

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("test_finetune_law_5_matryoshkaloss")
# Run inference
sentences = [
    'Quy định pháp luật nào xử lý vi phạm đối với việc không thực hiện 38 thủ tục hành chính lĩnh vực tôn giáo trực tuyến toàn trình ở Tuyên Quang?',
    'Quyết định 1067/QĐ-UBND năm 2024 công bố danh mục 38 thủ tục hành chính đủ điều kiện thực hiện dịch vụ công trực tuyến toàn trình lĩnh vực tín ngưỡng, tôn giáo thuộc phạm vi quản lý nhà nước của Sở Nội vụ tỉnh Tuyên Quang\nĐiều 4. Chánh Văn phòng Ủy ban nhân dân tỉnh; Giám đốc các Sở, Thủ trưởng Ban, Ngành; Chủ tịch Ủy ban nhân dân huyện, thành phố; Chủ tịch Ủy ban nhân dân xã, phường, thị trấn và các cơ quan, tổ chức, cá nhân có liên quan chịu trách nhiệm thi hành Quyết định này',
    'Quyết định 2612/QĐ-BGTVT năm 2009 về việc thành lập Tổ Biên tập Dự thảo Nghị định của Chính phủ về xử phạt vi phạm hành chính trong lĩnh vực hàng không dân dụng do Bộ trưởng Bộ Giao thông vận tải ban hành\nĐiều 1. Thành lập Tổ Biên tập Dự thảo Nghị định của Chính phủ về xử phạt vi phạm hành chính trong lĩnh vực hàng không dân dụng gồm các ông (bà) như sau:\n1. Ông Nguyễn Văn Thuấn, Vụ trưởng Vụ An toàn giao thông, Bộ Giao thông vận tải – Tổ trưởng Tổ Biên tập;\n2. Ông Lại Xuân Thanh – Phó Cục trưởng Cục Hàng không Việt Nam – Phó Tổ trưởng Tổ Biên tập;\n3. Thượng tá Đỗ Văn Cương, Phó trưởng phòng Vụ Pháp chế, Bộ Công an – Tổ viên;\n4. Ông Nguyễn Trọng Thắng, Chánh Thanh tra Cục Hàng không Việt Nam – Tổ viên;\n5. Ông Trần Văn Trường, Trưởng phòng thanh tra 3, Bộ Giao thông vận tải – Tổ viên\n6. Ông Nguyễn Hồng Hà, Chuyên viên chính Vụ Kinh tế ngành, Văn phòng Chính phủ - Tổ viên;\n7. Bà Trương Phương Lan, Chuyên viên Vụ Pháp luật hình sự - hành chính, Bộ Tư pháp – Tổ viên;\n8. Ông Nguyễn Anh Văn, Cán bộ Vụ Pháp chế, Bộ Quốc phòng – Tổ viên;\n9. Bà Nguyễn Thị Hồng Quyên, Chuyên viên Vụ Luật Pháp và Điều ước quốc tế - Tổ viên;\n10. Bà Trịnh Thị Hằng Nga, Chuyên viên Vụ Pháp chế, Bộ Giao thông vận tải – Tổ viên;\n11. Ông Tạ Văn Thanh, Chuyên viên Vụ Vận tải, Bộ Giao thông vận tải – Tổ viên;\n12. Ông Nguyễn Văn Thuân, Chuyên viên Vụ An toàn giao thông, Bộ Giao thông vận tải – Tổ viên kiêm thư ký;\n13. Ông Đinh Văn Cung, Thanh tra viên Cục Hàng không Việt Nam – Tổ viên kiêm thư ký;\n14. Bà Nguyễn Thu Hằng, Chuyên viên Vụ Môi trường, Bộ Giao thông vận tải – Tổ viên;\n15. Ông Trần Quốc Thắng, Chuyên viên Vụ Kết cấu hạ tầng giao thông, Bộ Giao thông vận tải – Tổ viên.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Dataset

law_data_finetune

  • Dataset: law_data_finetune at e38bf75
  • Size: 806,451 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 21 tokens
    • mean: 37.09 tokens
    • max: 66 tokens
    • min: 45 tokens
    • mean: 257.2 tokens
    • max: 512 tokens
  • Samples:
    anchor positive
    Chính phủ quy định cụ thể những nội dung gì liên quan đến quy trình cưỡng chế bàn giao kinh phí bảo trì cho nhà chung cư có nhiều chủ sở hữu? Luật Nhà ở 2023
    Chương IX: QUẢN LÝ, SỬ DỤNG NHÀ CHUNG CƯ
    Mục 4. QUẢN LÝ, SỬ DỤNG KINH PHÍ BẢO TRÌ CỦA NHÀ CHUNG CƯ CÓ NHIỀU CHỦ SỞ HỮU
    Điều 154. Cưỡng chế bàn giao kinh phí bảo trì của nhà chung cư có nhiều chủ sở hữu
    1. Trường hợp chủ đầu tư dự án đầu tư xây dựng nhà ở không bàn giao kinh phí bảo trì theo quy định tại khoản 2 Điều 153 của Luật này, Ban quản trị nhà chung cư có văn bản đề nghị Ủy ban nhân dân cấp huyện nơi có nhà chung cư yêu cầu chủ đầu tư dự án đầu tư xây dựng nhà ở bàn giao kinh phí bảo trì.
    2. Trong thời hạn 15 ngày, kể từ ngày nhận được văn bản của Ban quản trị nhà chung cư, Ủy ban nhân dân cấp huyện phải có văn bản yêu cầu chủ đầu tư dự án đầu tư xây dựng nhà ở bàn giao kinh phí bảo trì cho Ban quản trị nhà chung cư.
    3. Trong thời hạn 10 ngày, kể từ ngày có văn bản của Ủy ban nhân dân cấp huyện mà chủ đầu tư dự án đầu tư xây dựng nhà ở không bàn giao kinh phí bảo trì thì Ủy ban nhân dân cấp huyện có trách nhiệm ban hành quyết định cưỡng chế và tổ chức thu hồi kin...
    Biên chế công chức đã được phê duyệt trong năm 2017 áp dụng cho đơn vị sự nghiệp công lập ở cấp nào trên địa bàn tỉnh Ninh Bình? Nghị quyết 45/NQ-HĐND năm 2016 về quyết định biên chế công chức trong cơ quan của Hội đồng nhân dân, Ủy ban nhân dân, đơn vị sự nghiệp công lập của Ủy ban nhân dân các cấp trên địa bàn tỉnh và phê duyệt tổng số lượng người làm việc trong đơn vị sự nghiệp công lập thuộc phạm vi quản lý của tỉnh Ninh Bình năm 2017
    Điều 1. Quyết định biên chế công chức trong cơ quan của Hội đồng nhân dân, Ủy ban nhân dân, đơn vị sự nghiệp công lập của Ủy ban nhân dân các cấp trên địa bàn tỉnh Ninh Bình năm 2017 là 1.726 biên chế.
    Thủ tục hành chính về lao động ngoài nước tại An Giang hiện nay đã được chuyển sang xử lý trực tuyến qua hệ thống thông tin một cửa điện tử của tỉnh chưa? Quyết định 452/QĐ-UBND năm 2022 phê duyệt quy trình nội bộ trong giải quyết thủ tục hành chính về lĩnh vực quản lý lao động ngoài nước thuộc phạm vi chức năng quản lý của Sở Lao động - Thương binh và Xã hội tỉnh An Giang
    Điều 2. Quyết định này có hiệu lực kể từ ngày ký.
    Bãi bỏ quy trình nội bộ thủ tục hành chính số 1, 2 phần II, phụ lục I ban hành kèm theo Quyết định số 325/QĐ-UBND ngày 18/02/2020 của UBND tỉnh về việc phê duyệt quy trình nội bộ trong giải quyết thủ tục hành chính thuộc thẩm quyền giải quyết và phạm vi quản lý của Sở Lao động - Thương binh và Xã hội tỉnh An Giang.
    Giao Sở Lao động - Thương binh và Xã hội phối hợp với Sở Thông tin và Truyền thông và các đơn vị có liên quan trên cơ sở quy trình được ban hành kèm theo Quyết định này cập nhật quy trình điện tử giải quyết thủ tục hành chính vào hệ thống thông tin một cửa điện tử của tỉnh.
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768,
            512,
            256,
            128,
            64
        ],
        "matryoshka_weights": [
            1,
            1,
            1,
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 32
  • gradient_accumulation_steps: 16
  • learning_rate: 2e-05
  • num_train_epochs: 2
  • lr_scheduler_type: cosine
  • warmup_ratio: 0.05
  • save_safetensors: False
  • fp16: True
  • push_to_hub: True
  • hub_model_id: test_finetune_law_5_matryoshkaloss
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 8
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 16
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 2
  • max_steps: -1
  • lr_scheduler_type: cosine
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.05
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: False
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: True
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: True
  • resume_from_checkpoint: None
  • hub_model_id: test_finetune_law_5_matryoshkaloss
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss
0.0127 10 2.1784
0.0254 20 1.748
0.0381 30 0.997
0.0508 40 0.7892
0.0635 50 0.5799
0.0762 60 0.5507
0.0889 70 0.5314
0.1016 80 0.5095
0.1143 90 0.4417
0.1270 100 0.4295
0.1397 110 0.4198
0.1524 120 0.4008
0.1651 130 0.3533
0.1778 140 0.3875
0.1905 150 0.3367
0.2032 160 0.3728
0.2159 170 0.3644
0.2286 180 0.4102
0.2413 190 0.3494
0.2540 200 0.3153
0.2667 210 0.348
0.2794 220 0.3175
0.2921 230 0.3008
0.3048 240 0.3414
0.3175 250 0.2953
0.3302 260 0.2933
0.3429 270 0.3475
0.3556 280 0.2988
0.3683 290 0.3126
0.3810 300 0.3055
0.3937 310 0.2891
0.4063 320 0.2745
0.4190 330 0.3032
0.4317 340 0.2743
0.4444 350 0.2839
0.4571 360 0.2914
0.4698 370 0.2682
0.4825 380 0.279
0.4952 390 0.2553
0.5079 400 0.2743
0.5206 410 0.2907
0.5333 420 0.2564
0.5460 430 0.2839
0.5587 440 0.2721
0.5714 450 0.2628
0.5841 460 0.2521
0.5968 470 0.2652
0.6095 480 0.2476
0.6222 490 0.2637
0.6349 500 0.253
0.6476 510 0.2323
0.6603 520 0.2593
0.6730 530 0.2367
0.6857 540 0.2636
0.6984 550 0.2412
0.7111 560 0.2403
0.7238 570 0.2641
0.7365 580 0.2387
0.7492 590 0.2569
0.7619 600 0.2541
0.7746 610 0.2331
0.7873 620 0.2487
0.8 630 0.2459
0.8127 640 0.2413
0.8254 650 0.225
0.8381 660 0.2312
0.8508 670 0.2349
0.8635 680 0.2367
0.8762 690 0.2128
0.8889 700 0.2295
0.9016 710 0.2134
0.9143 720 0.2373
0.9270 730 0.2586
0.9397 740 0.231
0.9524 750 0.2325
0.9651 760 0.2309
0.9778 770 0.229
0.9905 780 0.2148

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 3.3.1
  • Transformers: 4.47.0
  • PyTorch: 2.5.1+cu121
  • Accelerate: 1.2.1
  • Datasets: 3.3.1
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
1
Safetensors
Model size
278M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for iambestfeed/halong_finetune_law

Finetuned
(26)
this model