batmangiaicuuthegioi's picture
Add new SentenceTransformer model
ab1a0d1 verified
metadata
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - generated_from_trainer
  - dataset_size:37059
  - loss:MultipleNegativesRankingLoss
base_model: AITeamVN/Vietnamese_Embedding
widget:
  - source_sentence: >-
      Quản lý và sử dụng phí bảo vệ môi trường đối với nước thải công nghiệp
      được quy định ra sao?
    sentences:
      - >-
        Điều 16. Trách nhiệm của Uỷ ban nhân dân cấp huyện, cấp xã nơi có đê. 
        điểm c) trang bị và hướng dẫn việc quản lý sử dụng các dụng cụ, sổ sách
        cho các đội tuần tra, canh gác đê theo quy định tại khoản 2 điều 6 của
        thông tư này. 
      - >-
        Điều 33. Quản lý tài khoản, tài sản ký quỹ của thành viên bù trừ.  khoản
        6. loại ký quỹ, phương pháp xác định mức ký quỹ, phương thức ký quỹ,
        thời hạn ký quỹ, bổ sung ký quỹ, chuyển giao tài sản ký quỹ, phương thức
        định giá tài sản ký quỹ, xác định lãi lỗ vị thế, hoạt động quản lý tài
        khoản và tài sản ký quỹ của thành viên bù trừ thực hiện theo quy định
        của bộ trưởng bộ tài chính và quy chế của tổng công ty lưu ký và bù trừ
        chứng khoán việt nam.
      - >-
        Điều 4. Nguyên tắc quản lý và sử dụng phí.  khoản 3. phí thu từ các hoạt
        động dịch vụ do tổ chức được cơ quan nhà nước có thẩm quyền giao thực
        hiện được để lại một phần hoặc toàn bộ số tiền phí thu được để trang
        trải chi phí hoạt động cung cấp dịch vụ, thu phí được xác định theo quy
        định tại điều 5 nghị định này; phần còn lại (nếu có) nộp ngân sách nhà
        nước, trừ trường hợp chính phủ có quy định khác thì thực hiện theo quy
        định của chính phủ. số tiền phí được để lại là doanh thu của tổ chức thu
        phí.
  - source_sentence: Ngày bầu cử đại biểu Quốc Hội  phải  ngày chủ nhật?
    sentences:
      - >-
        Điều 16. Cử quốc thiều nước Cộng hòa xã hội chủ nghĩa Việt Nam.  khoản
        1. quốc thiều việt nam được cử trong các cuộc mít tinh, chiêu đãi chào
        mừng quốc khánh, ngày lễ lớn của việt nam hoặc kỷ niệm sự kiện quan
        trọng trong quan hệ giữa việt nam với quốc gia hay tổ chức quốc tế tiếp
        nhận phù hợp với quy định, thông lệ lễ tân của quốc gia, tổ chức quốc tế
        tiếp nhận. 
      - >-
        Điều 4. Giải thích từ ngữ.  khoản 36. quản lý quỹ đầu tư chứng khoán là
        hoạt động quản lý trong việc mua, bán, nắm giữ chứng khoán và các tài
        sản khác của quỹ đầu tư chứng khoán. 
      - >-
        Điều 52. Giới thiệu người của cơ quan, tổ chức, đơn vị ứng cử đại biểu
        Hội đồng nhân dân.  khoản 4. ban công tác mặt trận ở thôn, tổ dân phố dự
        kiến người của thôn, tổ dân phố để giới thiệu ứng cử đại biểu hội đồng
        nhân dân cấp xã và phối hợp với trưởng thôn, tổ trưởng tổ dân phố tổ
        chức hội nghị cử tri để thảo luận, giới thiệu người ứng cử đại biểu hội
        đồng nhân dân cấp xã. việc giới thiệu người ứng cử đại biểu hội đồng
        nhân dân cấp xã ở thôn, tổ dân phố do ủy ban thường vụ quốc hội hướng
        dẫn; 
  - source_sentence: Nghiên cứu y sinh học đa trung tâm  gì?
    sentences:
      - >-
        Điều 64. Vi phạm quy định về cung cấp, sử dụng thiết bị vô tuyến điện
        được miễn Giấy phép sử dụng tần số vô tuyến điện.  khoản 2. phạt tiền từ
        < mức phạt tiền > đến < mức phạt tiền > đối với hành vi sản xuất hoặc
        nhập khẩu thiết bị vô tuyến điện thuộc danh mục thiết bị vô tuyến điện
        được miễn giấy phép sử dụng tần số vô tuyến điện nhưng không thực hiện
        chứng nhận và công bố hợp quy trước khi đưa vào lưu thông trên thị
        trường. 
      - >-
        Điều 3. Giải thích từ ngữ.  khoản 19. nguy cơ (risk) là xác suất mà một
        sự kiện hoặc kết quả thuận lợi hay bất lợi xảy ra trong một khoảng thời
        gian xác định của nghiên cứu theo tiếp cận của dịch tễ. 
      - >-
        Điều 9. Nội dung tuần tra, canh gác đê.  điểm d) mỗi kíp tuần tra phải
        kiểm tra vượt quá phạm vi phụ trách về hai phía, mỗi phía 50m. đối với
        những khu vực đã từng xảy ra sự cố hư hỏng, phải kiểm tra quan sát rộng
        hơn để phát hiện sự cố. 
  - source_sentence: >-
      Không treo biển thông báo không bán thuốc lá cho người dưới 18 tuổi phạt 1
      triệu được quy định như thế nào?
    sentences:
      - >-
        Điều 49. Hành vi vi phạm về đăng ký hợp đồng theo mẫu, điều kiện giao
        dịch chung.  điểm c) không áp dụng đúng hợp đồng theo mẫu, điều kiện
        giao dịch chung đã đăng ký với cơ quan quản lý nhà nước có thẩm quyền về
        bảo vệ quyền lợi người tiêu dùng theo quy định. 
      - >-
        Điều 15. Khen thưởng, kỷ Luật.  khoản 2. những đơn vị và cá nhân vi phạm
        quy định tại thông tư này tuỳ theo lỗi nặng nhẹ sẽ bị thi hành kỷ luật
        từ cảnh cáo đến truy tố trước pháp luật của nhà nước.
      - >-
        Điều 81. Tước quyền sử dụng giấy phép, chứng chỉ hành nghề có thời hạn
        hoặc đình chỉ hoạt động có thời hạn trong lĩnh vực giao thông đường bộ,
        đường sắt.  khoản 5. trường hợp người có hành vi vi phạm bị áp dụng hình
        thức xử phạt tước quyền sử dụng giấy phép, chứng chỉ hành nghề nhưng
        thời hạn sử dụng còn lại của giấy phép, chứng chỉ hành nghề đó ít hơn
        thời hạn bị tước thì người có thẩm quyền vẫn ra quyết định xử phạt có áp
        dụng hình thức tước quyền sử dụng giấy phép, chứng chỉ hành nghề theo
        quy định đối với hành vi vi phạm. trong thời gian bị tước quyền sử dụng
        giấy phép, chứng chỉ hành nghề, cá nhân, tổ chức không được làm thủ tục
        cấp đổi, cấp mới giấy phép, chứng chỉ hành nghề. 
  - source_sentence: >-
      Quy định về trao đổi dữ liệu thi hành án hình sự được quy định như thế
      nào?
    sentences:
      - >-
        Điều 13. Quy định về bàn giao giữa các kíp trực. sau mỗi đợt kiểm tra,
        các kíp tuần tra, canh gác đê phải ghi chép đầy đủ tình hình diễn biến
        và hư hỏng đê điều vào sổ nhật ký tuần tra, canh gác theo mẫu quy định
        và bàn giao đầy đủ cho kíp sau. người thay mặt kíp giao và nhận phải ký
        và ghi rõ họ tên, ngày giờ vào sổ. sau mỗi ngày đội trưởng và cán bộ
        chuyên trách quản lý đê điều ký xác nhận tình hình trong ngày để theo
        dõi và làm cơ sở cho việc chi trả thù lao theo quy định.
      - >-
        Điều 33. Báo cáo của tổ chức tư vấn hồ sơ chào bán trái phiếu, tổ chức
        đấu thầu, bảo lãnh, đại lý phát hành, tổ chức đăng ký, lưu ký trái phiếu
        và Sở giao dịch chứng khoán.  điểm b) ngoài chế độ báo cáo định kỳ theo
        quy định tại điểm a khoản này, sở giao dịch chứng khoán báo cáo đột xuất
        cho ủy ban chứng khoán nhà nước và bộ tài chính theo yêu cầu của cơ quan
        quản lý. 
      - >-
        Điều 12. Trao đổi dữ liệu giữa cơ sở dữ liệu về thi hành án hình sự và
        các cơ sở dữ liệu khác liên quan.  khoản 1. việc trao đổi dữ liệu giữa
        cơ sở dữ liệu về thi hành án hình sự và các cơ sở dữ liệu khác liên quan
        phải thực hiện theo quy định của pháp luật và quy định của bộ công an,
        bộ quốc phòng. 
datasets:
  - batmangiaicuuthegioi/zalo-legal-triplets
pipeline_tag: sentence-similarity
library_name: sentence-transformers
metrics:
  - cosine_accuracy
model-index:
  - name: SentenceTransformer based on AITeamVN/Vietnamese_Embedding
    results:
      - task:
          type: triplet
          name: Triplet
        dataset:
          name: zalo legal
          type: zalo_legal
        metrics:
          - type: cosine_accuracy
            value: 1
            name: Cosine Accuracy
          - type: cosine_accuracy
            value: 1
            name: Cosine Accuracy

SentenceTransformer based on AITeamVN/Vietnamese_Embedding

This is a sentence-transformers model finetuned from AITeamVN/Vietnamese_Embedding on the zalo-legal-triplets dataset. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("batmangiaicuuthegioi/bi-encoders-embeddings")
# Run inference
sentences = [
    'Quy định về trao đổi dữ liệu thi hành án hình sự được quy định như thế nào?',
    'Điều 12. Trao đổi dữ liệu giữa cơ sở dữ liệu về thi hành án hình sự và các cơ sở dữ liệu khác liên quan.  khoản 1. việc trao đổi dữ liệu giữa cơ sở dữ liệu về thi hành án hình sự và các cơ sở dữ liệu khác liên quan phải thực hiện theo quy định của pháp luật và quy định của bộ công an, bộ quốc phòng. ',
    'Điều 13. Quy định về bàn giao giữa các kíp trực. sau mỗi đợt kiểm tra, các kíp tuần tra, canh gác đê phải ghi chép đầy đủ tình hình diễn biến và hư hỏng đê điều vào sổ nhật ký tuần tra, canh gác theo mẫu quy định và bàn giao đầy đủ cho kíp sau. người thay mặt kíp giao và nhận phải ký và ghi rõ họ tên, ngày giờ vào sổ. sau mỗi ngày đội trưởng và cán bộ chuyên trách quản lý đê điều ký xác nhận tình hình trong ngày để theo dõi và làm cơ sở cho việc chi trả thù lao theo quy định.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Triplet

Metric Value
cosine_accuracy 1.0

Triplet

Metric Value
cosine_accuracy 1.0

Training Details

Training Dataset

zalo-legal-triplets

  • Dataset: zalo-legal-triplets at 15e0566
  • Size: 37,059 training samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 7 tokens
    • mean: 22.08 tokens
    • max: 47 tokens
    • min: 13 tokens
    • mean: 82.98 tokens
    • max: 344 tokens
    • min: 25 tokens
    • mean: 76.65 tokens
    • max: 220 tokens
  • Samples:
    anchor positive negative
    Mức phạt đối với hành vi điều khiển xe máy dẫn, dắt theo súc vật ? Điều 63. Xử phạt nhân viên đường sắt trực tiếp phục vụ chạy tàu (trừ lái tàu và phụ lái tàu) vi phạm quy định về nồng độ cồn hoặc sử dụng các chất kích thích khác mà pháp luật cấm sử dụng. điểm c) khi làm nhiệm vụ mà trong cơ thể có chất kích thích khác mà pháp luật cấm sử dụng. Điều 4. Nhiệm vụ của lực lượng tuần tra, canh gác đê. khoản 5. đeo phù hiệu khi làm nhiệm vụ.
    Theo quy định pháp luật, dẫn xuất của các loài động vật, thực vật là gì? Điều 3. Giải thích từ ngữ. khoản 26. mẫu vật săn bắt là mẫu vật có được từ các hoạt động săn bắt hợp pháp. Điều 17. Trách nhiệm của Sở Nông nghiệp và Phát triển nông thôn. khoản 3. khi có báo động lũ từ cấp i trở lên, sở nông nghiệp và phát triển nông thôn phải chỉ đạo, tổ chức kiểm tra, đôn đốc công tác tuần tra, canh gác ở các tuyến đê.
    Mục tiêu của giáo dục nghề nghiệp từ tháng 7/2020 được quy định như thế nào? Điều 36. Mục tiêu của giáo dục nghề nghiệp. giáo dục nghề nghiệp nhằm đào tạo nhân lực trực tiếp cho sản xuất, kinh doanh và dịch vụ, có năng lực hành nghề tương ứng với trình độ đào tạo; có đạo đức, sức khỏe; có trách nhiệm nghề nghiệp; có khả năng sáng tạo, thích ứng với môi trường hội nhập quốc tế; bảo đảm nâng cao năng suất, chất lượng lao động; tạo điều kiện cho người học sau khi hoàn thành khóa học có khả năng tìm việc làm, tự tạo việc làm hoặc học trình độ cao hơn. Điều 3. Tiêu chuẩn của các thành viên thuộc lực lượng tuần tra, canh gác đê. khoản 2. có tinh thần trách nhiệm, chịu đựng gian khổ, khắc phục khó khăn, quen sông nước và biết bơi, có kiến thức, kinh nghiệm hộ đê, phòng, chống lụt, bão.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Evaluation Dataset

zalo-legal-triplets

  • Dataset: zalo-legal-triplets at 15e0566
  • Size: 37,059 evaluation samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 7 tokens
    • mean: 21.7 tokens
    • max: 47 tokens
    • min: 17 tokens
    • mean: 79.22 tokens
    • max: 327 tokens
    • min: 25 tokens
    • mean: 74.1 tokens
    • max: 220 tokens
  • Samples:
    anchor positive negative
    Nghiên cứu y sinh học liên quan đến con người là gì? Điều 31. Thẩm định nghiên cứu theo quy trình rút gọn. khoản 4. ngoại trừ trường hợp họp khẩn cấp, tất cả tài liệu đề nghị xem xét phải được gửi tới thành viên hội đồng đạo đức được phân công nhận xét trước ít nhất 05 ngày làm việc so với ngày yêu cầu gửi lại phiếu nhận xét, đánh giá nghiên cứu. Điều 10. Nội dung tuần tra canh gác cống qua đê. khoản 2. người tuần tra, canh gác phải kiểm tra kỹ phần tiếp giáp giữa thân cống, tường cánh gà của cống với đê; cánh cống, bộ phận đóng mở cánh cống, cửa cống, thân cống và khu vực thượng, hạ lưu cống để phát hiện kịp thời những sự cố xảy ra.
    Hồ sơ cấp lại Giấy chứng nhận đủ điều kiện hoạt động dịch vụ giám định công nghệ bao gồm những giấy tờ gì? Điều 38. Hồ sơ cấp Giấy chứng nhận đủ điều kiện hoạt động dịch vụ giám định công nghệ. điểm e) mẫu chứng thư giám định của tổ chức. Điều 6. Trang bị dụng cụ, sổ sách. khoản 7. việc giao nhận các dụng cụ và sổ sách trên đây phải được lập biên bản để quản lý, theo dõi.
    Chạy quá tốc độ bao nhiêu km thì xe ô tô sẽ bị giam bằng? Điều 55. Xử phạt các hành vi vi phạm quy định quản lý, bảo trì kết cấu hạ tầng đường sắt. điểm b) thực hiện hành vi quy định tại điểm c khoản 3 điều này buộc phải tổ chức sửa chữa, bổ sung, gia cố, thay thế các hư hỏng kết cấu hạ tầng đường sắt để bảo đảm chất lượng theo công lệnh tốc độ, công lệnh tải trọng đã công bố. Điều 9. Nội dung tuần tra, canh gác đê. điểm d) mỗi kíp tuần tra phải kiểm tra vượt quá phạm vi phụ trách về hai phía, mỗi phía 50m. đối với những khu vực đã từng xảy ra sự cố hư hỏng, phải kiểm tra quan sát rộng hơn để phát hiện sự cố.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 4
  • per_device_eval_batch_size: 2
  • num_train_epochs: 1
  • warmup_ratio: 0.1
  • fp16: True

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 4
  • per_device_eval_batch_size: 2
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss Validation Loss zalo_legal_cosine_accuracy
0.3084 2000 0.2978 0.0778 0.9996
0.6167 4000 0.1735 0.0522 1.0
0.9251 6000 0.1148 0.0330 1.0
1.0 6486 - - 1.0

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 3.3.1
  • Transformers: 4.47.0
  • PyTorch: 2.5.1+cu121
  • Accelerate: 1.2.1
  • Datasets: 3.3.1
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}