ltk_embedding / README.md
khanglt0004's picture
Add new SentenceTransformer model
f4d64f3 verified
metadata
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - generated_from_trainer
  - dataset_size:2459
  - loss:MatryoshkaLoss
  - loss:MultipleNegativesRankingLoss
base_model: bkai-foundation-models/vietnamese-bi-encoder
widget:
  - source_sentence: >-
      Khi lấy ý kiến của những người liên quan, công chức tư pháp – hộ tịch phải
      tư vấn điều gì để đảm bảo trẻ em tiếp tục được chăm sóc phù hợp?
    sentences:
      - >-
        Điều 28. Hành vi vi phạm quy định về đăng ký kết hôn và môi giới kết hôn


        1. Cảnh cáo hoặc phạt tiền từ 300.000 đồng đến 500.000 đồng đối với hành
        vi sửa chữa, tẩy xóa, làm sai lệch nội dung giấy tờ do  quan  thẩm
        quyền cấp để làm thủ tục đăng  kết hôn.


        2. Phạt tiền từ 1.000.000 đồng đến 3.000.000 đồng đối với một trong các
        hành vi sau:


        a) Cho người khác mượn giấy tờ để làm thủ tục đăng  kết hôn; sử dụng
        giấy tờ của người khác để làm thủ tục đăng  kết hôn;


        b) Sử dụng giấy tờ giả để làm thủ tục đăng  kết hôn;


        c) Cam đoan không đúng về tình trạng hôn nhân để làm thủ tục đăng  kết
        hôn.


        3. Phạt tiền từ 3.000.000 đồng đến 5.000.000 đồng đối với hành vi làm
        giả giấy tờ để làm thủ tục đăng  kết hôn.


        4.
      - >-
        Điều 5. Lệ phí


        1. Người yêu cầu đăng  kết hôn, nhận cha, mẹ, con, cấp Giấy xác nhận
        tình trạng hôn nhân, công nhận việc kết hôn, ghi vào sổ hộ tịch việc
        nhận cha, mẹ, con của công dân Việt Nam đã giải quyết tại  quan 
        thẩm quyền của nước ngoài theo quy định tại Nghị định này phải nộp lệ
        phí theo quy định của pháp luật.


        2. Miễn lệ phí đăng  kết hôn, nhận cha, mẹ, con  yếu tố nước ngoài 
        khu vực biên giới.


        Chương 2.


        KẾT HÔN




        MỤC 1. ĐĂNG  KẾT HÔN
      - >-
        Điều 9. Yêu cầu về kiểm tra hồ sơ và lấy ý kiến của những người liên
        quan 


        1. Khi kiểm tra hồ sơ, công chức  pháp  hộ tịch phải nghiên cứu, tìm
        hiểu tâm tư, nguyện vọng  hoàn cảnh của những người liên quan. Trường
        hợp người được nhận làm con nuôi  cha mẹ đẻ, thì công chức  pháp 
        hộ tịch kiểm tra việc cha mẹ đẻ  thỏa thuận với cha mẹ nuôi để giữ lại
        quyền, nghĩa vụ đối với con  cách thức thực hiện quyền, nghĩa vụ đó
        sau khi đã cho làm con nuôi.


        2. Khi lấy ý kiến của những người liên quan theo quy định tại Điều 20 
        Điều 21 của Luật Nuôi con nuôi, công chức  pháp  hộ tịch phải  vấn
        để trẻ em tiếp tục được chăm sóc, nuôi dưỡng, giáo dục phù hợp với điều
        kiện  khả năng thực tế của gia đình.
  - source_sentence: >-
      Những cơ quan, tổ chức nào không thuộc đối tượng áp dụng của quyết định về
      dân số và kế hoạch hóa gia đình tại TP.HCM?
    sentences:
      - >-
        2. Đối tượng áp dụng của quyết định này là cá nhân, là người Việt Nam,
        cư trú thực tế trên địa bàn thành phố Hồ Chí Minh ổn định từ 06 tháng
        trở lên (bao gồm những người thường trú và tạm trú); cơ quan, tổ chức
        trú đóng trên địa bàn thành phố Hồ Chí Minh là các cơ quan: hành chính,
        sự nghiệp, kinh tế, các đoàn thể, các tổ chức chính trị, tổ chức chính
        trị xã hội, tổ chức xã hội nghề nghiệp (bao gồm các cơ quan, tổ chức của
        thành phố, của các tỉnh, thành phố khác và của Trung ương trú đóng trên
        địa bàn thành phố Hồ Chí Minh, áp dụng và thực hiện tốt công tác dân số
        và kế hoạch hóa gia đình.


        3. Riêng các doanh trại quân đội, công an, trại giam  các  quan
        ngoại giao không thuộc đối tượng áp dụng quyết định này.


        Điều 2. Chính sách  nơi cung cấp dịch vụ đối với người áp dụng biện
        pháp tránh thai


        1. Chính sách đối với người áp dụng biện pháp tránh thai:


        a) Người áp dụng biện pháp đặt dụng cụ tử cung, được cấp thuốc theo quy
        định của Bộ Y tế; được miễn phí hoàn toàn khi thực hiện việc đặt, tái
        khám  tháo dụng cụ tử cung.
      - >-
        Điều 65. Thẩm quyền lập biên bản vi phạm hành chính


        1. Người  thẩm quyền lập biên bản quy định tại Điều này chỉ được lập
        biên bản vi phạm hành chính đối với những vi phạm hành chính thuộc phạm
        vi thi hành công vụ, nhiệm vụ được giao theo mẫu quy định  chịu trách
        nhiệm về việc lập biên bản.


        2. Những người sau đây đang thi hành công vụ, nhiệm vụ  thẩm quyền lập
        biên bản vi phạm hành chính:


        a) Người  thẩm quyền xử phạt vi phạm hành chính quy định tại các Điều
        66, 67, 68, 69  70 của Nghị định này lập biên bản vi phạm hành chính
        đối với các hành vi trong lĩnh vực thuộc thẩm quyền xử phạt của mình;


        b) Công chức  pháp - hộ tịch cấp  lập biên bản vi phạm hành chính
        đối với các hành vi quy định tại các Điều 24, 25, 27, 28, 30, 31, 32,
        33, 34, 35, 36, 47, 48, 49  50 của Nghị định này;


        c) Công chức Phòng  pháp cấp huyện lập biên bản vi phạm hành chính đối
        với các hành vi quy định tại Mục 1 Chương III, các Điều 27, 28, 30, 31,
        32, 33, 34, 35, 36, 39  40,
      - >-
        Điều 33. Trình tự cấp giấy phép cho tổ chức con nuôi nước ngoài hoạt
        động tại Việt Nam


        1. Trong thời hạn 60 ngày, kể từ ngày nhận đủ hồ  hợp lệ, Cục Con nuôi
        kiểm tra, thẩm định hồ sơ; phỏng vấn để kiểm tra, đánh giá về tiêu chuẩn
        của người dự kiến đứng đầu Văn phòng con nuôi nước ngoài tại Việt Nam;
        kiểm tra, đánh giá về điều kiện, năng lực chuyên môn của tổ chức  đội
        ngũ nhân viên của tổ chức con nuôi nước ngoài; báo cáo Bộ trưởng Bộ 
        pháp đề nghị Bộ Công an cho ý kiến.


        2. Trong thời hạn 30 ngày, kể từ ngày nhận được đề nghị của Bộ  pháp,
        Bộ Công an trả lời bằng văn bản cho Bộ  pháp.


        3.
  - source_sentence: Hành vi ép buộc người khác nhận cha, mẹ, con sẽ bị phạt tiền  mức nào?
    sentences:
      - >-
        Trong trường hợp từ chối đăng ký kết hôn, cơ quan đại diện có văn bản
        thông báo cho hai bên nam, nữ, trong đó nêu rõ lý do từ chối.


        2. Trường hợp xét thấy  vấn đề cần xác minh thuộc chức năng của 
        quan hữu quan  trong nước,  quan đại diện  công văn nêu  vấn đề
        cần xác minh, gửi Bộ Ngoại giao để yêu cầu  quan hữu quan xác minh
        theo chức năng chuyên ngành.


        Trong thời hạn 10 ngày làm việc, kể từ ngày nhận được công văn của Bộ
        Ngoại giao,  quan hữu quan  trong nước thực hiện xác minh vấn đề được
        yêu cầu  trả lời bằng văn bản gửi Bộ Ngoại giao để chuyển cho  quan
        đại diện.


        3. Lễ đăng  kết hôn được tổ chức trong thời hạn 05 ngày làm việc, kể
        từ ngày người đứng đầu  quan đại diện  Giấy chứng nhận kết hôn.


        4. Lễ đăng  kết hôn được tổ chức trang trọng tại trụ sở  quan đại
        diện. Khi tổ chức lễ đăng  kết hôn phải  mặt hai bên nam, nữ. Đại
        diện  quan đại diện chủ trì hôn lễ, yêu cầu hai bên cho biết ý định
        lần cuối về sự tự nguyện kết hôn.
      - >-
        Điều 33. Hành vi vi phạm quy định về đăng ký việc nhận cha, mẹ, con


        1. Cảnh cáo hoặc phạt tiền từ 300.000 đồng đến 500.000 đồng đối với hành
        vi sửa chữa, tẩy xóa, làm sai lệch nội dung giấy tờ do  quan  thẩm
        quyền cấp để làm thủ tục đăng  nhận cha, mẹ, con.


        2. Phạt tiền từ 1.000.000 đồng đến 3.000.000 đồng đối với một trong các
        hành vi sau:


        a) Sử dụng giấy tờ của người khác để làm thủ tục đăng  nhận cha, mẹ,
        con;


        b) Sử dụng giấy tờ giả để làm thủ tục đăng  nhận cha, mẹ, con;


        c) Ép buộc người khác nhận cha, mẹ, con.


        3. Phạt tiền từ 3.000.000 đồng đến 5.000.000 đồng đối với hành vi làm
        giả giấy tờ để làm thủ tục đăng  nhận cha, mẹ, con.


        4. Biện pháp khắc phục hậu quả:


        Hủy bỏ giấy tờ giả đối với hành vi quy định tại Điểm b Khoản 2, Khoản 3
        Điều này.
      - >-
        Trường hợp cần phải xác minh, thì thời hạn xác minh không quá 05 ngày.”


        13. Khoản 1  khoản 2 Điều 48 được sửa đổi, bổ sung như sau:


        “1. Người  yêu cầu đăng  lại việc sinh, tử, kết hôn phải nộp Tờ khai
        (theo mẫu quy định)  xuất trình bản sao giấy tờ hộ tịch đã cấp hợp lệ
        trước đây (nếu có); trong trường hợp không  bản sao giấy tờ hộ tịch,
        thì đương sự phải tự cam đoan về việc đã đăng ký, nhưng sổ hộ tịch không
        còn lưu được  chịu trách nhiệm về nội dung cam đoan.


        2. Sau khi nhận đủ giấy tờ hợp lệ, cán bộ  pháp hộ tịch ghi vào sổ hộ
        tịch theo từng loại việc  bản chính Giấy khai sinh, Giấy chứng tử,
        Giấy chứng nhận kết hôn. Chủ tịch Ủy ban nhân dân cấp    cấp cho
        người đi đăng  một bản chính giấy tờ hộ tịch theo từng loại việc. Các
        giấy tờ hộ tịch  liên quan đến sự kiện hộ tịch đăng  lại (nếu có)
        được thu hồi  lưu hồ sơ.


        Trường hợp cần phải xác minh, thì thời hạn được kéo dài không quá 03
        ngày.”


        14. Khoản 2 Điều 50 được sửa đổi như sau:


        “2.
  - source_sentence: >-
      Nếu giấy xác nhận tình trạng hôn nhân được cấp tại tỉnh khác, Sở Tư pháp
      cần làm gì trước khi ghi vào sổ việc kết hôn?
    sentences:
      - "Đơn vị chủ trì: Tổng cục Dân số.\n\nĐơn vị phối hợp: Vụ Truyền thông và Thi đua, khen thưởng; Sở Y tế các tỉnh/thành phố và các đơn vị liên quan.\n\n\tb) Đa dạng hóa các loại hình truyền thông, chú trọng kênh thông tin đại chúng; các sản phẩm truyền thông phù hợp với từng vùng miền, địa phương. Tăng cường áp dụng công nghệ hiện đại, internet, mạng xã hội trong tuyên truyền, vận động về kế hoạch hóa gia đình; lồng ghép với các hoạt động truyền thông của các Chương trình, Đề án khác."
      - >-
        Trường hợp công dân Việt Nam được cấp Giấy xác nhận tình trạng hôn nhân
        tại địa bàn tỉnh khác, Sở Tư pháp có văn bản gửi Sở Tư pháp nơi đã cho ý
        kiến về việc cấp Giấy xác nhận tình trạng hôn nhân đề nghị kiểm tra, đối
        chiếu; nếu việc cấp Giấy xác nhận tình trạng hôn nhân bảo đảm đúng trình
        tự, thủ tục, việc kết hôn bảo đảm điều kiện theo quy định tại khoản 1
        Điều 16 của Nghị định số 24/2013/NĐ-CP, thì ghi vào sổ việc kết hôn.


        2. Trường hợp việc cấp Giấy xác nhận tình trạng hôn nhân không đúng
        trình tự, thủ tục, Sở  pháp tiến hành xác minh làm rõ. Nếu kết quả xác
        minh cho thấy đương sự  đủ điều kiện kết hôn (vào thời điểm yêu cầu
        cấp Giấy xác nhận tình trạng hôn nhân), tình trạng hôn nhân của công dân
        Việt Nam được xác nhận  đúng, Sở  pháp vẫn tiến hành ghi vào sổ việc
        kết hôn  cấp Giấy xác nhận cho đương sự.


        Sau khi ghi vào sổ việc kết hôn, Sở  pháp  văn bản gửi Ủy ban nhân
        dân cấp xã, nơi đã cấp Giấy xác nhận tình trạng hôn nhân để chấn chỉnh,
        xử  theo quy định.
      - >-
        6. Phạt tiền từ 20.000.000 đồng đến 30.000.000 đồng đối với một trong
        các hành vi sau:


        a) Không chấp hành quyết định của người  thẩm quyền thi hành án về
        việc khấu trừ tài khoản, thu hồi giấy tờ  giá của người phải thi hành
        án;


        b) Không chấp hành quyết định của người  thẩm quyền thi hành án về
        việc thu tiền từ hoạt động kinh doanh của người phải thi hành án; về
        việc thu tiền của người phải thi hành án đang giữ.


        7. Phạt tiền từ 30.000.000 đồng đến 40.000.000 đồng đối với hành vi
        không thực hiện việc phong tỏa tài khoản của người phải thi hành án theo
        quyết định của người  thẩm quyền thi hành án.


        8. Biện pháp khắc phục hậu quả:


        Buộc khôi phục lại tình trạng ban đầu đã bị thay đổi đối với hành vi quy
        định tại Điểm a Khoản 4, Điểm a  Điểm b Khoản 5 Điều này.




        Chương 6.


        HÀNH VI VI PHẠM HÀNH CHÍNH, HÌNH THỨC XỬ PHẠT  BIỆN PHÁP 


        KHẮC PHỤC HẬU QUẢ TRONG LĨNH VỰC PHÁ SẢN DOANH NGHIỆP, HỢP TÁC 
  - source_sentence: >-
      Ai phải nộp lệ phí đăng ký nuôi con nuôi nước ngoài khi nộp hồ sơ xin nhận
      con nuôi tại Cục Con nuôi?
    sentences:
      - "Các hoạt động:\n\n\t- Xây dựng bộ công cụ giám sát chất lượng sau đào tạo đối với người cung cấp dịch vụ; các quy định về cơ sở thực hiện dịch vụ kế hoạch hóa gia đình có chất lượng;\n\n\t- Hướng dẫn tổ chức thực hiện việc giám sát chất lượng đối với cơ sở và người cung cấp dịch vụ kế hoạch hóa gia đình;\n\n\t- Kiểm định chất lượng phương tiện tránh thai và hàng hóa sức khỏe sinh sản.\n\nĐơn vị chủ trì: Tổng cục Dân số.\n\nĐơn vị phối hợp: Vụ Sức khỏe Bà mẹ - Trẻ em; Sở Y tế các tỉnh/thành phố và các đơn vị liên quan.\n\n\t4. Đẩy mạnh xã hội hóa, huy động nguồn lực thực hiện Chương trình\n\nĐẩy mạnh xã hội hóa dịch vụ kế hoạch hóa gia đình, tạo điều kiện thuận lợi cho các tổ chức, cá nhân tham gia Chương trình; huy động toàn bộ hệ thống y tế, dân số tham gia thực hiện Chương trình theo chức năng, nhiệm vụ được giao, ưu tiên bảo đảm hoạt động ở tuyến cơ sở, vùng khó khăn có mức sinh cao."
      - >-
        tranh chấp giữa các thành viên gia đình, xử lý hành vi bạo lực gia đình;


        g) Khiếu nại, tố cáo, khởi kiện đối với hành vi vi phạm pháp luật về
        phòng, chống bạo lực gia đình;


        h) Quyền khác theo quy định của pháp luật  liên quan đến phòng, chống
        bạo lực gia đình.


        2. Người bị bạo lực gia đình, người giám hộ hoặc người đại diện theo
        pháp luật của người bị bạo lực gia đình  trách nhiệm cung cấp đầy đủ,
        chính xác, kịp thời thông tin liên quan đến hành vi bạo lực gia đình khi
         yêu cầu của  quan, tổ chức,  nhân  thẩm quyền.
      - "Điều 42. Đối tượng phải nộp lệ phí đăng ký nuôi con nuôi \n\n1. Công dân Việt Nam thường trú tại Việt Nam phải nộp lệ phí đăng ký nuôi con nuôi trong nước theo quy định tại khoản 1 Điều 40 của Nghị định này khi nộp hồ sơ đăng ký nuôi con nuôi tại Ủy ban nhân dân cấp xã. \_\_\_\n\n2. Người Việt Nam định cư ở nước ngoài, người nước ngoài không thường trú tại Việt Nam phải nộp lệ phí đăng ký nuôi con nuôi nước ngoài theo quy định tại khoản 2 Điều 40 của Nghị định này khi nộp hồ sơ xin nhận con nuôi tại Cục Con nuôi.\n\n3. Công dân Việt Nam tạm trú ở nước ngoài phải nộp lệ phí đăng ký nuôi con nuôi theo quy định tại khoản 3 Điều 40 của Nghị định này khi nộp hồ sơ xin nhận con nuôi tại Cơ quan đại diện."
pipeline_tag: sentence-similarity
library_name: sentence-transformers
metrics:
  - cosine_accuracy@1
  - cosine_accuracy@3
  - cosine_accuracy@5
  - cosine_accuracy@10
  - cosine_precision@1
  - cosine_precision@3
  - cosine_precision@5
  - cosine_precision@10
  - cosine_recall@1
  - cosine_recall@3
  - cosine_recall@5
  - cosine_recall@10
  - cosine_ndcg@10
  - cosine_mrr@10
  - cosine_map@100
model-index:
  - name: SentenceTransformer based on bkai-foundation-models/vietnamese-bi-encoder
    results:
      - task:
          type: information-retrieval
          name: Information Retrieval
        dataset:
          name: dim 768
          type: dim_768
        metrics:
          - type: cosine_accuracy@1
            value: 0.483529890199268
            name: Cosine Accuracy@1
          - type: cosine_accuracy@3
            value: 0.7157381049206994
            name: Cosine Accuracy@3
          - type: cosine_accuracy@5
            value: 0.7897519316795445
            name: Cosine Accuracy@5
          - type: cosine_accuracy@10
            value: 0.8592923952826352
            name: Cosine Accuracy@10
          - type: cosine_precision@1
            value: 0.483529890199268
            name: Cosine Precision@1
          - type: cosine_precision@3
            value: 0.2385793683068998
            name: Cosine Precision@3
          - type: cosine_precision@5
            value: 0.1579503863359089
            name: Cosine Precision@5
          - type: cosine_precision@10
            value: 0.08592923952826352
            name: Cosine Precision@10
          - type: cosine_recall@1
            value: 0.483529890199268
            name: Cosine Recall@1
          - type: cosine_recall@3
            value: 0.7157381049206994
            name: Cosine Recall@3
          - type: cosine_recall@5
            value: 0.7897519316795445
            name: Cosine Recall@5
          - type: cosine_recall@10
            value: 0.8592923952826352
            name: Cosine Recall@10
          - type: cosine_ndcg@10
            value: 0.6739315776091506
            name: Cosine Ndcg@10
          - type: cosine_mrr@10
            value: 0.6141480599288642
            name: Cosine Mrr@10
          - type: cosine_map@100
            value: 0.6195040501807831
            name: Cosine Map@100
      - task:
          type: information-retrieval
          name: Information Retrieval
        dataset:
          name: dim 512
          type: dim_512
        metrics:
          - type: cosine_accuracy@1
            value: 0.4827165514436763
            name: Cosine Accuracy@1
          - type: cosine_accuracy@3
            value: 0.7104514030093534
            name: Cosine Accuracy@3
          - type: cosine_accuracy@5
            value: 0.7873119154127695
            name: Cosine Accuracy@5
          - type: cosine_accuracy@10
            value: 0.8613257421716145
            name: Cosine Accuracy@10
          - type: cosine_precision@1
            value: 0.4827165514436763
            name: Cosine Precision@1
          - type: cosine_precision@3
            value: 0.2368171343364511
            name: Cosine Precision@3
          - type: cosine_precision@5
            value: 0.15746238308255386
            name: Cosine Precision@5
          - type: cosine_precision@10
            value: 0.08613257421716145
            name: Cosine Precision@10
          - type: cosine_recall@1
            value: 0.4827165514436763
            name: Cosine Recall@1
          - type: cosine_recall@3
            value: 0.7104514030093534
            name: Cosine Recall@3
          - type: cosine_recall@5
            value: 0.7873119154127695
            name: Cosine Recall@5
          - type: cosine_recall@10
            value: 0.8613257421716145
            name: Cosine Recall@10
          - type: cosine_ndcg@10
            value: 0.6723537916655246
            name: Cosine Ndcg@10
          - type: cosine_mrr@10
            value: 0.6116990065648049
            name: Cosine Mrr@10
          - type: cosine_map@100
            value: 0.6168201481483597
            name: Cosine Map@100
      - task:
          type: information-retrieval
          name: Information Retrieval
        dataset:
          name: dim 256
          type: dim_256
        metrics:
          - type: cosine_accuracy@1
            value: 0.46156974379829196
            name: Cosine Accuracy@1
          - type: cosine_accuracy@3
            value: 0.6901179341195608
            name: Cosine Accuracy@3
          - type: cosine_accuracy@5
            value: 0.777551850345669
            name: Cosine Accuracy@5
          - type: cosine_accuracy@10
            value: 0.8487189914599431
            name: Cosine Accuracy@10
          - type: cosine_precision@1
            value: 0.46156974379829196
            name: Cosine Precision@1
          - type: cosine_precision@3
            value: 0.23003931137318692
            name: Cosine Precision@3
          - type: cosine_precision@5
            value: 0.1555103700691338
            name: Cosine Precision@5
          - type: cosine_precision@10
            value: 0.0848718991459943
            name: Cosine Precision@10
          - type: cosine_recall@1
            value: 0.46156974379829196
            name: Cosine Recall@1
          - type: cosine_recall@3
            value: 0.6901179341195608
            name: Cosine Recall@3
          - type: cosine_recall@5
            value: 0.777551850345669
            name: Cosine Recall@5
          - type: cosine_recall@10
            value: 0.8487189914599431
            name: Cosine Recall@10
          - type: cosine_ndcg@10
            value: 0.6552643834357492
            name: Cosine Ndcg@10
          - type: cosine_mrr@10
            value: 0.5931471368539272
            name: Cosine Mrr@10
          - type: cosine_map@100
            value: 0.5986420157639187
            name: Cosine Map@100
      - task:
          type: information-retrieval
          name: Information Retrieval
        dataset:
          name: dim 128
          type: dim_128
        metrics:
          - type: cosine_accuracy@1
            value: 0.439609597397316
            name: Cosine Accuracy@1
          - type: cosine_accuracy@3
            value: 0.6588043920292802
            name: Cosine Accuracy@3
          - type: cosine_accuracy@5
            value: 0.7429849532330216
            name: Cosine Accuracy@5
          - type: cosine_accuracy@10
            value: 0.8251321675477836
            name: Cosine Accuracy@10
          - type: cosine_precision@1
            value: 0.439609597397316
            name: Cosine Precision@1
          - type: cosine_precision@3
            value: 0.21960146400976008
            name: Cosine Precision@3
          - type: cosine_precision@5
            value: 0.1485969906466043
            name: Cosine Precision@5
          - type: cosine_precision@10
            value: 0.08251321675477835
            name: Cosine Precision@10
          - type: cosine_recall@1
            value: 0.439609597397316
            name: Cosine Recall@1
          - type: cosine_recall@3
            value: 0.6588043920292802
            name: Cosine Recall@3
          - type: cosine_recall@5
            value: 0.7429849532330216
            name: Cosine Recall@5
          - type: cosine_recall@10
            value: 0.8251321675477836
            name: Cosine Recall@10
          - type: cosine_ndcg@10
            value: 0.6297155370556367
            name: Cosine Ndcg@10
          - type: cosine_mrr@10
            value: 0.5673880206820422
            name: Cosine Mrr@10
          - type: cosine_map@100
            value: 0.5736251203666848
            name: Cosine Map@100
      - task:
          type: information-retrieval
          name: Information Retrieval
        dataset:
          name: dim 64
          type: dim_64
        metrics:
          - type: cosine_accuracy@1
            value: 0.3904026026840179
            name: Cosine Accuracy@1
          - type: cosine_accuracy@3
            value: 0.5957706384709232
            name: Cosine Accuracy@3
          - type: cosine_accuracy@5
            value: 0.6766978446522977
            name: Cosine Accuracy@5
          - type: cosine_accuracy@10
            value: 0.7726718178121188
            name: Cosine Accuracy@10
          - type: cosine_precision@1
            value: 0.3904026026840179
            name: Cosine Precision@1
          - type: cosine_precision@3
            value: 0.19859021282364103
            name: Cosine Precision@3
          - type: cosine_precision@5
            value: 0.1353395689304595
            name: Cosine Precision@5
          - type: cosine_precision@10
            value: 0.07726718178121188
            name: Cosine Precision@10
          - type: cosine_recall@1
            value: 0.3904026026840179
            name: Cosine Recall@1
          - type: cosine_recall@3
            value: 0.5957706384709232
            name: Cosine Recall@3
          - type: cosine_recall@5
            value: 0.6766978446522977
            name: Cosine Recall@5
          - type: cosine_recall@10
            value: 0.7726718178121188
            name: Cosine Recall@10
          - type: cosine_ndcg@10
            value: 0.5745062884302428
            name: Cosine Ndcg@10
          - type: cosine_mrr@10
            value: 0.5119518839120302
            name: Cosine Mrr@10
          - type: cosine_map@100
            value: 0.5199027870677515
            name: Cosine Map@100

SentenceTransformer based on bkai-foundation-models/vietnamese-bi-encoder

This is a sentence-transformers model finetuned from bkai-foundation-models/vietnamese-bi-encoder. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: RobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("khanglt0004/ltk_embedding")
# Run inference
sentences = [
    'Ai phải nộp lệ phí đăng ký nuôi con nuôi nước ngoài khi nộp hồ sơ xin nhận con nuôi tại Cục Con nuôi?',
    'Điều 42. Đối tượng phải nộp lệ phí đăng ký nuôi con nuôi \n\n1. Công dân Việt Nam thường trú tại Việt Nam phải nộp lệ phí đăng ký nuôi con nuôi trong nước theo quy định tại khoản 1 Điều 40 của Nghị định này khi nộp hồ sơ đăng ký nuôi con nuôi tại Ủy ban nhân dân cấp xã. \xa0\xa0\xa0\n\n2. Người Việt Nam định cư ở nước ngoài, người nước ngoài không thường trú tại Việt Nam phải nộp lệ phí đăng ký nuôi con nuôi nước ngoài theo quy định tại khoản 2 Điều 40 của Nghị định này khi nộp hồ sơ xin nhận con nuôi tại Cục Con nuôi.\n\n3. Công dân Việt Nam tạm trú ở nước ngoài phải nộp lệ phí đăng ký nuôi con nuôi theo quy định tại khoản 3 Điều 40 của Nghị định này khi nộp hồ sơ xin nhận con nuôi tại Cơ quan đại diện.',
    'Các hoạt động:\n\n\t- Xây dựng bộ công cụ giám sát chất lượng sau đào tạo đối với người cung cấp dịch vụ; các quy định về cơ sở thực hiện dịch vụ kế hoạch hóa gia đình có chất lượng;\n\n\t- Hướng dẫn tổ chức thực hiện việc giám sát chất lượng đối với cơ sở và người cung cấp dịch vụ kế hoạch hóa gia đình;\n\n\t- Kiểm định chất lượng phương tiện tránh thai và hàng hóa sức khỏe sinh sản.\n\nĐơn vị chủ trì: Tổng cục Dân số.\n\nĐơn vị phối hợp: Vụ Sức khỏe Bà mẹ - Trẻ em; Sở Y tế các tỉnh/thành phố và các đơn vị liên quan.\n\n\t4. Đẩy mạnh xã hội hóa, huy động nguồn lực thực hiện Chương trình\n\nĐẩy mạnh xã hội hóa dịch vụ kế hoạch hóa gia đình, tạo điều kiện thuận lợi cho các tổ chức, cá nhân tham gia Chương trình; huy động toàn bộ hệ thống y tế, dân số tham gia thực hiện Chương trình theo chức năng, nhiệm vụ được giao, ưu tiên bảo đảm hoạt động ở tuyến cơ sở, vùng khó khăn có mức sinh cao.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric Value
cosine_accuracy@1 0.4835
cosine_accuracy@3 0.7157
cosine_accuracy@5 0.7898
cosine_accuracy@10 0.8593
cosine_precision@1 0.4835
cosine_precision@3 0.2386
cosine_precision@5 0.158
cosine_precision@10 0.0859
cosine_recall@1 0.4835
cosine_recall@3 0.7157
cosine_recall@5 0.7898
cosine_recall@10 0.8593
cosine_ndcg@10 0.6739
cosine_mrr@10 0.6141
cosine_map@100 0.6195

Information Retrieval

Metric Value
cosine_accuracy@1 0.4827
cosine_accuracy@3 0.7105
cosine_accuracy@5 0.7873
cosine_accuracy@10 0.8613
cosine_precision@1 0.4827
cosine_precision@3 0.2368
cosine_precision@5 0.1575
cosine_precision@10 0.0861
cosine_recall@1 0.4827
cosine_recall@3 0.7105
cosine_recall@5 0.7873
cosine_recall@10 0.8613
cosine_ndcg@10 0.6724
cosine_mrr@10 0.6117
cosine_map@100 0.6168

Information Retrieval

Metric Value
cosine_accuracy@1 0.4616
cosine_accuracy@3 0.6901
cosine_accuracy@5 0.7776
cosine_accuracy@10 0.8487
cosine_precision@1 0.4616
cosine_precision@3 0.23
cosine_precision@5 0.1555
cosine_precision@10 0.0849
cosine_recall@1 0.4616
cosine_recall@3 0.6901
cosine_recall@5 0.7776
cosine_recall@10 0.8487
cosine_ndcg@10 0.6553
cosine_mrr@10 0.5931
cosine_map@100 0.5986

Information Retrieval

Metric Value
cosine_accuracy@1 0.4396
cosine_accuracy@3 0.6588
cosine_accuracy@5 0.743
cosine_accuracy@10 0.8251
cosine_precision@1 0.4396
cosine_precision@3 0.2196
cosine_precision@5 0.1486
cosine_precision@10 0.0825
cosine_recall@1 0.4396
cosine_recall@3 0.6588
cosine_recall@5 0.743
cosine_recall@10 0.8251
cosine_ndcg@10 0.6297
cosine_mrr@10 0.5674
cosine_map@100 0.5736

Information Retrieval

Metric Value
cosine_accuracy@1 0.3904
cosine_accuracy@3 0.5958
cosine_accuracy@5 0.6767
cosine_accuracy@10 0.7727
cosine_precision@1 0.3904
cosine_precision@3 0.1986
cosine_precision@5 0.1353
cosine_precision@10 0.0773
cosine_recall@1 0.3904
cosine_recall@3 0.5958
cosine_recall@5 0.6767
cosine_recall@10 0.7727
cosine_ndcg@10 0.5745
cosine_mrr@10 0.512
cosine_map@100 0.5199

Training Details

Training Dataset

Unnamed Dataset

  • Size: 2,459 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 13 tokens
    • mean: 29.47 tokens
    • max: 57 tokens
    • min: 18 tokens
    • mean: 207.63 tokens
    • max: 256 tokens
  • Samples:
    anchor positive
    Quy định này áp dụng cho những đối tượng nào liên quan đến chính sách dân số và kế hoạch hóa gia đình? Đối tượng áp dụng

    Quy định này quy định tiêu chuẩn, điều kiện, thẩm quyền xem xét kết nạp lại vào Đảng đối với đảng viên đã bị đưa ra khỏi Đảng do vi phạm chính sách dân số và kế hoạch hoá gia đình, kết nạp quần chúng vi phạm chính sách dân số và kế hoạch hoá gia đình có nguyện vọng phấn đấu vào Đảng.

    Điều 2. Những trường hợp sinh con không bị coi là vi phạm chính sách dân số và kế hoạch hoá gia đình

    1. Cặp vợ chồng sinh con thứ ba, nếu cả hai hoặc một trong hai người thuộc dân tộc có số dân dưới 10.000 người hoặc thuộc dân tộc có nguy cơ suy giảm số dân (tỉ lệ nhỏ hơn hoặc bằng tỉ lệ chết) theo công bố chính thức của Bộ Kế hoạch và Đầu tư.

    2. Cặp vợ chồng sinh lần thứ nhất mà sinh ba con trở lên.

    3. Cặp vợ chồng đã có một con đẻ, sinh lần thứ hai mà sinh hai con trở lên.

    4. Cặp vợ chồng sinh lần thứ ba trở lên, nếu tại thời điểm sinh chỉ có một con đẻ còn sống, kể cả con đẻ đã cho làm con nuôi.

    5.
    Trong trường hợp nào cặp vợ chồng sinh con thứ ba nhưng không bị coi là vi phạm chính sách dân số nếu thuộc dân tộc thiểu số? Đối tượng áp dụng

    Quy định này quy định tiêu chuẩn, điều kiện, thẩm quyền xem xét kết nạp lại vào Đảng đối với đảng viên đã bị đưa ra khỏi Đảng do vi phạm chính sách dân số và kế hoạch hoá gia đình, kết nạp quần chúng vi phạm chính sách dân số và kế hoạch hoá gia đình có nguyện vọng phấn đấu vào Đảng.

    Điều 2. Những trường hợp sinh con không bị coi là vi phạm chính sách dân số và kế hoạch hoá gia đình

    1. Cặp vợ chồng sinh con thứ ba, nếu cả hai hoặc một trong hai người thuộc dân tộc có số dân dưới 10.000 người hoặc thuộc dân tộc có nguy cơ suy giảm số dân (tỉ lệ nhỏ hơn hoặc bằng tỉ lệ chết) theo công bố chính thức của Bộ Kế hoạch và Đầu tư.

    2. Cặp vợ chồng sinh lần thứ nhất mà sinh ba con trở lên.

    3. Cặp vợ chồng đã có một con đẻ, sinh lần thứ hai mà sinh hai con trở lên.

    4. Cặp vợ chồng sinh lần thứ ba trở lên, nếu tại thời điểm sinh chỉ có một con đẻ còn sống, kể cả con đẻ đã cho làm con nuôi.

    5.
    Cặp vợ chồng sinh lần thứ hai mà sinh hai con trở lên thì có bị xem là vi phạm chính sách dân số không? Đối tượng áp dụng

    Quy định này quy định tiêu chuẩn, điều kiện, thẩm quyền xem xét kết nạp lại vào Đảng đối với đảng viên đã bị đưa ra khỏi Đảng do vi phạm chính sách dân số và kế hoạch hoá gia đình, kết nạp quần chúng vi phạm chính sách dân số và kế hoạch hoá gia đình có nguyện vọng phấn đấu vào Đảng.

    Điều 2. Những trường hợp sinh con không bị coi là vi phạm chính sách dân số và kế hoạch hoá gia đình

    1. Cặp vợ chồng sinh con thứ ba, nếu cả hai hoặc một trong hai người thuộc dân tộc có số dân dưới 10.000 người hoặc thuộc dân tộc có nguy cơ suy giảm số dân (tỉ lệ nhỏ hơn hoặc bằng tỉ lệ chết) theo công bố chính thức của Bộ Kế hoạch và Đầu tư.

    2. Cặp vợ chồng sinh lần thứ nhất mà sinh ba con trở lên.

    3. Cặp vợ chồng đã có một con đẻ, sinh lần thứ hai mà sinh hai con trở lên.

    4. Cặp vợ chồng sinh lần thứ ba trở lên, nếu tại thời điểm sinh chỉ có một con đẻ còn sống, kể cả con đẻ đã cho làm con nuôi.

    5.
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768,
            512,
            256,
            128,
            64
        ],
        "matryoshka_weights": [
            1,
            1,
            1,
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_eval_batch_size: 4
  • gradient_accumulation_steps: 4
  • learning_rate: 2e-05
  • num_train_epochs: 1
  • lr_scheduler_type: cosine
  • warmup_ratio: 0.1
  • bf16: True
  • load_best_model_at_end: True
  • optim: adamw_torch_fused
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 8
  • per_device_eval_batch_size: 4
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 4
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: cosine
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: True
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • tp_size: 0
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss dim_768_cosine_ndcg@10 dim_512_cosine_ndcg@10 dim_256_cosine_ndcg@10 dim_128_cosine_ndcg@10 dim_64_cosine_ndcg@10
-1 -1 - 0.5846 0.5778 0.5510 0.5090 0.4283
0.1299 10 5.2058 0.6314 0.6244 0.6004 0.5712 0.4874
0.2597 20 3.3976 0.6559 0.6534 0.6295 0.5986 0.5251
0.3896 30 3.4291 0.6574 0.6577 0.6355 0.6084 0.5438
0.5195 40 3.4904 0.6668 0.6642 0.6464 0.6225 0.5595
0.6494 50 3.379 0.6702 0.6672 0.6515 0.6237 0.5667
0.7792 60 2.5151 0.6732 0.6710 0.6536 0.6279 0.5720
0.9091 70 2.8592 0.6739 0.6724 0.6553 0.6297 0.5745

Framework Versions

  • Python: 3.11.12
  • Sentence Transformers: 4.1.0
  • Transformers: 4.51.3
  • PyTorch: 2.6.0+cu124
  • Accelerate: 1.6.0
  • Datasets: 3.6.0
  • Tokenizers: 0.21.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}