MinhViet's picture
Add new SentenceTransformer model
fe31735 verified
metadata
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - generated_from_trainer
  - dataset_size:11799
  - loss:CachedMultipleNegativesRankingLoss
base_model: hiieu/halong_embedding
widget:
  - source_sentence: Các sản phẩm nghiên cứu  sáng tạo của CLB  đặc trưng gì?
    sentences:
      - >-
        Tiêu đề: Sổ tay sinh viên 2022

        Mục: NGHIÊN CỨU, SÁNG TẠO & KHỞI NGHIỆP

        Nội dung: CLB NGHIÊN CỨU  SÁNG TẠO

        Được ra đời nhằm hỗ trợ chuyên môn   sở vật chất cho sinh viên tham
        gia  thực hiện nghiên cứu xung quanh các chủ đề, tạo ra các sản phẩm
        nghiên cứu  sáng tạo đặc trưng của ngành nghề (BK-AMC, HUST-SMARTCAR,
        BK-UAV, AI-CLUB, GW Club, GFC, SEP).
      - >-
        Tiêu đề: ĐẠI HỌC BÁCH KHOA HÀ NỘI - SỨ MẠNG, TẦM NHÌN VÀ GIÁ TRỊ CỐT LÕI

        Mục: Giá trị cốt lõi

        Nội dung: Giá trị cốt lõi của Đại học Bách khoa  Nội

        Chất lượng - hiệu quả: Yếu tố cốt lõi làm nên thương hiệu Đại học Bách
        khoa  Nội  chất lượng xuất sắc gắn liền với hiệu quả tối ưu trong
        mọi hoạt động  trên mọi phương diện.

        Tận tụy - cống hiến: Sự tận tụy  đam   chìa khóa cho mọi thành
        công; sự tận tâm  cống hiến hết mình làm nên giá trị cao quý nhất của
        các thế hệ cán bộ  sinh viên Trường Đại học Bách khoa  Nội.

        Chính trực - tôn trọng: Sự chính trực trong chuyên môn, nghiệp vụ  lối
        sống, cùng với sự tôn trọng nhân phẩm, tôn trọng luật pháp  quy định,
        tôn trọng sự đa dạng  khác biệt  những chuẩn mực đạo đức cốt lõi
        trong môi trường đại học.

        Tài năng  nhân - trí tuệ tập thể: Mọi thành công đột phá đều bắt nguồn
        từ sáng tạo  tài năng  nhân, nhưng chìa khóa đảm bảo thành công bền
        vững chính  sự đoàn kết  trí tuệ tập thể.

        Kế thừa - sáng tạo: Động lực chính cho phát triển bền vững  đổi mới
        sáng tạo dựa trên tiếp thu tinh hoa tri thức của nhân loại, kế thừa
        những thành quả đã đạt được  phát huy những giá trị truyền thống tốt
        đẹp.
      - >-
        Tiêu đề: Luật giáo dục 2019 

        Mục: Điều 19. Hoạt động khoa học  công nghệ

        Nội dung: Hoạt động khoa học  công nghệ

        1. Hoạt động khoa học  công nghệ  một nhiệm vụ của  sở giáo dục.

        2.  sở giáo dục tự triển khai hoặc phối hợp với tổ chức khoa học 
        công nghệ,  sở sản xuất, kinh doanh, dịch vụ trong việc đào tạo,
        nghiên cứu khoa học  chuyển giao công nghệ, phục vụ phát triển kinh tế
        -  hội.

        3. Nhà nước tạo điều kiện cho  sở giáo dục hoạt động khoa học  công
        nghệ, kết hợp đào tạo với nghiên cứu khoa học  sản xuất nhằm nâng cao
        chất lượng giáo dục; xây dựng  sở giáo dục thành trung tâm văn hóa,
        khoa học  công nghệ của địa phương hoặc của cả nước.

        4. Nhà nước  chính sách ưu tiên phát triển hoạt động khoa học  công
        nghệ trong  sở giáo dục. Các chủ trương, chính sách về giáo dục phải
        được xây dựng trên  sở kết quả nghiên cứu khoa học phù hợp với thực
        tiễn Việt Nam  xu hướng quốc tế.
  - source_sentence: >-
      Em muốn biết thêm thông tin về chương trình hỗ trợ sinh viên nghiên cứu
      khoa học
    sentences:
      - >-
        Tiêu đề: Quy định Về việc miễn, giảm học phí, hỗ trợ chi phí học tập, hỗ
        trợ học tập cho sinh viên Đại học Bách khoa Hà Nội

        Mục: Điều 6. Đối tượng được hỗ trợ học tập

        Nội dung: Đối tượng được hỗ trợ học tập

        1. Đối tượng: Sinh viên  người dân tộc thiểu số rất ít người (Cống,
        Mảng, Pu Péo, Si La, Cờ Lao, Bố Y, La Ha, Ngái, Chứt, Ơ Đu, Brâu, 
        Măm,  Lô, Lự,  Thẻn, La Hủ).

        2. Mức hỗ trợ: Bằng 100% mức lương  sở/người/tháng. Thời gian được
        hưởng hỗ trợ 12 tháng/năm cho năm học  thời gian học đủ 9 tháng trở
        lên; trường hợp năm học không đủ 9 tháng thì được hưởng theo thời gian
        học thực tế.
      - >-
        Tiêu đề: Hướng dẫn Hồ sơ chế độ chính sách miễn giảm học phí, vay vốn
        ngân hàng

        Mục: B. Hỗ trợ chi phí học tập 

        Nội dung: 1. Đối tượng được nhận hỗ trợ chi phí học tập: Sinh viên 
        người dân tộc thiểu số thuộc hộ nghèo, hộ cận nghèo theo quy định của
        Nhà nước

        2. Mức hỗ trợ chi phí học tập: Bằng 60% mức lương  sở  được hưởng
        không quá 10 tháng/năm học/sinh viên.
      - >-
        Tiêu đề: Sổ tay sinh viên 2022

        Mục: NGHIÊN CỨU, SÁNG TẠO & KHỞI NGHIỆP

        Nội dung: HỖ TRỢ SINH VIÊN NGHIÊN CỨU KHOA HỌC THƯỜNG NIÊN

        Sinh viên theo đuổi những đề tài nghiên cứu dưới sự hướng dẫn của giảng
        viên giúp sinh viên hình thành  duy  phương pháp làm việc khoa học,
        thực hiện phương châm “học đi đôi với hành” hướng tới “khởi nghiệp”.
  - source_sentence: Tên học phần hoặc môn học  được ghi trên phụ lục văn bằng không?
    sentences:
      - >-
        Tiêu đề: Thông tư quy định nội dung chính ghi trên văn bằng và phụ lục
        văn bằng giáo dục đại học

        Mục: Điều 3. Nội dung chính ghi trên phụ lục văn bằng

        Nội dung: 1. Thông tin về người được cấp văn bằng: họ, chữ đệm, tên,
        ngày tháng năm sinh.

        2. Thông tin về văn bằng: tên  sở giáo dục đại học cấp bằng, chuyên
        ngành đào tạo, ngày nhập học, ngôn ngữ đào tạo, thời gian đào tạo, trình
        độ đào tạo theo Khung trình độ quốc gia Việt Nam, hình thức đào tạo.

        3. Thông tin về nội dung, kết quả học tập (nếu có): tên học phần hoặc
        môn học, số tín chỉ của từng học phần hoặc môn học, điểm học phần hoặc
        môn học, tổng số tín chỉ tích lũy, điểm trung bình, tên  kết quả luận
        văn, luận án, điểm xếp hạng tốt nghiệp. Trường hợp văn bằng được cấp khi
        các tín chỉ tích lũy  những  sở đào tạo khác nhau, cần ghi  tên môn
        học, số tín chỉ của từng môn học được công nhận để xét tốt nghiệp  tên
         sở đào tạo.

        4. Thông tin kết nối với văn bằng:  số sinh viên, học viên, nghiên cứu
        sinh; số hiệu văn bằng.
      - >-
        Tiêu đề: SĐH - Thạc sĩ - Miễn học phần

        Mục: Muốn xin miễn học phần Triết học thì cần làm gì?

        Nội dung: FAQ: Muốn xin miễn học phần Triết học thì cần làm gì?

        Trả lời: Học viên cần  đơn xin miễn học phần Triết học kèm theo bằng
        tốt nghiệp thạc  công chứng  phụ lục văn bằng  công chứng.
      - |-
        Tiêu đề: SĐH - Thạc sĩ - Tốt nghiệp
        Mục: Xếp loại thạc sĩ có thể hiện trên bằng tốt nghiệp không ?
        Nội dung: FAQ: Xếp loại thạc sĩ có thể hiện trên bằng tốt nghiệp không ?
        Trả lời: Xếp hạng tốt nghiệp thạc sĩ có được ghi trên bằng tốt nghiệp
  - source_sentence: Đơn vị trực thuộc  phải  một phần của  sở giáo dục đại học không?
    sentences:
      - >-
        Tiêu đề: HUST General

        Mục: Đại học Bách khoa  Nội trực thuộc tổ chức nào?

        Nội dung: FAQ: Đại học Bách khoa  Nội trực thuộc tổ chức nào?

        Trả lời: Đại học Bách khoa  Nội trực thuộc Bộ Giáo dục  Đào tạo 
        được xếp vào nhóm các đại học trọng điểm quốc gia.
      - >-
        Tiêu đề: Luật sửa đổi, bổ sung một số điều luật giáo dục đại học 2018

        Mục: Điều 4. Giải thích từ ngữ

        Nội dung: Trường  đơn vị đào tạo thuộc  sở giáo dục đại học, do hội
        đồng trường, hội đồng đại học quyết định việc thành lập theo quy định
        của Chính phủ, tổ chức  hoạt động theo quy chế tổ chức  hoạt động
        của  sở giáo dục đại học.
      - >-
        Tiêu đề: Luật sửa đổi, bổ sung một số điều luật giáo dục đại học 2018

        Mục: Điều 4. Giải thích từ ngữ

        Nội dung: Đơn vị trực thuộc  đơn vị   cách pháp nhân của  sở
        giáo dục đại học, do hội đồng trường, hội đồng đại học quyết định thành
        lập; tổ chức  hoạt động theo quy định của pháp luật, quy chế tổ chức
         hoạt động của  sở giáo dục đại học.
  - source_sentence: iCTSV giúp sinh viên rèn luyện những kỹ năng nào?
    sentences:
      - >-
        Tiêu đề: Sổ tay sinh viên 2022

        Mục: TỔ HỖ TRỢ TRIỂN KHAI HỆ THỐNG iCTSV

        Nội dung: TỔ HỖ TRỢ TRIỂN KHAI HỆ THỐNG iCTSV:

         đơn vị trực thuộc Phòng Công tác Sinh viên, tổ được lập ra với nhiệm
        vụ hỗ trợ triển khai hệ thống iCTSV trong công tác đánh giá kết quả rèn
        luyện của sinh viên.

        Mục tiêu hướng tới giúp sinh viên hoàn thiện quá trình rèn luyện tại
        trường với “Kiến thức - Kỹ năng - Thái độ”
      - "Tiêu đề: Cấp giấy tờ cho sinh viên (Giấy giới thiệu, giấy chứng nhận, giấy vay vốn ngân hàng, giấy làm Thẻ xe buýt ...)\nMục: 1. Cách thức đăng ký:\nNội dung: Cấp giấy tờ cho sinh viên (Giấy giới thiệu, giấy chứng nhận, giấy vay vốn ngân hàng, giấy làm Thẻ xe buýt ...)\nCách 1: Sinh viên đăng nhập vào hệ thống\_ctt.hust.edu.vn\_(tài khoản là địa chỉ email của sinh viên, mật khẩu là mật khẩu của email), sau đó vào mục “DỊCH VỤ” và chọn mục “THỦ TỤC HÀNH CHÍNH” để đăng ký cấp các loại giấy tờ cần thiết. Sau khi đăng ký xong, hệ thống sẽ thông báo qua email (do Trường cấp) cho sinh viên biết lịch nhận kết quả. Sinh viên đăng ký giấy tờ\_tại https://sv-ctt.hust.edu.vn/\nCách 2: Sinh viên cũng có thể đăng ký các loại giấy tờ trên bằng ứng dụng\_iCTSV\_(tải App iCTSV trên Apple App Store hoặc Google Play Store).\nCách 3:\_Đăng ký trực tiếp tại Ban CTSV (Phòng 103 nhà C1). Việc đăng ký cấp giấy tờ trực tiếp tại Phòng\_chỉ áp dụng giải quyết cho các loại giấy tờ không cung cấp mẫu đăng ký trên hệ thống."
      - >-
        Tiêu đề: CTSV - ĐRL

        Mục: Tham gia các hội thảo tuyển dụng  được tính điểm rèn luyện không
        ạ?

        Nội dung: FAQ: Tham gia các hội thảo tuyển dụng  được tính điểm rèn
        luyện không ạ?

        Trả lời: Tham gia hoạt động ngoại khoá (hội thảo tuyển dụng, tham quan
        doanh nghiệp,...) sẽ được tính điểm rèn luyện nếu  trong danh sách
        hoạt động ngoại khoá trên trang web https://ctsv.hust.edu.vn/ hoặc app
        iCTSV  bạn cần phải nộp đầy đủ minh chứng cho hoạt động đó.
pipeline_tag: sentence-similarity
library_name: sentence-transformers
metrics:
  - cosine_accuracy@1
  - cosine_accuracy@3
  - cosine_accuracy@5
  - cosine_accuracy@10
  - cosine_precision@1
  - cosine_precision@3
  - cosine_precision@5
  - cosine_precision@10
  - cosine_recall@1
  - cosine_recall@3
  - cosine_recall@5
  - cosine_recall@10
  - cosine_ndcg@10
  - cosine_mrr@10
  - cosine_map@100
model-index:
  - name: SentenceTransformer based on hiieu/halong_embedding
    results:
      - task:
          type: information-retrieval
          name: Information Retrieval
        dataset:
          name: evaluation
          type: evaluation
        metrics:
          - type: cosine_accuracy@1
            value: 0.47330677290836654
            name: Cosine Accuracy@1
          - type: cosine_accuracy@3
            value: 0.7059760956175298
            name: Cosine Accuracy@3
          - type: cosine_accuracy@5
            value: 0.8055776892430279
            name: Cosine Accuracy@5
          - type: cosine_accuracy@10
            value: 0.8948207171314742
            name: Cosine Accuracy@10
          - type: cosine_precision@1
            value: 0.47330677290836654
            name: Cosine Precision@1
          - type: cosine_precision@3
            value: 0.25737051792828686
            name: Cosine Precision@3
          - type: cosine_precision@5
            value: 0.18231075697211158
            name: Cosine Precision@5
          - type: cosine_precision@10
            value: 0.10382470119521914
            name: Cosine Precision@10
          - type: cosine_recall@1
            value: 0.4265604249667994
            name: Cosine Recall@1
          - type: cosine_recall@3
            value: 0.6717131474103586
            name: Cosine Recall@3
          - type: cosine_recall@5
            value: 0.7806108897742363
            name: Cosine Recall@5
          - type: cosine_recall@10
            value: 0.8825365205843293
            name: Cosine Recall@10
          - type: cosine_ndcg@10
            value: 0.6721725457651161
            name: Cosine Ndcg@10
          - type: cosine_mrr@10
            value: 0.6138265983684321
            name: Cosine Mrr@10
          - type: cosine_map@100
            value: 0.6032263734717686
            name: Cosine Map@100

SentenceTransformer based on hiieu/halong_embedding

This is a sentence-transformers model finetuned from hiieu/halong_embedding. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: hiieu/halong_embedding
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("MinhViet/halong_embedding_new")
# Run inference
sentences = [
    'iCTSV giúp sinh viên rèn luyện những kỹ năng nào?',
    'Tiêu đề: Sổ tay sinh viên 2022\nMục: TỔ HỖ TRỢ TRIỂN KHAI HỆ THỐNG iCTSV\nNội dung: TỔ HỖ TRỢ TRIỂN KHAI HỆ THỐNG iCTSV:\nLà đơn vị trực thuộc Phòng Công tác Sinh viên, tổ được lập ra với nhiệm vụ hỗ trợ triển khai hệ thống iCTSV trong công tác đánh giá kết quả rèn luyện của sinh viên.\nMục tiêu hướng tới giúp sinh viên hoàn thiện quá trình rèn luyện tại trường với “Kiến thức - Kỹ năng - Thái độ”',
    'Tiêu đề: Cấp giấy tờ cho sinh viên (Giấy giới thiệu, giấy chứng nhận, giấy vay vốn ngân hàng, giấy làm Thẻ xe buýt ...)\nMục: 1. Cách thức đăng ký:\nNội dung: Cấp giấy tờ cho sinh viên (Giấy giới thiệu, giấy chứng nhận, giấy vay vốn ngân hàng, giấy làm Thẻ xe buýt ...)\nCách 1: Sinh viên đăng nhập vào hệ thống\xa0ctt.hust.edu.vn\xa0(tài khoản là địa chỉ email của sinh viên, mật khẩu là mật khẩu của email), sau đó vào mục “DỊCH VỤ” và chọn mục “THỦ TỤC HÀNH CHÍNH” để đăng ký cấp các loại giấy tờ cần thiết. Sau khi đăng ký xong, hệ thống sẽ thông báo qua email (do Trường cấp) cho sinh viên biết lịch nhận kết quả. Sinh viên đăng ký giấy tờ\xa0tại https://sv-ctt.hust.edu.vn/\nCách 2: Sinh viên cũng có thể đăng ký các loại giấy tờ trên bằng ứng dụng\xa0iCTSV\xa0(tải App iCTSV trên Apple App Store hoặc Google Play Store).\nCách 3:\xa0Đăng ký trực tiếp tại Ban CTSV (Phòng 103 nhà C1). Việc đăng ký cấp giấy tờ trực tiếp tại Phòng\xa0chỉ áp dụng giải quyết cho các loại giấy tờ không cung cấp mẫu đăng ký trên hệ thống.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric Value
cosine_accuracy@1 0.4733
cosine_accuracy@3 0.706
cosine_accuracy@5 0.8056
cosine_accuracy@10 0.8948
cosine_precision@1 0.4733
cosine_precision@3 0.2574
cosine_precision@5 0.1823
cosine_precision@10 0.1038
cosine_recall@1 0.4266
cosine_recall@3 0.6717
cosine_recall@5 0.7806
cosine_recall@10 0.8825
cosine_ndcg@10 0.6722
cosine_mrr@10 0.6138
cosine_map@100 0.6032

Training Details

Training Dataset

Unnamed Dataset

  • Size: 11,799 training samples
  • Columns: question, context, negative_4, and negative_5
  • Approximate statistics based on the first 1000 samples:
    question context negative_4 negative_5
    type string string string string
    details
    • min: 7 tokens
    • mean: 19.26 tokens
    • max: 41 tokens
    • min: 39 tokens
    • mean: 136.46 tokens
    • max: 365 tokens
    • min: 44 tokens
    • mean: 143.31 tokens
    • max: 512 tokens
    • min: 39 tokens
    • mean: 141.71 tokens
    • max: 512 tokens
  • Samples:
    question context negative_4 negative_5
    Nền giáo dục Việt Nam lấy chủ nghĩa gì làm nền tảng? Tiêu đề: Luật giáo dục 2019
    Mục: Điều 3. Tính chất, nguyên lý giáo dục
    Nội dung: Tính chất, nguyên lý giáo dục
    1. Nền giáo dục Việt Nam là nền giáo dục xã hội chủ nghĩa có tính nhân dân, dân tộc, khoa học, hiện đại, lấy chủ nghĩa Mác - Lê nin và tư tưởng Hồ Chí Minh làm nền tảng.
    2. Hoạt động giáo dục được thực hiện theo nguyên lý học đi đôi với hành, lý luận gắn liền với thực tiễn, giáo dục nhà trường kết hợp với giáo dục gia đình và giáo dục xã hội.
    Tiêu đề: Luật giáo dục 2019
    Mục: Điều 17. Đầu tư cho giáo dục
    Nội dung: Đầu tư cho giáo dục
    1. Đầu tư cho giáo dục là đầu tư phát triển. Đầu tư trong lĩnh vực giáo dục là hoạt động đầu tư thuộc ngành, nghề đầu tư kinh doanh có điều kiện và được ưu đãi, hỗ trợ đầu tư theo quy định của pháp luật.
    2. Nhà nước ưu tiên đầu tư và thu hút các nguồn đầu tư khác cho giáo dục; ưu tiên đầu tư cho phổ cập giáo dục, phát triển giáo dục ở miền núi, hải đảo, vùng đồng bào dân tộc thiểu số, vùng có điều kiện kinh tế - xã hội đặc biệt khó khăn, địa bàn có khu công nghiệp.
    Nhà nước khuyến khích và bảo hộ các quyền, lợi ích hợp pháp của tổ chức, cá nhân trong nước, người Việt Nam định cư ở nước ngoài, tổ chức, cá nhân nước ngoài đầu tư cho giáo dục.
    3. Ngân sách nhà nước giữ vai trò chủ đạo trong tổng nguồn lực đầu tư cho giáo dục.
    Tiêu đề: ĐẠI HỌC BÁCH KHOA HÀ NỘI - SỨ MẠNG, TẦM NHÌN VÀ GIÁ TRỊ CỐT LÕI
    Mục: Giá trị cốt lõi
    Nội dung: Giá trị cốt lõi của Đại học Bách khoa Hà Nội
    Chất lượng - hiệu quả: Yếu tố cốt lõi làm nên thương hiệu Đại học Bách khoa Hà Nội là chất lượng xuất sắc gắn liền với hiệu quả tối ưu trong mọi hoạt động và trên mọi phương diện.
    Tận tụy - cống hiến: Sự tận tụy và đam mê là chìa khóa cho mọi thành công; sự tận tâm và cống hiến hết mình làm nên giá trị cao quý nhất của các thế hệ cán bộ và sinh viên Trường Đại học Bách khoa Hà Nội.
    Chính trực - tôn trọng: Sự chính trực trong chuyên môn, nghiệp vụ và lối sống, cùng với sự tôn trọng nhân phẩm, tôn trọng luật pháp và quy định, tôn trọng sự đa dạng và khác biệt là những chuẩn mực đạo đức cốt lõi trong môi trường đại học.
    Tài năng cá nhân - trí tuệ tập thể: Mọi thành công đột phá đều bắt nguồn từ sáng tạo và tài năng cá nhân, nhưng chìa khóa đảm bảo thành công bền vững chính là sự đoàn kết và trí tuệ tập thể.
    Kế thừa - sáng tạo: Động lực chính ...
    Nguyên lý giáo dục là gì? Tiêu đề: Luật giáo dục 2019
    Mục: Điều 3. Tính chất, nguyên lý giáo dục
    Nội dung: Tính chất, nguyên lý giáo dục
    1. Nền giáo dục Việt Nam là nền giáo dục xã hội chủ nghĩa có tính nhân dân, dân tộc, khoa học, hiện đại, lấy chủ nghĩa Mác - Lê nin và tư tưởng Hồ Chí Minh làm nền tảng.
    2. Hoạt động giáo dục được thực hiện theo nguyên lý học đi đôi với hành, lý luận gắn liền với thực tiễn, giáo dục nhà trường kết hợp với giáo dục gia đình và giáo dục xã hội.
    Tiêu đề: Quy chế tổ chức và quản lý đào tạo
    Mục: TỔ CHỨC ĐÀO TẠO TRÊN NỀN TẢNG SỐ - Điều 33. Một số thuật ngữ liên quan tới đào tạo trên nền tảng số
    Nội dung: 4. Phương thức dạy-học hỗn hợp (thuật ngữ tiếng Anh là Blended Learning và sau đây gọi tắt là B-Learning) là một phương thức truyền tải nội dung kiến thức đến người học bằng sự kết hợp giữa dạy-học trực tiếp trên lớp và dạy-học trực tuyến. Mục tiêu của phương thức B-Learning là nâng cao chất lượng và hiệu quả học tập của người học nhờ sự linh hoạt và thuận tiện của phương thức giảng dạy trực tuyến, trong khi vẫn duy trì được những ưu điểm của giảng dạy truyền thống trên lớp học.
    Tiêu đề: Luật giáo dục 2019
    Mục: Điều 5. Giải thích từ ngữ
    Nội dung: Giáo dục bắt buộc là giáo dục mà mọi công dân trong độ tuổi quy định bắt buộc phải học tập để đạt được trình độ học vấn tối thiểu theo quy định của pháp luật và được Nhà nước bảo đảm điều kiện để thực hiện.
    Giáo dục nhà trường kết hợp với những loại giáo dục nào? Tiêu đề: Luật giáo dục 2019
    Mục: Điều 3. Tính chất, nguyên lý giáo dục
    Nội dung: Tính chất, nguyên lý giáo dục
    1. Nền giáo dục Việt Nam là nền giáo dục xã hội chủ nghĩa có tính nhân dân, dân tộc, khoa học, hiện đại, lấy chủ nghĩa Mác - Lê nin và tư tưởng Hồ Chí Minh làm nền tảng.
    2. Hoạt động giáo dục được thực hiện theo nguyên lý học đi đôi với hành, lý luận gắn liền với thực tiễn, giáo dục nhà trường kết hợp với giáo dục gia đình và giáo dục xã hội.
    Tiêu đề: Luật sửa đổi, bổ sung một số điều luật giáo dục đại học 2018
    Mục: Điều 4. Giải thích từ ngữ
    Nội dung: Cơ sở giáo dục đại học là cơ sở giáo dục thuộc hệ thống giáo dục quốc dân, thực hiện chức năng đào tạo các trình độ của giáo dục đại học, hoạt động khoa học và công nghệ, phục vụ cộng đồng.
    Tiêu đề: Luật giáo dục 2019
    Mục: Điều 5. Giải thích từ ngữ
    Nội dung: Giáo dục chính quy là giáo dục theo khóa học trong cơ sở giáo dục để thực hiện một chương trình giáo dục nhất định, được thiết lập theo mục tiêu của các cấp học, trình độ đào tạo và được cấp văn bằng của hệ thống giáo dục quốc dân.
  • Loss: CachedMultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "mini_batch_size": 32
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 1024
  • per_device_eval_batch_size: 1024
  • weight_decay: 0.0001
  • num_train_epochs: 10
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 1024
  • per_device_eval_batch_size: 1024
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0001
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 10
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • tp_size: 0
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss evaluation_cosine_ndcg@10
0.3333 4 1.3311 0.6303
0.6667 8 0.9396 0.6429
1.0 12 0.9472 0.6502
1.3333 16 0.7951 0.6615
1.6667 20 0.7683 0.6708
2.0 24 0.7156 0.6683
2.3333 28 0.6307 0.6699
2.6667 32 0.6348 0.6719
3.0 36 0.6313 0.6686
3.3333 40 0.5766 0.6656
3.6667 44 0.5821 0.6704
4.0 48 0.5668 0.6731
4.3333 52 0.5384 0.6719
4.6667 56 0.5257 0.6739
5.0 60 0.492 0.6722
5.3333 64 0.4997 0.6652
5.6667 68 0.5011 0.6654
6.0 72 0.4601 0.6660
6.3333 76 0.4519 0.6670
6.6667 80 0.4516 0.6685
7.0 84 0.4766 0.6704
7.3333 88 0.4459 0.6726
7.6667 92 0.4109 0.6706
8.0 96 0.4239 0.6708
8.3333 100 0.403 0.6718
8.6667 104 0.4148 0.6713
9.0 108 0.4235 0.6714
9.3333 112 0.4505 0.6714
9.6667 116 0.4258 0.6723
10.0 120 0.4007 0.6722

Framework Versions

  • Python: 3.11.11
  • Sentence Transformers: 4.1.0
  • Transformers: 4.51.3
  • PyTorch: 2.5.1+cu124
  • Accelerate: 1.3.0
  • Datasets: 3.6.0
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

CachedMultipleNegativesRankingLoss

@misc{gao2021scaling,
    title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
    author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
    year={2021},
    eprint={2101.06983},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}