SentenceTransformer based on hiieu/halong_embedding
This is a sentence-transformers model finetuned from hiieu/halong_embedding. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: hiieu/halong_embedding
- Maximum Sequence Length: 512 tokens
- Output Dimensionality: 768 dimensions
- Similarity Function: Cosine Similarity
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("MinhViet/halong_embedding_90")
# Run inference
sentences = [
'Phụ huynh muốn hỏi về yêu cầu cần đạt về phẩm chất và năng lực người học trong chương trình giáo dục phổ thông',
'Tiêu đề: Luật giáo dục 2019 \nMục: Điều 8. Chương trình giáo dục\nNội dung: Chuẩn kiến thức, kỹ năng, yêu cầu cần đạt về phẩm chất và năng lực người học quy định trong chương trình giáo dục phải được cụ thể hóa thành sách giáo khoa đối với giáo dục phổ thông; giáo trình và tài liệu giảng dạy đối với giáo dục nghề nghiệp, giáo dục đại học. Sách giáo khoa, giáo trình và tài liệu giảng dạy phải đáp ứng yêu cầu về phương pháp giáo dục.',
'Tiêu đề: Luật giáo dục 2019 \nMục: Điều 8. Chương trình giáo dục\nNội dung: Chương trình giáo dục thể hiện mục tiêu giáo dục; quy định chuẩn kiến thức, kỹ năng, yêu cầu cần đạt về phẩm chất và năng lực của người học; phạm vi và cấu trúc nội dung giáo dục; phương pháp và hình thức tổ chức hoạt động giáo dục; cách thức đánh giá kết quả giáo dục đối với các môn học ở mỗi lớp học, mỗi cấp học hoặc các môn học, mô-đun, ngành học đối với từng trình độ đào tạo.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Evaluation
Metrics
Information Retrieval
- Dataset:
evaluation
- Evaluated with
InformationRetrievalEvaluator
Metric | Value |
---|---|
cosine_accuracy@1 | 0.385 |
cosine_accuracy@3 | 0.617 |
cosine_accuracy@5 | 0.7207 |
cosine_accuracy@10 | 0.836 |
cosine_precision@1 | 0.385 |
cosine_precision@3 | 0.251 |
cosine_precision@5 | 0.1929 |
cosine_precision@10 | 0.1213 |
cosine_recall@1 | 0.276 |
cosine_recall@3 | 0.502 |
cosine_recall@5 | 0.6197 |
cosine_recall@10 | 0.7569 |
cosine_ndcg@10 | 0.5548 |
cosine_mrr@10 | 0.5258 |
cosine_map@100 | 0.4778 |
Training Details
Training Dataset
Unnamed Dataset
- Size: 17,571 training samples
- Columns:
question
,context
,negative_4
, andnegative_5
- Approximate statistics based on the first 1000 samples:
question context negative_4 negative_5 type string string string string details - min: 7 tokens
- mean: 18.99 tokens
- max: 41 tokens
- min: 39 tokens
- mean: 128.93 tokens
- max: 322 tokens
- min: 39 tokens
- mean: 136.92 tokens
- max: 512 tokens
- min: 44 tokens
- mean: 138.06 tokens
- max: 512 tokens
- Samples:
question context negative_4 negative_5 Mục tiêu giáo dục đại học là gì?
Tiêu đề: Luật giáo dục 2019
Mục: Điều 2. Mục tiêu giáo dục
Nội dung: Mục tiêu giáo dục nhằm phát triển toàn diện con người Việt Nam có đạo đức, tri thức, văn hóa, sức khỏe, thẩm mỹ và nghề nghiệp; có phẩm chất, năng lực và ý thức công dân; có lòng yêu nước, tinh thần dân tộc, trung thành với lý tưởng độc lập dân tộc và chủ nghĩa xã hội; phát huy tiềm năng, khả năng sáng tạo của mỗi cá nhân; nâng cao dân trí, phát triển nguồn nhân lực, bồi dưỡng nhân tài, đáp ứng yêu cầu của sự nghiệp xây dựng, bảo vệ Tổ quốc và hội nhập quốc tế.Tiêu đề: Luật sửa đổi, bổ sung một số điều luật giáo dục đại học 2018
Mục: Điều 7. Cơ sở giáo dục đại học
Nội dung: 4. Căn cứ vào năng lực và yêu cầu phát triển kinh tế - xã hội, cơ sở giáo dục đại học xác định mục tiêu phát triển, định hướng hoạt động như sau:
a) Cơ sở giáo dục đại học định hướng nghiên cứu;
b) Cơ sở giáo dục đại học định hướng ứng dụng.Tiêu đề: Luật sửa đổi, bổ sung một số điều luật giáo dục đại học 2018
Mục: Điều 7. Cơ sở giáo dục đại học
Nội dung: 1. Cơ sở giáo dục đại học có tư cách pháp nhân, bao gồm đại học, trường đại học và cơ sở giáo dục đại học có tên gọi khác phù hợp với quy định của pháp luật
Đại học quốc gia, đại học vùng là đại học thực hiện nhiệm vụ chiến lược quốc gia, nhiệm vụ phát triển vùng của đất nước.Em muốn biết về phát triển toàn diện con người Việt Nam trong giáo dục như thế nào?
Tiêu đề: Luật giáo dục 2019
Mục: Điều 2. Mục tiêu giáo dục
Nội dung: Mục tiêu giáo dục nhằm phát triển toàn diện con người Việt Nam có đạo đức, tri thức, văn hóa, sức khỏe, thẩm mỹ và nghề nghiệp; có phẩm chất, năng lực và ý thức công dân; có lòng yêu nước, tinh thần dân tộc, trung thành với lý tưởng độc lập dân tộc và chủ nghĩa xã hội; phát huy tiềm năng, khả năng sáng tạo của mỗi cá nhân; nâng cao dân trí, phát triển nguồn nhân lực, bồi dưỡng nhân tài, đáp ứng yêu cầu của sự nghiệp xây dựng, bảo vệ Tổ quốc và hội nhập quốc tế.Tiêu đề: Luật giáo dục 2019
Mục: Điều 3. Tính chất, nguyên lý giáo dục
Nội dung: Tính chất, nguyên lý giáo dục
1. Nền giáo dục Việt Nam là nền giáo dục xã hội chủ nghĩa có tính nhân dân, dân tộc, khoa học, hiện đại, lấy chủ nghĩa Mác - Lê nin và tư tưởng Hồ Chí Minh làm nền tảng.
2. Hoạt động giáo dục được thực hiện theo nguyên lý học đi đôi với hành, lý luận gắn liền với thực tiễn, giáo dục nhà trường kết hợp với giáo dục gia đình và giáo dục xã hội.Tiêu đề: Luật giáo dục 2019
Mục: Điều 17. Đầu tư cho giáo dục
Nội dung: Đầu tư cho giáo dục
1. Đầu tư cho giáo dục là đầu tư phát triển. Đầu tư trong lĩnh vực giáo dục là hoạt động đầu tư thuộc ngành, nghề đầu tư kinh doanh có điều kiện và được ưu đãi, hỗ trợ đầu tư theo quy định của pháp luật.
2. Nhà nước ưu tiên đầu tư và thu hút các nguồn đầu tư khác cho giáo dục; ưu tiên đầu tư cho phổ cập giáo dục, phát triển giáo dục ở miền núi, hải đảo, vùng đồng bào dân tộc thiểu số, vùng có điều kiện kinh tế - xã hội đặc biệt khó khăn, địa bàn có khu công nghiệp.
Nhà nước khuyến khích và bảo hộ các quyền, lợi ích hợp pháp của tổ chức, cá nhân trong nước, người Việt Nam định cư ở nước ngoài, tổ chức, cá nhân nước ngoài đầu tư cho giáo dục.
3. Ngân sách nhà nước giữ vai trò chủ đạo trong tổng nguồn lực đầu tư cho giáo dục.Em cần biết về tầm quan trọng của lòng yêu nước, tinh thần dân tộc trong giáo dục
Tiêu đề: Luật giáo dục 2019
Mục: Điều 2. Mục tiêu giáo dục
Nội dung: Mục tiêu giáo dục nhằm phát triển toàn diện con người Việt Nam có đạo đức, tri thức, văn hóa, sức khỏe, thẩm mỹ và nghề nghiệp; có phẩm chất, năng lực và ý thức công dân; có lòng yêu nước, tinh thần dân tộc, trung thành với lý tưởng độc lập dân tộc và chủ nghĩa xã hội; phát huy tiềm năng, khả năng sáng tạo của mỗi cá nhân; nâng cao dân trí, phát triển nguồn nhân lực, bồi dưỡng nhân tài, đáp ứng yêu cầu của sự nghiệp xây dựng, bảo vệ Tổ quốc và hội nhập quốc tế.Tiêu đề: Sổ tay sinh viên 2022
Mục: Bộ quy tắc ứng xử văn hoá
Nội dung: ỨNG XỬ ĐỐI VỚI BẠN BÈ & MÔI TRƯỜNG
1. Đoàn kết giúp đỡ nhau trong học tập và rèn luyện.
2. Biết lắng nghe, tôn trọng sự khác biệt về quan điểm, lối sống của nhau. Lời nói, hành vi, cử chỉ phải có văn hóa. Không gây gổ, xích mích, làm tổn thương đến tinh thần, xâm phạm thân thể lẫn nhau.
3. Không sử dụng mạng internet, mạng xã hội, ...để nói xấu, tuyên truyền nhằm bôi nhọ, kích động hận thù đối với người khác. Giữ gìn mối quan hệ bình đẳng, trong sáng với bạn bè khác giới.
4. Có ý thức giữ gìn vệ sinh, cảnh quan môi trường và các không gian học tập,bảo vệ cơ sở vật chất của Nhà trường ... không được giẫm chân lên tường, ghế đá, bàn, ghế. Bỏ rác vào đúng nơi quy định.
5. Tham gia các hoạt động bảo vệ môi trường, sử dụng an toàn và tiết kiệm điện, nước, trang thiết bị của Nhà trường. Có ý thức bảo vệ các công trình văn hóa, các di tích lịch sử ở địa phương.
6. Không được treo, dán áp phích, băng rôn, biểu ngữ khi chưa...Tiêu đề: Sổ tay sinh viên 2022
Mục: ĐIỂM RÈN LUYỆN SINH VIÊN
Nội dung: CÁC MẶT ĐÁNH GIÁ ĐIỂM RÈN LUYỆN SINH VIÊN:
Ý thức, thái độ học tập và nghiên cứu khoa học
Phẩm chất công dân, trách nhiệm và quan hệ với cộng đồng
Kết quả hoặc các thành tích đặc biệt trong học tập, rèn luyện của sinh viên
Ý thức và kết quả chấp hành nội quy, quy chế trong Nhà trường
Ý thức và kết quả tham gia các hoạt động chính trị, xã hội, văn hoá, văn nghệ, thể thao, khoa học, hướng nghiệp, phòng chống tệ nạn của lớp, các đoàn thể, tổ chức khác trong và ngoài Nhà Trường - Loss:
CachedMultipleNegativesRankingLoss
with these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim", "mini_batch_size": 32 }
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy
: stepsper_device_train_batch_size
: 1024per_device_eval_batch_size
: 1024weight_decay
: 0.0001num_train_epochs
: 5batch_sampler
: no_duplicates
All Hyperparameters
Click to expand
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: stepsprediction_loss_only
: Trueper_device_train_batch_size
: 1024per_device_eval_batch_size
: 1024per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 5e-05weight_decay
: 0.0001adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1.0num_train_epochs
: 5max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.0warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Falsefp16
: Falsefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Falseignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}tp_size
: 0fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Nonehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseinclude_for_metrics
: []eval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseuse_liger_kernel
: Falseeval_use_gather_object
: Falseaverage_tokens_across_devices
: Falseprompts
: Nonebatch_sampler
: no_duplicatesmulti_dataset_batch_sampler
: proportional
Training Logs
Epoch | Step | Training Loss | evaluation_cosine_ndcg@10 |
---|---|---|---|
0.2222 | 4 | 1.5488 | 0.5064 |
0.4444 | 8 | 1.195 | 0.5327 |
0.6667 | 12 | 1.0907 | 0.5451 |
0.8889 | 16 | 1.0256 | 0.5583 |
1.1111 | 20 | 0.9215 | 0.5584 |
1.3333 | 24 | 0.9129 | 0.5596 |
1.5556 | 28 | 0.8798 | 0.5587 |
1.7778 | 32 | 0.8194 | 0.5577 |
2.0 | 36 | 0.7745 | 0.5556 |
2.2222 | 40 | 0.7281 | 0.5593 |
2.4444 | 44 | 0.7079 | 0.5602 |
2.6667 | 48 | 0.7308 | 0.5633 |
2.8889 | 52 | 0.6881 | 0.5587 |
3.1111 | 56 | 0.7093 | 0.5530 |
3.3333 | 60 | 0.6957 | 0.5554 |
3.5556 | 64 | 0.6616 | 0.5590 |
3.7778 | 68 | 0.646 | 0.5616 |
4.0 | 72 | 0.6726 | 0.5603 |
4.2222 | 76 | 0.6494 | 0.5578 |
4.4444 | 80 | 0.6248 | 0.5560 |
4.6667 | 84 | 0.6063 | 0.5548 |
4.8889 | 88 | 0.635 | 0.5548 |
Framework Versions
- Python: 3.11.11
- Sentence Transformers: 4.1.0
- Transformers: 4.51.3
- PyTorch: 2.5.1+cu124
- Accelerate: 1.3.0
- Datasets: 3.5.0
- Tokenizers: 0.21.0
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
CachedMultipleNegativesRankingLoss
@misc{gao2021scaling,
title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
year={2021},
eprint={2101.06983},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
- Downloads last month
- 2
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support
Model tree for MinhViet/halong_embedding_90
Evaluation results
- Cosine Accuracy@1 on evaluationself-reported0.385
- Cosine Accuracy@3 on evaluationself-reported0.617
- Cosine Accuracy@5 on evaluationself-reported0.721
- Cosine Accuracy@10 on evaluationself-reported0.836
- Cosine Precision@1 on evaluationself-reported0.385
- Cosine Precision@3 on evaluationself-reported0.251
- Cosine Precision@5 on evaluationself-reported0.193
- Cosine Precision@10 on evaluationself-reported0.121
- Cosine Recall@1 on evaluationself-reported0.276
- Cosine Recall@3 on evaluationself-reported0.502