---
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- dense
- generated_from_trainer
- dataset_size:16581
- loss:CachedMultipleNegativesRankingLoss
base_model: bkai-foundation-models/vietnamese-bi-encoder
widget:
- source_sentence: "Có phải nhiều vĩ_nhân đã sinh ra ở Firenze không ? \n"
sentences:
- Sau khi thống_nhất , Việt_Nam tiếp_tục gặp khó_khăn do sự sụp_đổ và tan_rã của
đồng_minh Liên_Xô cùng Khối phía Đông , các lệnh cấm_vận của Hoa_Kỳ , chiến_tranh
với Campuchia , biên_giới giáp Trung_Quốc và hậu_quả của chính_sách bao_cấp sau
nhiều năm áp_dụng . Năm 1986 , Đảng Cộng_sản ban_hành cải_cách đổi_mới , tạo điều_kiện
hình_thành kinh_tế thị_trường và hội_nhập sâu_rộng . Cải_cách đổi_mới kết_hợp
cùng quy_mô dân_số lớn đưa Việt_Nam trở_thành một trong những nước đang phát_triển
có tốc_độ tăng_trưởng thuộc nhóm nhanh nhất thế_giới , được coi là Hổ mới châu
Á dù_cho vẫn gặp phải những thách_thức như tham_nhũng , tội_phạm gia_tăng , ô_nhiễm
môi_trường và phúc_lợi xã_hội chưa đầy_đủ . Ngoài_ra , giới bất_đồng chính_kiến
, chính_phủ một_số nước phương Tây và các tổ_chức theo_dõi nhân_quyền có quan_điểm
chỉ_trích hồ_sơ nhân_quyền của Việt_Nam liên_quan đến các vấn_đề tôn_giáo , kiểm_duyệt
truyền_thông , hạn_chế hoạt_động ủng_hộ nhân_quyền cùng các quyền tự_do dân_sự
.
- 'Tuy_nhiên , sự_thật là không phải tới thời Lorenzo nắm quyền Phục_Hưng mới ra_đời
, mà bản_thân gia_đình Medici cũng chỉ thừa_hưởng truyền_thống trọng nghệ_thuật
của Firenze và phát_huy nó . Một_số người cho rằng Firenze trở_thành nơi khởi_đầu
Phục_Hưng là do may_mắn , nghĩa_là đơn_thuần bởi_vì những vĩ_nhân ngẫu_nhiên sinh
ra ở đây : cả da Vinci , Botticelli và Michelangelo đều là người xứ Toscana (
mà Firenze là thủ phủ ) . Tuy_nhiên các nhà sử_học khác phản_đối ý_kiến cho rằng
đây là sự ngẫu_nhiên và quy cho truyền_thống trọng nghệ_thuật của Firenze .'
- Hệ_thống đường_sắt Trung_Quốc thuộc sở_hữu nhà_nước , nằm trong số các hệ_thống
nhộn_nhịp nhất trên thế_giới . Năm 2013 , đường_sắt Trung_Quốc vận_chuyển khoảng
2,106 tỷ lượt hành_khách , khoảng 3,967 tỷ tấn hàng_hóa . Hệ_thống đường_sắt cao_tốc
Trung_Quốc bắt_đầu được xây_dựng từ đầu thập_niên 2000 , xếp_hàng_đầu thế_giới
về chiều dài với 11.028 kilômét ( 6.852 dặm ) đường_ray vào năm 2013 . Tính đến
năm 2017 , đất_nước có 127.000 km ( 78.914 dặm ) đường_sắt , xếp thứ hai trên
thế_giới . Đường_sắt đáp_ứng nhu_cầu đi_lại khổng_lồ của người dân , đặc_biệt
là trong kỳ nghỉ Tết_Nguyên_đán , thời_điểm cuộc di_cư hàng năm lớn nhất thế_giới
của loài_người diễn ra
- source_sentence: "Eo_biển Magalhães nguy_hiểm như thế_nào , đặc_biệt là về sóng\
\ , gió và đá ngầm ? \n"
sentences:
- Thái_Bình_Dương mỗi một chữ xuất_hiện trước nhất vào niên_đại 20 thế_kỉ XVI ,
do nhà_hàng_hải trưởng quốc_tịch Bồ_Đào_Nha_Fernão de Magalhães và đội thuyền
tàu của ông đặt tên đầu_tiên . Ngày 20 tháng 9 năm 1519 , nhà_hàng_hải Magalhães
chỉ_huy dẫn đạo đội thám_hiểm do 270 thủy_thủ hợp_thành khởi_hành từ Tây_Ban_Nha
, vượt qua Đại_Tây_Dương , họ xông_pha sóng_gió hãi_hùng , chịu hết gian_khổ ,
rồi đến được mũi phía nam ở châu Nam_Mĩ , tiến vào một eo_biển . Eo_biển này về
sau đặt tên theo Magalhães vô_cùng hiểm_trở và ác_liệt , đến chỗ đó là sóng lớn
gió dữ và bãi cạn đá ngầm nguy_hiểm . Chiến_đấu hăng_hái gian_khổ trải qua 38
ngày , đội thuyền tàu cuối_cùng đã đến được mũi phía tây của eo_biển Magalhães
, nhưng mà lúc đó đội thuyền tàu chỉ còn lại ba chiếc tàu , thuyền_viên của đội
cũng đã mất đi một nửa .
- 'Việt_Nam có khí_hậu nhiệt_đới gió_mùa , thời_tiết có sự_biến_động . Phía bắc
dãy Bạch_Mã có 2 mùa gió chính : gió_mùa Đông_Bắc lạnh và khô vào mùa đông tạo
nên mùa đông_lạnh ; gió Tây_Nam nóng khô và Đông_Nam ẩm_ướt vào mùa hè . Phía
nam có gió Đông_Bắc vào mùa khô và gió Tây_Nam vào mùa mưa . Các dòng biển phần_nào
đó điều hòa khí_hậu . Độ_ẩm tương_đối trung_bình là 84 % suốt năm . Việt_Nam trải
qua các đợt lụt và bão , có lượng mưa từ 1.200 đến 3.000 mm , số giờ nắng khoảng
1.500 đến 3.000 giờ / năm và nhiệt_độ từ 5 ° C đến 37 ° C. Nhiệt_độ trung_bình
năm tăng khoảng 0,5 độ Celsius trong vòng 50 năm ( 1964 – 2014 ) .'
- 'Hội_họa Trung_Quốc có lịch_sử 5000 – 6000 năm với các loại_hình : bạch_họa ,
bản_họa , bích_họa . Đặc_biệt là nghệ_thuật vẽ tranh thủy_mặc , có ảnh_hưởng nhiều
tới các nước ở Châu_Á . Cuốn_Lục pháp luận của Tạ_Hách đã tổng_kết những kinh_nghiệm
hội_họa từ đời Hán đến đời Tùy . Tranh phong_cảnh được coi là đặc_trưng của nền
hội_họa Trung_Quốc , mà đã phát_triển đỉnh_cao từ thời_kì Ngũ_Đại đến thời Bắc_Tống
( 907 – 1127 ) . Điêu_khắc Trung_Quốc được phân thành các ngành riêng như : Ngọc_điêu
, thạch điêu , mộc điêu . Những tác_phẩm nổi_tiếng như cặp tượng Tần ngẫu đời
Tần , tượng Lạc_sơn đại Phật đời Tây_Hán ( pho tượng cao nhất thế_giới ) , tượng
Phật nghìn mắt nghìn tay . Không giống như phong_cách kiến_trúc Phương_Tây , kiến_trúc
Trung_Hoa chú_trọng đến chiều rộng hơn là chiều cao của công_trình . Phong_thủy
đóng vai_trò rất quan_trọng trong quá_trình xây_dựng .'
- source_sentence: "Vì_sao Phúc_Kiến , với lịch_sử nhập_cư đa_dạng , lại được xem\
\ là một trong những khu_vực ngôn_ngữ phong_phú nhất của người Hán ở Trung_Quốc\
\ ? \n"
sentences:
- Do có địa_hình đồi núi với nhiều đợt nhập_cư đến từ miền Trung_Trung_Quốc trong
dòng_chảy lịch_sử , Phúc Kiến là một trong những nơi đa_dạng nhất về ngôn_ngữ
trong số các khu_vực người Hán trên toàn_quốc . Trong một khoảng_cách ngắn , các
phương_ngữ trong cùng một địa_phương có_thể không hiểu lẫn nhau . Điều này được
phản_ánh trong thành_ngữ " nếu bạn đi năm dặm tại Phúc Kiến thì văn_hóa sẽ biến_đổi
, và nếu bạn đi mười dặm , ngôn_ngữ sẽ khác " . Việc phân_loại các phương_ngữ
này khiến các nhà ngôn_ngữ_học lúng_túng . Nhìn_chung , hầu_hết các phương_ngữ
tại Phúc Kiến được xếp thuộc về tiếng Mân , nhóm này lại chia thành tiếng Mân_Bắc
, tiếng Mân_Đông , tiếng Mân_Trung , tiếng Mân_Nam , tiếng Phủ_Tiên , và tiếng
Thiệu_Tương ( 邵将 ) . ( phân nhóm thứ_bảy của tiếng Mân , tiếng Hải_Nam , không
nói ở Phúc_Kiến . ) Phương_ngữ Phúc_Châu thuộc tiếng Mân_Đông , song một_số nhà
ngôn_ngữ_học lại phân nó thuộc tiếng Mân_Bắc ; tiếng Hạ_Môn là một bộ_phận của
tiếng Mân_Nam . Tiếng Khách_Gia , một phân nhánh khác của tiếng Hán , được người
Khách_Gia sinh_sống quanh Long_Nham nói . Cũng như các tỉnh khác , ngôn_ngữ chính_thức
tại Phúc Kiến là tiếng Phổ_thông , được dùng để đàm_thoại giữa người dân ở các
khu_vực khác nhau .
- '" Đúng là nếu chỉ đọc báo_chí bên ngoài thì tưởng như Triều_Tiên rất đói_khổ
, kiệt_quệ . Song nhiều đoàn của Việt_Nam và các nước khác sau khi thăm Triều_Tiên
về đều kinh_ngạc : Không ngờ Triều_Tiên lại phát_triển đến như_vậy ... Về công_nghệ_cao
, Triều_Tiên có nhiều thành_tựu mà ta phải ngưỡng_mộ . Tiềm_lực của người Triều_Tiên
chính là sức_mạnh tinh_thần và văn_hóa , từ đó dẫn đến tiềm_lực quốc_phòng của
họ ... Tôi nghĩ ở đây có vấn_đề về thông_tin . Chẳng_hạn như có 100 thông_tin
, hình_ảnh đăng_tải trên thế_giới về Triều_Tiên thì có đến 80 % là từ báo_chí
phương Tây , hay các nước mà Triều_Tiên gọi là thù_địch , tức chỉ nói_xấu , hay
không có thì dựng ra là có . Bản_thân Triều_Tiên cũng ít đưa hình_ảnh của mình
ra ngoài , nên dễ dẫn đến bị nhìn_nhận sai_lệch . Riêng tôi thấy rằng cần bình_tĩnh
xem_xét và đặt lại câu hỏi : “ Bao_giờ ta có_thể làm được như họ ? ” Trước khi
đến , nhiều người cứ nghĩ Triều_Tiên là quốc_gia vô_cùng khốn_khổ , người dân
thì hiếu_chiến , nhưng đó là bởi họ chưa trực_tiếp tham_quan Triều_Tiên . " Trăm
nghe không bằng một thấy " , nếu tiếp_nhận thông_tin qua nguồn gián_tiếp , sự
sai_lệch sẽ rất nhiều .'
- 'Mặc_dù nói_chung được công_nhận như là các đại_dương '' tách_biệt '' , nhưng
các vùng nước_mặn này tạo thành một khối nước nối_liền với nhau trên toàn_cầu
, thường được gọi chung là Đại_dương thế_giới hay đại_dương toàn_cầu . Khái_niệm
về đại_dương toàn_cầu như là một khối nước liên_tục với sự trao_đổi tương_đối
tự_do giữa các bộ_phận của nó có tầm quan_trọng nền_tảng cho hải_dương_học . Các
phần đại_dương chính được định_nghĩa một phần dựa vào các châu_lục , các quần_đảo
khác nhau cùng các tiêu_chí khác : các phần này là ( theo trật_tự giảm dần của
diện_tích ) Thái_Bình_Dương , Đại_Tây_Dương , Ấn_Độ_Dương , Nam Đại_Dương ( đôi_khi
được phân_chia và tạo thành_phần phía nam của Thái_Bình_Dương , Đại_Tây_Dương
và Ấn_Độ_Dương ) và Bắc_Băng_Dương ( đôi_khi được coi là một biển của Đại_Tây_Dương
) . Thái_Bình_Dương và Đại_Tây_Dương cũng có_thể phân_chia tiếp bởi đường xích_đạo
thành các phần Bắc và Nam . Các khu_vực nhỏ hơn của đại_dương được gọi là các
biển , vịnh hay một_số các tên gọi khác . Cũng tồn_tại một_số khối nước_mặn nhỏ
hơn trong đất_liền và không nối với Đại_dương thế_giới , như biển Aral , Great
Salt_Lake ( Hồ_Muối Lớn ) – mặc_dù chúng có_thể coi như là các '' biển '' , nhưng
thực_ra chúng là các hồ nước_mặn . Có 5 đại_dương trên thế_giới , trong đó Thái_Bình_Dương
là lớn nhất và sâu nhất , thứ hai về diện_tích và độ sâu là Đại_Tây_Dương , tiếp_theo
là Ấn_Độ_Dương , Nam Đại_Dương còn nhỏ và nông nhất là Bắc_Băng_Dương .'
- source_sentence: "Theo điều_tra dân_số năm 2010 , dân_số Cộng_hòa Nhân_dân Trung_Hoa\
\ là bao_nhiêu ? \n"
sentences:
- Tuốt tócCó một nghi_lễ rất phổ_biến của người Ấn_Độ là buộc người phụ_nữ phải
hiến_dâng mái_tóc của mình cho Chúa . Họ tin rằng càng hiến_dâng nhiều tóc thì
Chúa càng ban phước cho người ấy . Thậm_chí những người Kỳ_Na_Giáo còn tiến_hành
một nghi_thức đau_đớn và gây phẫn_nộ hơn là tuốt tóc của các tu_sĩ cho đến khi
hói , trọc đầu . Các thánh Jain và tu_sĩ sẽ tiến_hành nghi_lễ này một đến hai
lần trong năm như là một dấu_hiệu cho thấy họ đã từ_bỏ những thú_vui trần_tục
và có sức chịu_đựng đau_đớn .
- Theo kết_quả điều_tra nhân_khẩu toàn_quốc năm 2010 , dân_số nước Cộng_hòa Nhân_dân
Trung_Hoa là 1.370.536.875 . Khoảng 16,60 % dân_số từ 14 tuổi trở xuống , 70,14
% từ 15 đến 59 tuổi , và 13,26 % từ 60 tuổi trở lên . Do dân_số đông và tài_nguyên
thiên_nhiên suy_giảm , chính_phủ Trung_Quốc rất quan_tâm đến tốc_độ tăng_trưởng
dân_số , và từ năm 1978 họ đã nỗ_lực tiến_hành với kết_quả khác nhau , nhằm thi_hành
một chính_sách kế_hoạch_hóa gia_đình nghiêm_ngặt được gọi là " chính_sách một
con . " Trước năm 2013 , chính_sách này tìm cách hạn_chế mỗi gia_đình có một con
, ngoại_trừ các dân_tộc_thiểu_số và linh_hoạt nhất_định tại các khu_vực nông_thôn
. Một nới lỏng lớn về chính_sách được han hành vào tháng 12 năm 2013 , cho phép
các gia_đình có hai con nếu một trong song thân là con_một . Dữ_liệu từ điều_tra
nhân_khẩu năm 2010 cho thấy rằng tổng_tỷ_suất sinh là khoảng 1,4 . Chính_sách
một con cùng với truyền_thống trọng nam có_thể góp_phần vào mất cân_bằng về tỷ_suất
giới_tính khi sinh . Theo điều_tra nhân_khẩu năm 2010 , tỷ_suất giới_tính khi
sinh là 118,06 nam / 100 nữ , cao hơn mức thông_thường là khoảng 105 nam / 100
nữ . Kết_quả điều_tra nhân_khẩu vào năm 2013 cho thấy nam_giới chiếm 51,27 % tổng_dân_số
. trong khi con_số này vào năm 1953 là 51,82 % .
- Sau khi thống_nhất , Việt_Nam tiếp_tục gặp khó_khăn do sự sụp_đổ và tan_rã của
đồng_minh Liên_Xô cùng Khối phía Đông , các lệnh cấm_vận của Hoa_Kỳ , chiến_tranh
với Campuchia , biên_giới giáp Trung_Quốc và hậu_quả của chính_sách bao_cấp sau
nhiều năm áp_dụng . Năm 1986 , Đảng Cộng_sản ban_hành cải_cách đổi_mới , tạo điều_kiện
hình_thành kinh_tế thị_trường và hội_nhập sâu_rộng . Cải_cách đổi_mới kết_hợp
cùng quy_mô dân_số lớn đưa Việt_Nam trở_thành một trong những nước đang phát_triển
có tốc_độ tăng_trưởng thuộc nhóm nhanh nhất thế_giới , được coi là Hổ mới châu
Á dù_cho vẫn gặp phải những thách_thức như tham_nhũng , tội_phạm gia_tăng , ô_nhiễm
môi_trường và phúc_lợi xã_hội chưa đầy_đủ . Ngoài_ra , giới bất_đồng chính_kiến
, chính_phủ một_số nước phương Tây và các tổ_chức theo_dõi nhân_quyền có quan_điểm
chỉ_trích hồ_sơ nhân_quyền của Việt_Nam liên_quan đến các vấn_đề tôn_giáo , kiểm_duyệt
truyền_thông , hạn_chế hoạt_động ủng_hộ nhân_quyền cùng các quyền tự_do dân_sự
.
- source_sentence: "Có phải số_lượng sinh_viên tốt_nghiệp ngành khoa_học , công_nghệ\
\ , kỹ_thuật và toán_học của Mỹ cao gấp đôi so với Trung_Quốc , mặc_dù dân_số\
\ Trung_Quốc hơn Mỹ 4,2 lần ? \n"
sentences:
- Cơ_quan lập_pháp dân_cử của Nhật_Bản là Quốc_hội ( 国会 , Kokkai ) , đặt trụ_sở_tại
Chiyoda , Tokyo . Quốc_hội hoạt_động theo cơ_chế lưỡng viện , trong đó Hạ_viện
( 衆議院 ( Chúng_Nghị_viện ) , Shūgiin ) có 465 ghế , được cử_tri bầu_chọn sau mỗi
bốn năm hoặc sau khi giải_tán , và Thượng_viện ( 参議院 ( Tham Nghị_viện ) , Sangiin
) có 245 ghế , được cử_tri bầu_chọn cho nhiệm_kỳ sáu năm và cứ mỗi ba năm được
bầu lại một nửa số thành_viên . Quyền bầu_cử theo nguyên_tắc phổ_thông đầu_phiếu
thuộc về mọi công_dân Nhật_Bản trên 18 tuổi không phân_biệt nam - nữ , trong đó
áp_dụng phương_thức bỏ_phiếu kín tại tất_cả đơn_vị bầu_cử . Các nghị_sĩ quốc_hội
chủ_yếu là người của Đảng Dân_chủ Tự_do có khuynh_hướng bảo_thủ . Đảng Dân_chủ
Tự_do đã liên_tiếp giành thắng_lợi trong các cuộc tổng_tuyển_cử kể từ năm 1955
, ngoại_trừ hai giai_đoạn từ năm 1993 – 1994 và từ năm 2009 – 2012 . Đảng này
chiếm 262 ghế trong Chúng_Nghị_viện và 113 ghế trong Tham Nghị_viện .
- 'Nguyên_tắc chữ Hán_giản thể có_thể truy lên đề_nghị của Tiền Huyền Đồng vào năm
1922 . Tám nguyên_tắc_giản hoá là : chữ vay_mượn , chữ hình thanh , tiêu_chuẩn_hoá
Thảo thư , chữ đặc_trưng , chữ vành , chữ hội_ý , chữ phù_hiệu , và chữ bộ thủ
. Mặc_dù ra_đời trước Tiền Huyền_Đồng và không được rõ_ràng để bao_hàm các phương_pháp
giản_ước chữ Hán_cụ_thể , các nguyên_tắc này đủ điển_hình , chính_sách giản_ước
dùng không ít .'
- Bên cạnh Huawei , việc công_ty thiết_bị viễn_thông lớn thứ hai Trung_Quốc là ZTE
bị đẩy vào tình_trạng khó_khăn sau khi bị Mỹ cấm_vận công_nghệ cho thấy Trung_Quốc
vẫn còn phụ_thuộc Mỹ rất lớn về một_số công_nghệ . Trên tạp_chí Forbes , ông Jean_Baptiste
Su , Phó_Chủ_tịch công_ty nghiên_cứu thị_trường công_nghệ Atherton_Research (
Mỹ ) cho rằng khó_khăn của ZTE sau lệnh cấm_vận công_nghệ của Mỹ cho thấy hầu_như
tất_cả các công_ty lớn của Trung_Quốc hiện đang phụ_thuộc lớn vào các công_nghệ
của Mỹ . Các công_ty lớn của Trung_Quốc từ Baidu , Alibaba , Tencent , Xiaomi
, Didi Chuxing cho đến Ngân_hàng Trung_Quốc ( BOC ) , Ngân_hàng Công_thương Trung_Quốc
( ICBC ) , các công_ty viễn_thông China_Mobile , China_Telecom , tập_đoàn dầu_khí
nhà_nước Trung_Quốc Petro_China , hãng ô_tô nhà_nước SAIC. . . đều dựa vào công_nghệ
, linh_kiện , phần_mềm hoặc tài_sản sở_hữu trí_tuệ của các công_ty nước_ngoài
như Apple , Google , Intel , Qualcomm , Cisco , Micron , Microsoft ... Tác_giả
cho rằng một lệnh cấm bán_công_nghệ Mỹ cho các công_ty Trung_Quốc có_thể làm suy_sụp
nền kinh_tế Trung QuốcTheo một bài phân_tích của Bloomberg , bên cạnh một_số lĩnh_vực
không sánh được với Mỹ thì Trung_Quốc cũng có những thế mạnh riêng để phát_triển
trong tương_lai , như quy_mô dân_số , số người dùng internet , việc Huawei là
hãng mạnh nhất về phát_triển của công_nghệ 5G mà các nhà mạng toàn_cầu mới bắt_đầu
triển_khai . Năm 2016 , Trung_Quốc có 4,7 triệu sinh_viên tốt_nghiệp các ngành
khoa_học , công_nghệ , kỹ_thuật và toán_học gần đây , trong khi Mỹ chỉ có 568.000
( dân_số Trung_Quốc gấp 4,2 lần dân_số Mỹ , tính theo tỷ_lệ dân_số thì chỉ_số
này của Trung_Quốc cao hơn 2 lần so với Mỹ ) . Chuỗi lắp_ráp , sản_xuất tại Trung_Quốc
nhìn_chung vẫn nhỉnh hơn Mỹ về mặt tổng_sản_lượng trong nhiều ngành công_nghiệp
và luôn có chi_phí thấp hơn Mỹ . Chiến_tranh lạnh về công_nghệ ngày_càng tăng_tiến
giữa Trung_Quốc và Mỹ sẽ rất khó tìm bên chiến_thắng rõ_ràng .
pipeline_tag: sentence-similarity
library_name: sentence-transformers
---
# SentenceTransformer based on bkai-foundation-models/vietnamese-bi-encoder
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [bkai-foundation-models/vietnamese-bi-encoder](https://huggingface.co/bkai-foundation-models/vietnamese-bi-encoder). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
## Model Details
### Model Description
- **Model Type:** Sentence Transformer
- **Base model:** [bkai-foundation-models/vietnamese-bi-encoder](https://huggingface.co/bkai-foundation-models/vietnamese-bi-encoder)
- **Maximum Sequence Length:** 256 tokens
- **Output Dimensionality:** 768 dimensions
- **Similarity Function:** Cosine Similarity
### Model Sources
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
### Full Model Architecture
```
SentenceTransformer(
(0): Transformer({'max_seq_length': 256, 'do_lower_case': False, 'architecture': 'RobertaModel'})
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
```
## Usage
### Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
```bash
pip install -U sentence-transformers
```
Then you can load this model and run inference.
```python
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("truong1301/bi_encoder_viwiki_1")
# Run inference
sentences = [
'Có phải số_lượng sinh_viên tốt_nghiệp ngành khoa_học , công_nghệ , kỹ_thuật và toán_học của Mỹ cao gấp đôi so với Trung_Quốc , mặc_dù dân_số Trung_Quốc hơn Mỹ 4,2 lần ? \n',
'Bên cạnh Huawei , việc công_ty thiết_bị viễn_thông lớn thứ hai Trung_Quốc là ZTE bị đẩy vào tình_trạng khó_khăn sau khi bị Mỹ cấm_vận công_nghệ cho thấy Trung_Quốc vẫn còn phụ_thuộc Mỹ rất lớn về một_số công_nghệ . Trên tạp_chí Forbes , ông Jean_Baptiste Su , Phó_Chủ_tịch công_ty nghiên_cứu thị_trường công_nghệ Atherton_Research ( Mỹ ) cho rằng khó_khăn của ZTE sau lệnh cấm_vận công_nghệ của Mỹ cho thấy hầu_như tất_cả các công_ty lớn của Trung_Quốc hiện đang phụ_thuộc lớn vào các công_nghệ của Mỹ . Các công_ty lớn của Trung_Quốc từ Baidu , Alibaba , Tencent , Xiaomi , Didi Chuxing cho đến Ngân_hàng Trung_Quốc ( BOC ) , Ngân_hàng Công_thương Trung_Quốc ( ICBC ) , các công_ty viễn_thông China_Mobile , China_Telecom , tập_đoàn dầu_khí nhà_nước Trung_Quốc Petro_China , hãng ô_tô nhà_nước SAIC. . . đều dựa vào công_nghệ , linh_kiện , phần_mềm hoặc tài_sản sở_hữu trí_tuệ của các công_ty nước_ngoài như Apple , Google , Intel , Qualcomm , Cisco , Micron , Microsoft ... Tác_giả cho rằng một lệnh cấm bán_công_nghệ Mỹ cho các công_ty Trung_Quốc có_thể làm suy_sụp nền kinh_tế Trung QuốcTheo một bài phân_tích của Bloomberg , bên cạnh một_số lĩnh_vực không sánh được với Mỹ thì Trung_Quốc cũng có những thế mạnh riêng để phát_triển trong tương_lai , như quy_mô dân_số , số người dùng internet , việc Huawei là hãng mạnh nhất về phát_triển của công_nghệ 5G mà các nhà mạng toàn_cầu mới bắt_đầu triển_khai . Năm 2016 , Trung_Quốc có 4,7 triệu sinh_viên tốt_nghiệp các ngành khoa_học , công_nghệ , kỹ_thuật và toán_học gần đây , trong khi Mỹ chỉ có 568.000 ( dân_số Trung_Quốc gấp 4,2 lần dân_số Mỹ , tính theo tỷ_lệ dân_số thì chỉ_số này của Trung_Quốc cao hơn 2 lần so với Mỹ ) . Chuỗi lắp_ráp , sản_xuất tại Trung_Quốc nhìn_chung vẫn nhỉnh hơn Mỹ về mặt tổng_sản_lượng trong nhiều ngành công_nghiệp và luôn có chi_phí thấp hơn Mỹ . Chiến_tranh lạnh về công_nghệ ngày_càng tăng_tiến giữa Trung_Quốc và Mỹ sẽ rất khó tìm bên chiến_thắng rõ_ràng .',
'Nguyên_tắc chữ Hán_giản thể có_thể truy lên đề_nghị của Tiền Huyền Đồng vào năm 1922 . Tám nguyên_tắc_giản hoá là : chữ vay_mượn , chữ hình thanh , tiêu_chuẩn_hoá Thảo thư , chữ đặc_trưng , chữ vành , chữ hội_ý , chữ phù_hiệu , và chữ bộ thủ . Mặc_dù ra_đời trước Tiền Huyền_Đồng và không được rõ_ràng để bao_hàm các phương_pháp giản_ước chữ Hán_cụ_thể , các nguyên_tắc này đủ điển_hình , chính_sách giản_ước dùng không ít .',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[ 1.0000, 0.5257, -0.0753],
# [ 0.5257, 1.0000, -0.0857],
# [-0.0753, -0.0857, 1.0000]])
```
## Training Details
### Training Dataset
#### Unnamed Dataset
* Size: 16,581 training samples
* Columns: anchor and positive
* Approximate statistics based on the first 1000 samples:
| | anchor | positive |
|:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
| type | string | string |
| details |
Vì sao chế_độ quân_chủ chuyên_chế nhà Thanh không_thể bảo_vệ Trung_Quốc trước sự xâm_lược của phương Tây và chủ_nghĩa tư_bản ?
| Cuối thời nhà Thanh , do sự lạc_hậu về khoa_học công_nghệ , Trung_Quốc bị các nước phương Tây ( Anh , Đức , Nga , Pháp , Bồ_Đào_Nha ) và cả Nhật_Bản xâu_xé lãnh_thổ . Các nhà sử_học Trung_Quốc gọi thời_kỳ này là Bách_niên quốc sỉ ( 100 năm đất_nước bị làm_nhục ) . Chế_độ quân_chủ chuyên_chế đã tỏ ra quá già_cỗi , hoàn_toàn bất_lực trong việc bảo_vệ đất_nước chống lại chủ_nghĩa tư_bản phương Tây . Điều này gây bất_bình trong đội_ngũ trí_thức Trung_Quốc , một bộ_phận kêu_gọi tiến_hành cách_mạng lật_đổ chế_độ quân_chủ chuyên_chế của nhà Thanh , thành_lập một kiểu nhà_nước mới để canh tân đất_nước . Năm 1911 , cách_mạng Tân_Hợi nổ ra , hoàng đế cuối_cùng của Trung_Quốc là Phổ_Nghi buộc phải thoái_vị . |
| Cuộc đảo_chính lật_đổ nền quân_chủ Yemen và thành_lập Cộng_hòa Ả_Rập Yemen có phải là nguyên_nhân dẫn đến nội_chiến ở nước này không ?
| 1962 : Khủng_hoảng tên_lửa Cuba . Algérie giành độc_lập . Cái chết của Marilyn_Monroe . Chiến_tranh Indonesia - Malaysia . Một cuộc đảo_chính lật_đổ nền quân_chủ và thành_lập nước Cộng_hòa Ả_Rập Yemen dẫn tới cuộc nội_chiến tại nước này . Chiến_tranh Trung - Ấn . |
| Năm 1956 , sau khi Pháp rút quân khỏi Việt_Nam , ai là người lãnh_đạo Quốc_gia Việt_Nam ?
| Năm 1954 - Hiệp_định Genève quy_định lấy vĩ_tuyến 17 làm ranh_giới quân_sự tạm_thời ( bao_gồm cả trên đất_liền và trên biển ) . Quần_đảo Hoàng_Sa nằm ở phía Nam vĩ_tuyến 17 , được giao cho chính_quyền Liên_Hiệp Pháp quản_lý . Năm 1956 , sau khi Pháp hoàn_tất rút quân khỏi Việt_Nam , Quốc_gia Việt_Nam ( quốc_trưởng Bảo Đại đứng đầu ) đứng ra quản_lý . |
* Loss: [CachedMultipleNegativesRankingLoss](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cachedmultiplenegativesrankingloss) with these parameters:
```json
{
"scale": 20.0,
"similarity_fct": "cos_sim",
"mini_batch_size": 1024,
"gather_across_devices": false
}
```
### Evaluation Dataset
#### Unnamed Dataset
* Size: 2,090 evaluation samples
* Columns: anchor and positive
* Approximate statistics based on the first 1000 samples:
| | anchor | positive |
|:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
| type | string | string |
| details | Liệu sự bất_bình_đẳng giới giữa con_trai và con_gái có phải là một vấn_đề nghiêm_trọng , đặc_biệt là ở Ấn_Độ không ?
| Phá_thai nếu sinh con gáiNhiều gia_đình ở Ấn_Độ bị áp_lực bởi truyền_thống trao của hồi_môn cho con_gái trước khi về nhà chồng , hoặc bị mất danh_dự do con_gái xấu_xí , hoặc đã bị hãm_hiếp mà không lấy được chồng , bởi_vậy họ không hề muốn sinh con_gái . Ngược_lại , con_trai là người duy_trì dòng tộc và mang lại tiền_bạc từ của hồi_môn của vợ . Kết_quả là , việc phá_thai nếu chẩn_đoán là con_gái xảy ra phổ_biến ở khắp nơi , kể_cả ở thành_phố và các gia_đình có giáo_dục . Cách phá_thai phổ_biến nhất là ăn một_số loại thảo_dược . Nếu sinh con rồi , họ có_thể dìm con trong sữa cho chết ngạt , hoặc cho con ăn thức_ăn quá lớn để chết vì nghẹn , thậm_chí chôn sống con . |
| Sự_kiện ly_khai của họ Nguyễn và việc chúa Trịnh đem quân đánh vào năm 1627 đã dẫn đến thời_kỳ Trịnh - Nguyễn phân tranh kéo_dài hơn 40 năm phải không ?
| Biết rằng họ Nguyễn ly_khai , không chịu thần phục nữa , tháng 3 năm 1627 , chúa Trịnh mang quân đi đánh họ Nguyễn . Sự_kiện này đánh_dấu sự chia tách hoàn_toàn cả về lý_thuyết và thực_tế của xứ Thuận_Quảng_tức Đàng_Trong của Chúa Nguyễn với Đàng_Ngoài của Chúa_Trịnh . Nó cũng tạo ra thời_kỳ Trịnh - Nguyễn phân tranh kéo_dài 45 năm , từ 1627 đến 1672 , với 7 cuộc đại_chiến của 2 bên . Dân_tình quá_khổ_cực , chán_nản , hai họ Trịnh , Nguyễn phải ngừng chiến , lấy sông Gianh làm ranh_giới chia_cắt lãnh_thổ , miền Nam sông Gianh – Rào_Nan thuộc quyền chúa Nguyễn , được gọi là Đàng Trong . |
| Kiến_trúc ở Kyoto , Uji có phải là một trong những công_trình mang đậm_nét sử_thi về lịch_sử cố_đô Kyoto không ?
| Các công_trình kiến_trúc lịch_sử cố_đô Kyoto nằm rải_rác 17 địa_điểm trong đó ba công_trình ở Kyoto , Ujin thuộc phủ Kyoto và Otsu ở huyện Shiga . Gồm có 3 chùa phật_giáo , 3 đền Thần_đạo và một lâu đài . Riêng 38 cơ_sở kiến_trúc được chính_phủ liệt vào danh_sách Di_sản quốc_gia , 160 kiến_trúc khác vào danh_sách Các công_trình văn_hóa quan_trọng . Tám khu vườn thắng_cảnh đặc_biệt và bốn với Thắng_cảnh đẹp . Công_nhận năm 1994 . |
* Loss: [CachedMultipleNegativesRankingLoss](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cachedmultiplenegativesrankingloss) with these parameters:
```json
{
"scale": 20.0,
"similarity_fct": "cos_sim",
"mini_batch_size": 1024,
"gather_across_devices": false
}
```
### Training Hyperparameters
#### Non-Default Hyperparameters
- `eval_strategy`: steps
- `per_device_train_batch_size`: 32
- `per_device_eval_batch_size`: 32
- `learning_rate`: 2e-05
- `weight_decay`: 0.01
- `num_train_epochs`: 5
- `warmup_ratio`: 0.1
- `warmup_steps`: 50
- `fp16`: True
- `load_best_model_at_end`: True
- `batch_sampler`: no_duplicates
#### All Hyperparameters