--- tags: - sentence-transformers - sentence-similarity - feature-extraction - dense - generated_from_trainer - dataset_size:16581 - loss:CachedMultipleNegativesRankingLoss base_model: bkai-foundation-models/vietnamese-bi-encoder widget: - source_sentence: "Có phải nhiều vĩ_nhân đã sinh ra ở Firenze không ? \n" sentences: - Sau khi thống_nhất , Việt_Nam tiếp_tục gặp khó_khăn do sự sụp_đổ và tan_rã của đồng_minh Liên_Xô cùng Khối phía Đông , các lệnh cấm_vận của Hoa_Kỳ , chiến_tranh với Campuchia , biên_giới giáp Trung_Quốc và hậu_quả của chính_sách bao_cấp sau nhiều năm áp_dụng . Năm 1986 , Đảng Cộng_sản ban_hành cải_cách đổi_mới , tạo điều_kiện hình_thành kinh_tế thị_trường và hội_nhập sâu_rộng . Cải_cách đổi_mới kết_hợp cùng quy_mô dân_số lớn đưa Việt_Nam trở_thành một trong những nước đang phát_triển có tốc_độ tăng_trưởng thuộc nhóm nhanh nhất thế_giới , được coi là Hổ mới châu Á dù_cho vẫn gặp phải những thách_thức như tham_nhũng , tội_phạm gia_tăng , ô_nhiễm môi_trường và phúc_lợi xã_hội chưa đầy_đủ . Ngoài_ra , giới bất_đồng chính_kiến , chính_phủ một_số nước phương Tây và các tổ_chức theo_dõi nhân_quyền có quan_điểm chỉ_trích hồ_sơ nhân_quyền của Việt_Nam liên_quan đến các vấn_đề tôn_giáo , kiểm_duyệt truyền_thông , hạn_chế hoạt_động ủng_hộ nhân_quyền cùng các quyền tự_do dân_sự . - 'Tuy_nhiên , sự_thật là không phải tới thời Lorenzo nắm quyền Phục_Hưng mới ra_đời , mà bản_thân gia_đình Medici cũng chỉ thừa_hưởng truyền_thống trọng nghệ_thuật của Firenze và phát_huy nó . Một_số người cho rằng Firenze trở_thành nơi khởi_đầu Phục_Hưng là do may_mắn , nghĩa_là đơn_thuần bởi_vì những vĩ_nhân ngẫu_nhiên sinh ra ở đây : cả da Vinci , Botticelli và Michelangelo đều là người xứ Toscana ( mà Firenze là thủ phủ ) . Tuy_nhiên các nhà sử_học khác phản_đối ý_kiến cho rằng đây là sự ngẫu_nhiên và quy cho truyền_thống trọng nghệ_thuật của Firenze .' - Hệ_thống đường_sắt Trung_Quốc thuộc sở_hữu nhà_nước , nằm trong số các hệ_thống nhộn_nhịp nhất trên thế_giới . Năm 2013 , đường_sắt Trung_Quốc vận_chuyển khoảng 2,106 tỷ lượt hành_khách , khoảng 3,967 tỷ tấn hàng_hóa . Hệ_thống đường_sắt cao_tốc Trung_Quốc bắt_đầu được xây_dựng từ đầu thập_niên 2000 , xếp_hàng_đầu thế_giới về chiều dài với 11.028 kilômét ( 6.852 dặm ) đường_ray vào năm 2013 . Tính đến năm 2017 , đất_nước có 127.000 km ( 78.914 dặm ) đường_sắt , xếp thứ hai trên thế_giới . Đường_sắt đáp_ứng nhu_cầu đi_lại khổng_lồ của người dân , đặc_biệt là trong kỳ nghỉ Tết_Nguyên_đán , thời_điểm cuộc di_cư hàng năm lớn nhất thế_giới của loài_người diễn ra - source_sentence: "Eo_biển Magalhães nguy_hiểm như thế_nào , đặc_biệt là về sóng\ \ , gió và đá ngầm ? \n" sentences: - Thái_Bình_Dương mỗi một chữ xuất_hiện trước nhất vào niên_đại 20 thế_kỉ XVI , do nhà_hàng_hải trưởng quốc_tịch Bồ_Đào_Nha_Fernão de Magalhães và đội thuyền tàu của ông đặt tên đầu_tiên . Ngày 20 tháng 9 năm 1519 , nhà_hàng_hải Magalhães chỉ_huy dẫn đạo đội thám_hiểm do 270 thủy_thủ hợp_thành khởi_hành từ Tây_Ban_Nha , vượt qua Đại_Tây_Dương , họ xông_pha sóng_gió hãi_hùng , chịu hết gian_khổ , rồi đến được mũi phía nam ở châu Nam_Mĩ , tiến vào một eo_biển . Eo_biển này về sau đặt tên theo Magalhães vô_cùng hiểm_trở và ác_liệt , đến chỗ đó là sóng lớn gió dữ và bãi cạn đá ngầm nguy_hiểm . Chiến_đấu hăng_hái gian_khổ trải qua 38 ngày , đội thuyền tàu cuối_cùng đã đến được mũi phía tây của eo_biển Magalhães , nhưng mà lúc đó đội thuyền tàu chỉ còn lại ba chiếc tàu , thuyền_viên của đội cũng đã mất đi một nửa . - 'Việt_Nam có khí_hậu nhiệt_đới gió_mùa , thời_tiết có sự_biến_động . Phía bắc dãy Bạch_Mã có 2 mùa gió chính : gió_mùa Đông_Bắc lạnh và khô vào mùa đông tạo nên mùa đông_lạnh ; gió Tây_Nam nóng khô và Đông_Nam ẩm_ướt vào mùa hè . Phía nam có gió Đông_Bắc vào mùa khô và gió Tây_Nam vào mùa mưa . Các dòng biển phần_nào đó điều hòa khí_hậu . Độ_ẩm tương_đối trung_bình là 84 % suốt năm . Việt_Nam trải qua các đợt lụt và bão , có lượng mưa từ 1.200 đến 3.000 mm , số giờ nắng khoảng 1.500 đến 3.000 giờ / năm và nhiệt_độ từ 5 ° C đến 37 ° C. Nhiệt_độ trung_bình năm tăng khoảng 0,5 độ Celsius trong vòng 50 năm ( 1964 – 2014 ) .' - 'Hội_họa Trung_Quốc có lịch_sử 5000 – 6000 năm với các loại_hình : bạch_họa , bản_họa , bích_họa . Đặc_biệt là nghệ_thuật vẽ tranh thủy_mặc , có ảnh_hưởng nhiều tới các nước ở Châu_Á . Cuốn_Lục pháp luận của Tạ_Hách đã tổng_kết những kinh_nghiệm hội_họa từ đời Hán đến đời Tùy . Tranh phong_cảnh được coi là đặc_trưng của nền hội_họa Trung_Quốc , mà đã phát_triển đỉnh_cao từ thời_kì Ngũ_Đại đến thời Bắc_Tống ( 907 – 1127 ) . Điêu_khắc Trung_Quốc được phân thành các ngành riêng như : Ngọc_điêu , thạch điêu , mộc điêu . Những tác_phẩm nổi_tiếng như cặp tượng Tần ngẫu đời Tần , tượng Lạc_sơn đại Phật đời Tây_Hán ( pho tượng cao nhất thế_giới ) , tượng Phật nghìn mắt nghìn tay . Không giống như phong_cách kiến_trúc Phương_Tây , kiến_trúc Trung_Hoa chú_trọng đến chiều rộng hơn là chiều cao của công_trình . Phong_thủy đóng vai_trò rất quan_trọng trong quá_trình xây_dựng .' - source_sentence: "Vì_sao Phúc_Kiến , với lịch_sử nhập_cư đa_dạng , lại được xem\ \ là một trong những khu_vực ngôn_ngữ phong_phú nhất của người Hán ở Trung_Quốc\ \ ? \n" sentences: - Do có địa_hình đồi núi với nhiều đợt nhập_cư đến từ miền Trung_Trung_Quốc trong dòng_chảy lịch_sử , Phúc Kiến là một trong những nơi đa_dạng nhất về ngôn_ngữ trong số các khu_vực người Hán trên toàn_quốc . Trong một khoảng_cách ngắn , các phương_ngữ trong cùng một địa_phương có_thể không hiểu lẫn nhau . Điều này được phản_ánh trong thành_ngữ " nếu bạn đi năm dặm tại Phúc Kiến thì văn_hóa sẽ biến_đổi , và nếu bạn đi mười dặm , ngôn_ngữ sẽ khác " . Việc phân_loại các phương_ngữ này khiến các nhà ngôn_ngữ_học lúng_túng . Nhìn_chung , hầu_hết các phương_ngữ tại Phúc Kiến được xếp thuộc về tiếng Mân , nhóm này lại chia thành tiếng Mân_Bắc , tiếng Mân_Đông , tiếng Mân_Trung , tiếng Mân_Nam , tiếng Phủ_Tiên , và tiếng Thiệu_Tương ( 邵将 ) . ( phân nhóm thứ_bảy của tiếng Mân , tiếng Hải_Nam , không nói ở Phúc_Kiến . ) Phương_ngữ Phúc_Châu thuộc tiếng Mân_Đông , song một_số nhà ngôn_ngữ_học lại phân nó thuộc tiếng Mân_Bắc ; tiếng Hạ_Môn là một bộ_phận của tiếng Mân_Nam . Tiếng Khách_Gia , một phân nhánh khác của tiếng Hán , được người Khách_Gia sinh_sống quanh Long_Nham nói . Cũng như các tỉnh khác , ngôn_ngữ chính_thức tại Phúc Kiến là tiếng Phổ_thông , được dùng để đàm_thoại giữa người dân ở các khu_vực khác nhau . - '" Đúng là nếu chỉ đọc báo_chí bên ngoài thì tưởng như Triều_Tiên rất đói_khổ , kiệt_quệ . Song nhiều đoàn của Việt_Nam và các nước khác sau khi thăm Triều_Tiên về đều kinh_ngạc : Không ngờ Triều_Tiên lại phát_triển đến như_vậy ... Về công_nghệ_cao , Triều_Tiên có nhiều thành_tựu mà ta phải ngưỡng_mộ . Tiềm_lực của người Triều_Tiên chính là sức_mạnh tinh_thần và văn_hóa , từ đó dẫn đến tiềm_lực quốc_phòng của họ ... Tôi nghĩ ở đây có vấn_đề về thông_tin . Chẳng_hạn như có 100 thông_tin , hình_ảnh đăng_tải trên thế_giới về Triều_Tiên thì có đến 80 % là từ báo_chí phương Tây , hay các nước mà Triều_Tiên gọi là thù_địch , tức chỉ nói_xấu , hay không có thì dựng ra là có . Bản_thân Triều_Tiên cũng ít đưa hình_ảnh của mình ra ngoài , nên dễ dẫn đến bị nhìn_nhận sai_lệch . Riêng tôi thấy rằng cần bình_tĩnh xem_xét và đặt lại câu hỏi : “ Bao_giờ ta có_thể làm được như họ ? ” Trước khi đến , nhiều người cứ nghĩ Triều_Tiên là quốc_gia vô_cùng khốn_khổ , người dân thì hiếu_chiến , nhưng đó là bởi họ chưa trực_tiếp tham_quan Triều_Tiên . " Trăm nghe không bằng một thấy " , nếu tiếp_nhận thông_tin qua nguồn gián_tiếp , sự sai_lệch sẽ rất nhiều .' - 'Mặc_dù nói_chung được công_nhận như là các đại_dương '' tách_biệt '' , nhưng các vùng nước_mặn này tạo thành một khối nước nối_liền với nhau trên toàn_cầu , thường được gọi chung là Đại_dương thế_giới hay đại_dương toàn_cầu . Khái_niệm về đại_dương toàn_cầu như là một khối nước liên_tục với sự trao_đổi tương_đối tự_do giữa các bộ_phận của nó có tầm quan_trọng nền_tảng cho hải_dương_học . Các phần đại_dương chính được định_nghĩa một phần dựa vào các châu_lục , các quần_đảo khác nhau cùng các tiêu_chí khác : các phần này là ( theo trật_tự giảm dần của diện_tích ) Thái_Bình_Dương , Đại_Tây_Dương , Ấn_Độ_Dương , Nam Đại_Dương ( đôi_khi được phân_chia và tạo thành_phần phía nam của Thái_Bình_Dương , Đại_Tây_Dương và Ấn_Độ_Dương ) và Bắc_Băng_Dương ( đôi_khi được coi là một biển của Đại_Tây_Dương ) . Thái_Bình_Dương và Đại_Tây_Dương cũng có_thể phân_chia tiếp bởi đường xích_đạo thành các phần Bắc và Nam . Các khu_vực nhỏ hơn của đại_dương được gọi là các biển , vịnh hay một_số các tên gọi khác . Cũng tồn_tại một_số khối nước_mặn nhỏ hơn trong đất_liền và không nối với Đại_dương thế_giới , như biển Aral , Great Salt_Lake ( Hồ_Muối Lớn ) – mặc_dù chúng có_thể coi như là các '' biển '' , nhưng thực_ra chúng là các hồ nước_mặn . Có 5 đại_dương trên thế_giới , trong đó Thái_Bình_Dương là lớn nhất và sâu nhất , thứ hai về diện_tích và độ sâu là Đại_Tây_Dương , tiếp_theo là Ấn_Độ_Dương , Nam Đại_Dương còn nhỏ và nông nhất là Bắc_Băng_Dương .' - source_sentence: "Theo điều_tra dân_số năm 2010 , dân_số Cộng_hòa Nhân_dân Trung_Hoa\ \ là bao_nhiêu ? \n" sentences: - Tuốt tócCó một nghi_lễ rất phổ_biến của người Ấn_Độ là buộc người phụ_nữ phải hiến_dâng mái_tóc của mình cho Chúa . Họ tin rằng càng hiến_dâng nhiều tóc thì Chúa càng ban phước cho người ấy . Thậm_chí những người Kỳ_Na_Giáo còn tiến_hành một nghi_thức đau_đớn và gây phẫn_nộ hơn là tuốt tóc của các tu_sĩ cho đến khi hói , trọc đầu . Các thánh Jain và tu_sĩ sẽ tiến_hành nghi_lễ này một đến hai lần trong năm như là một dấu_hiệu cho thấy họ đã từ_bỏ những thú_vui trần_tục và có sức chịu_đựng đau_đớn . - Theo kết_quả điều_tra nhân_khẩu toàn_quốc năm 2010 , dân_số nước Cộng_hòa Nhân_dân Trung_Hoa là 1.370.536.875 . Khoảng 16,60 % dân_số từ 14 tuổi trở xuống , 70,14 % từ 15 đến 59 tuổi , và 13,26 % từ 60 tuổi trở lên . Do dân_số đông và tài_nguyên thiên_nhiên suy_giảm , chính_phủ Trung_Quốc rất quan_tâm đến tốc_độ tăng_trưởng dân_số , và từ năm 1978 họ đã nỗ_lực tiến_hành với kết_quả khác nhau , nhằm thi_hành một chính_sách kế_hoạch_hóa gia_đình nghiêm_ngặt được gọi là " chính_sách một con . " Trước năm 2013 , chính_sách này tìm cách hạn_chế mỗi gia_đình có một con , ngoại_trừ các dân_tộc_thiểu_số và linh_hoạt nhất_định tại các khu_vực nông_thôn . Một nới lỏng lớn về chính_sách được han hành vào tháng 12 năm 2013 , cho phép các gia_đình có hai con nếu một trong song thân là con_một . Dữ_liệu từ điều_tra nhân_khẩu năm 2010 cho thấy rằng tổng_tỷ_suất sinh là khoảng 1,4 . Chính_sách một con cùng với truyền_thống trọng nam có_thể góp_phần vào mất cân_bằng về tỷ_suất giới_tính khi sinh . Theo điều_tra nhân_khẩu năm 2010 , tỷ_suất giới_tính khi sinh là 118,06 nam / 100 nữ , cao hơn mức thông_thường là khoảng 105 nam / 100 nữ . Kết_quả điều_tra nhân_khẩu vào năm 2013 cho thấy nam_giới chiếm 51,27 % tổng_dân_số . trong khi con_số này vào năm 1953 là 51,82 % . - Sau khi thống_nhất , Việt_Nam tiếp_tục gặp khó_khăn do sự sụp_đổ và tan_rã của đồng_minh Liên_Xô cùng Khối phía Đông , các lệnh cấm_vận của Hoa_Kỳ , chiến_tranh với Campuchia , biên_giới giáp Trung_Quốc và hậu_quả của chính_sách bao_cấp sau nhiều năm áp_dụng . Năm 1986 , Đảng Cộng_sản ban_hành cải_cách đổi_mới , tạo điều_kiện hình_thành kinh_tế thị_trường và hội_nhập sâu_rộng . Cải_cách đổi_mới kết_hợp cùng quy_mô dân_số lớn đưa Việt_Nam trở_thành một trong những nước đang phát_triển có tốc_độ tăng_trưởng thuộc nhóm nhanh nhất thế_giới , được coi là Hổ mới châu Á dù_cho vẫn gặp phải những thách_thức như tham_nhũng , tội_phạm gia_tăng , ô_nhiễm môi_trường và phúc_lợi xã_hội chưa đầy_đủ . Ngoài_ra , giới bất_đồng chính_kiến , chính_phủ một_số nước phương Tây và các tổ_chức theo_dõi nhân_quyền có quan_điểm chỉ_trích hồ_sơ nhân_quyền của Việt_Nam liên_quan đến các vấn_đề tôn_giáo , kiểm_duyệt truyền_thông , hạn_chế hoạt_động ủng_hộ nhân_quyền cùng các quyền tự_do dân_sự . - source_sentence: "Có phải số_lượng sinh_viên tốt_nghiệp ngành khoa_học , công_nghệ\ \ , kỹ_thuật và toán_học của Mỹ cao gấp đôi so với Trung_Quốc , mặc_dù dân_số\ \ Trung_Quốc hơn Mỹ 4,2 lần ? \n" sentences: - Cơ_quan lập_pháp dân_cử của Nhật_Bản là Quốc_hội ( 国会 , Kokkai ) , đặt trụ_sở_tại Chiyoda , Tokyo . Quốc_hội hoạt_động theo cơ_chế lưỡng viện , trong đó Hạ_viện ( 衆議院 ( Chúng_Nghị_viện ) , Shūgiin ) có 465 ghế , được cử_tri bầu_chọn sau mỗi bốn năm hoặc sau khi giải_tán , và Thượng_viện ( 参議院 ( Tham Nghị_viện ) , Sangiin ) có 245 ghế , được cử_tri bầu_chọn cho nhiệm_kỳ sáu năm và cứ mỗi ba năm được bầu lại một nửa số thành_viên . Quyền bầu_cử theo nguyên_tắc phổ_thông đầu_phiếu thuộc về mọi công_dân Nhật_Bản trên 18 tuổi không phân_biệt nam - nữ , trong đó áp_dụng phương_thức bỏ_phiếu kín tại tất_cả đơn_vị bầu_cử . Các nghị_sĩ quốc_hội chủ_yếu là người của Đảng Dân_chủ Tự_do có khuynh_hướng bảo_thủ . Đảng Dân_chủ Tự_do đã liên_tiếp giành thắng_lợi trong các cuộc tổng_tuyển_cử kể từ năm 1955 , ngoại_trừ hai giai_đoạn từ năm 1993 – 1994 và từ năm 2009 – 2012 . Đảng này chiếm 262 ghế trong Chúng_Nghị_viện và 113 ghế trong Tham Nghị_viện . - 'Nguyên_tắc chữ Hán_giản thể có_thể truy lên đề_nghị của Tiền Huyền Đồng vào năm 1922 . Tám nguyên_tắc_giản hoá là : chữ vay_mượn , chữ hình thanh , tiêu_chuẩn_hoá Thảo thư , chữ đặc_trưng , chữ vành , chữ hội_ý , chữ phù_hiệu , và chữ bộ thủ . Mặc_dù ra_đời trước Tiền Huyền_Đồng và không được rõ_ràng để bao_hàm các phương_pháp giản_ước chữ Hán_cụ_thể , các nguyên_tắc này đủ điển_hình , chính_sách giản_ước dùng không ít .' - Bên cạnh Huawei , việc công_ty thiết_bị viễn_thông lớn thứ hai Trung_Quốc là ZTE bị đẩy vào tình_trạng khó_khăn sau khi bị Mỹ cấm_vận công_nghệ cho thấy Trung_Quốc vẫn còn phụ_thuộc Mỹ rất lớn về một_số công_nghệ . Trên tạp_chí Forbes , ông Jean_Baptiste Su , Phó_Chủ_tịch công_ty nghiên_cứu thị_trường công_nghệ Atherton_Research ( Mỹ ) cho rằng khó_khăn của ZTE sau lệnh cấm_vận công_nghệ của Mỹ cho thấy hầu_như tất_cả các công_ty lớn của Trung_Quốc hiện đang phụ_thuộc lớn vào các công_nghệ của Mỹ . Các công_ty lớn của Trung_Quốc từ Baidu , Alibaba , Tencent , Xiaomi , Didi Chuxing cho đến Ngân_hàng Trung_Quốc ( BOC ) , Ngân_hàng Công_thương Trung_Quốc ( ICBC ) , các công_ty viễn_thông China_Mobile , China_Telecom , tập_đoàn dầu_khí nhà_nước Trung_Quốc Petro_China , hãng ô_tô nhà_nước SAIC. . . đều dựa vào công_nghệ , linh_kiện , phần_mềm hoặc tài_sản sở_hữu trí_tuệ của các công_ty nước_ngoài như Apple , Google , Intel , Qualcomm , Cisco , Micron , Microsoft ... Tác_giả cho rằng một lệnh cấm bán_công_nghệ Mỹ cho các công_ty Trung_Quốc có_thể làm suy_sụp nền kinh_tế Trung QuốcTheo một bài phân_tích của Bloomberg , bên cạnh một_số lĩnh_vực không sánh được với Mỹ thì Trung_Quốc cũng có những thế mạnh riêng để phát_triển trong tương_lai , như quy_mô dân_số , số người dùng internet , việc Huawei là hãng mạnh nhất về phát_triển của công_nghệ 5G mà các nhà mạng toàn_cầu mới bắt_đầu triển_khai . Năm 2016 , Trung_Quốc có 4,7 triệu sinh_viên tốt_nghiệp các ngành khoa_học , công_nghệ , kỹ_thuật và toán_học gần đây , trong khi Mỹ chỉ có 568.000 ( dân_số Trung_Quốc gấp 4,2 lần dân_số Mỹ , tính theo tỷ_lệ dân_số thì chỉ_số này của Trung_Quốc cao hơn 2 lần so với Mỹ ) . Chuỗi lắp_ráp , sản_xuất tại Trung_Quốc nhìn_chung vẫn nhỉnh hơn Mỹ về mặt tổng_sản_lượng trong nhiều ngành công_nghiệp và luôn có chi_phí thấp hơn Mỹ . Chiến_tranh lạnh về công_nghệ ngày_càng tăng_tiến giữa Trung_Quốc và Mỹ sẽ rất khó tìm bên chiến_thắng rõ_ràng . pipeline_tag: sentence-similarity library_name: sentence-transformers --- # SentenceTransformer based on bkai-foundation-models/vietnamese-bi-encoder This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [bkai-foundation-models/vietnamese-bi-encoder](https://huggingface.co/bkai-foundation-models/vietnamese-bi-encoder). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more. ## Model Details ### Model Description - **Model Type:** Sentence Transformer - **Base model:** [bkai-foundation-models/vietnamese-bi-encoder](https://huggingface.co/bkai-foundation-models/vietnamese-bi-encoder) - **Maximum Sequence Length:** 256 tokens - **Output Dimensionality:** 768 dimensions - **Similarity Function:** Cosine Similarity ### Model Sources - **Documentation:** [Sentence Transformers Documentation](https://sbert.net) - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers) - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers) ### Full Model Architecture ``` SentenceTransformer( (0): Transformer({'max_seq_length': 256, 'do_lower_case': False, 'architecture': 'RobertaModel'}) (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True}) ) ``` ## Usage ### Direct Usage (Sentence Transformers) First install the Sentence Transformers library: ```bash pip install -U sentence-transformers ``` Then you can load this model and run inference. ```python from sentence_transformers import SentenceTransformer # Download from the 🤗 Hub model = SentenceTransformer("truong1301/bi_encoder_viwiki_1") # Run inference sentences = [ 'Có phải số_lượng sinh_viên tốt_nghiệp ngành khoa_học , công_nghệ , kỹ_thuật và toán_học của Mỹ cao gấp đôi so với Trung_Quốc , mặc_dù dân_số Trung_Quốc hơn Mỹ 4,2 lần ? \n', 'Bên cạnh Huawei , việc công_ty thiết_bị viễn_thông lớn thứ hai Trung_Quốc là ZTE bị đẩy vào tình_trạng khó_khăn sau khi bị Mỹ cấm_vận công_nghệ cho thấy Trung_Quốc vẫn còn phụ_thuộc Mỹ rất lớn về một_số công_nghệ . Trên tạp_chí Forbes , ông Jean_Baptiste Su , Phó_Chủ_tịch công_ty nghiên_cứu thị_trường công_nghệ Atherton_Research ( Mỹ ) cho rằng khó_khăn của ZTE sau lệnh cấm_vận công_nghệ của Mỹ cho thấy hầu_như tất_cả các công_ty lớn của Trung_Quốc hiện đang phụ_thuộc lớn vào các công_nghệ của Mỹ . Các công_ty lớn của Trung_Quốc từ Baidu , Alibaba , Tencent , Xiaomi , Didi Chuxing cho đến Ngân_hàng Trung_Quốc ( BOC ) , Ngân_hàng Công_thương Trung_Quốc ( ICBC ) , các công_ty viễn_thông China_Mobile , China_Telecom , tập_đoàn dầu_khí nhà_nước Trung_Quốc Petro_China , hãng ô_tô nhà_nước SAIC. . . đều dựa vào công_nghệ , linh_kiện , phần_mềm hoặc tài_sản sở_hữu trí_tuệ của các công_ty nước_ngoài như Apple , Google , Intel , Qualcomm , Cisco , Micron , Microsoft ... Tác_giả cho rằng một lệnh cấm bán_công_nghệ Mỹ cho các công_ty Trung_Quốc có_thể làm suy_sụp nền kinh_tế Trung QuốcTheo một bài phân_tích của Bloomberg , bên cạnh một_số lĩnh_vực không sánh được với Mỹ thì Trung_Quốc cũng có những thế mạnh riêng để phát_triển trong tương_lai , như quy_mô dân_số , số người dùng internet , việc Huawei là hãng mạnh nhất về phát_triển của công_nghệ 5G mà các nhà mạng toàn_cầu mới bắt_đầu triển_khai . Năm 2016 , Trung_Quốc có 4,7 triệu sinh_viên tốt_nghiệp các ngành khoa_học , công_nghệ , kỹ_thuật và toán_học gần đây , trong khi Mỹ chỉ có 568.000 ( dân_số Trung_Quốc gấp 4,2 lần dân_số Mỹ , tính theo tỷ_lệ dân_số thì chỉ_số này của Trung_Quốc cao hơn 2 lần so với Mỹ ) . Chuỗi lắp_ráp , sản_xuất tại Trung_Quốc nhìn_chung vẫn nhỉnh hơn Mỹ về mặt tổng_sản_lượng trong nhiều ngành công_nghiệp và luôn có chi_phí thấp hơn Mỹ . Chiến_tranh lạnh về công_nghệ ngày_càng tăng_tiến giữa Trung_Quốc và Mỹ sẽ rất khó tìm bên chiến_thắng rõ_ràng .', 'Nguyên_tắc chữ Hán_giản thể có_thể truy lên đề_nghị của Tiền Huyền Đồng vào năm 1922 . Tám nguyên_tắc_giản hoá là : chữ vay_mượn , chữ hình thanh , tiêu_chuẩn_hoá Thảo thư , chữ đặc_trưng , chữ vành , chữ hội_ý , chữ phù_hiệu , và chữ bộ thủ . Mặc_dù ra_đời trước Tiền Huyền_Đồng và không được rõ_ràng để bao_hàm các phương_pháp giản_ước chữ Hán_cụ_thể , các nguyên_tắc này đủ điển_hình , chính_sách giản_ước dùng không ít .', ] embeddings = model.encode(sentences) print(embeddings.shape) # [3, 768] # Get the similarity scores for the embeddings similarities = model.similarity(embeddings, embeddings) print(similarities) # tensor([[ 1.0000, 0.5257, -0.0753], # [ 0.5257, 1.0000, -0.0857], # [-0.0753, -0.0857, 1.0000]]) ``` ## Training Details ### Training Dataset #### Unnamed Dataset * Size: 16,581 training samples * Columns: anchor and positive * Approximate statistics based on the first 1000 samples: | | anchor | positive | |:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------| | type | string | string | | details | | | * Samples: | anchor | positive | |:---------------------------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------| | Vì sao chế_độ quân_chủ chuyên_chế nhà Thanh không_thể bảo_vệ Trung_Quốc trước sự xâm_lược của phương Tây và chủ_nghĩa tư_bản ?
| Cuối thời nhà Thanh , do sự lạc_hậu về khoa_học công_nghệ , Trung_Quốc bị các nước phương Tây ( Anh , Đức , Nga , Pháp , Bồ_Đào_Nha ) và cả Nhật_Bản xâu_xé lãnh_thổ . Các nhà sử_học Trung_Quốc gọi thời_kỳ này là Bách_niên quốc sỉ ( 100 năm đất_nước bị làm_nhục ) . Chế_độ quân_chủ chuyên_chế đã tỏ ra quá già_cỗi , hoàn_toàn bất_lực trong việc bảo_vệ đất_nước chống lại chủ_nghĩa tư_bản phương Tây . Điều này gây bất_bình trong đội_ngũ trí_thức Trung_Quốc , một bộ_phận kêu_gọi tiến_hành cách_mạng lật_đổ chế_độ quân_chủ chuyên_chế của nhà Thanh , thành_lập một kiểu nhà_nước mới để canh tân đất_nước . Năm 1911 , cách_mạng Tân_Hợi nổ ra , hoàng đế cuối_cùng của Trung_Quốc là Phổ_Nghi buộc phải thoái_vị . | | Cuộc đảo_chính lật_đổ nền quân_chủ Yemen và thành_lập Cộng_hòa Ả_Rập Yemen có phải là nguyên_nhân dẫn đến nội_chiến ở nước này không ?
| 1962 : Khủng_hoảng tên_lửa Cuba . Algérie giành độc_lập . Cái chết của Marilyn_Monroe . Chiến_tranh Indonesia - Malaysia . Một cuộc đảo_chính lật_đổ nền quân_chủ và thành_lập nước Cộng_hòa Ả_Rập Yemen dẫn tới cuộc nội_chiến tại nước này . Chiến_tranh Trung - Ấn . | | Năm 1956 , sau khi Pháp rút quân khỏi Việt_Nam , ai là người lãnh_đạo Quốc_gia Việt_Nam ?
| Năm 1954 - Hiệp_định Genève quy_định lấy vĩ_tuyến 17 làm ranh_giới quân_sự tạm_thời ( bao_gồm cả trên đất_liền và trên biển ) . Quần_đảo Hoàng_Sa nằm ở phía Nam vĩ_tuyến 17 , được giao cho chính_quyền Liên_Hiệp Pháp quản_lý . Năm 1956 , sau khi Pháp hoàn_tất rút quân khỏi Việt_Nam , Quốc_gia Việt_Nam ( quốc_trưởng Bảo Đại đứng đầu ) đứng ra quản_lý . | * Loss: [CachedMultipleNegativesRankingLoss](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cachedmultiplenegativesrankingloss) with these parameters: ```json { "scale": 20.0, "similarity_fct": "cos_sim", "mini_batch_size": 1024, "gather_across_devices": false } ``` ### Evaluation Dataset #### Unnamed Dataset * Size: 2,090 evaluation samples * Columns: anchor and positive * Approximate statistics based on the first 1000 samples: | | anchor | positive | |:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------| | type | string | string | | details | | | * Samples: | anchor | positive | |:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------| | Liệu sự bất_bình_đẳng giới giữa con_trai và con_gái có phải là một vấn_đề nghiêm_trọng , đặc_biệt là ở Ấn_Độ không ?
| Phá_thai nếu sinh con gáiNhiều gia_đình ở Ấn_Độ bị áp_lực bởi truyền_thống trao của hồi_môn cho con_gái trước khi về nhà chồng , hoặc bị mất danh_dự do con_gái xấu_xí , hoặc đã bị hãm_hiếp mà không lấy được chồng , bởi_vậy họ không hề muốn sinh con_gái . Ngược_lại , con_trai là người duy_trì dòng tộc và mang lại tiền_bạc từ của hồi_môn của vợ . Kết_quả là , việc phá_thai nếu chẩn_đoán là con_gái xảy ra phổ_biến ở khắp nơi , kể_cả ở thành_phố và các gia_đình có giáo_dục . Cách phá_thai phổ_biến nhất là ăn một_số loại thảo_dược . Nếu sinh con rồi , họ có_thể dìm con trong sữa cho chết ngạt , hoặc cho con ăn thức_ăn quá lớn để chết vì nghẹn , thậm_chí chôn sống con . | | Sự_kiện ly_khai của họ Nguyễn và việc chúa Trịnh đem quân đánh vào năm 1627 đã dẫn đến thời_kỳ Trịnh - Nguyễn phân tranh kéo_dài hơn 40 năm phải không ?
| Biết rằng họ Nguyễn ly_khai , không chịu thần phục nữa , tháng 3 năm 1627 , chúa Trịnh mang quân đi đánh họ Nguyễn . Sự_kiện này đánh_dấu sự chia tách hoàn_toàn cả về lý_thuyết và thực_tế của xứ Thuận_Quảng_tức Đàng_Trong của Chúa Nguyễn với Đàng_Ngoài của Chúa_Trịnh . Nó cũng tạo ra thời_kỳ Trịnh - Nguyễn phân tranh kéo_dài 45 năm , từ 1627 đến 1672 , với 7 cuộc đại_chiến của 2 bên . Dân_tình quá_khổ_cực , chán_nản , hai họ Trịnh , Nguyễn phải ngừng chiến , lấy sông Gianh làm ranh_giới chia_cắt lãnh_thổ , miền Nam sông Gianh – Rào_Nan thuộc quyền chúa Nguyễn , được gọi là Đàng Trong . | | Kiến_trúc ở Kyoto , Uji có phải là một trong những công_trình mang đậm_nét sử_thi về lịch_sử cố_đô Kyoto không ?
| Các công_trình kiến_trúc lịch_sử cố_đô Kyoto nằm rải_rác 17 địa_điểm trong đó ba công_trình ở Kyoto , Ujin thuộc phủ Kyoto và Otsu ở huyện Shiga . Gồm có 3 chùa phật_giáo , 3 đền Thần_đạo và một lâu đài . Riêng 38 cơ_sở kiến_trúc được chính_phủ liệt vào danh_sách Di_sản quốc_gia , 160 kiến_trúc khác vào danh_sách Các công_trình văn_hóa quan_trọng . Tám khu vườn thắng_cảnh đặc_biệt và bốn với Thắng_cảnh đẹp . Công_nhận năm 1994 . | * Loss: [CachedMultipleNegativesRankingLoss](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cachedmultiplenegativesrankingloss) with these parameters: ```json { "scale": 20.0, "similarity_fct": "cos_sim", "mini_batch_size": 1024, "gather_across_devices": false } ``` ### Training Hyperparameters #### Non-Default Hyperparameters - `eval_strategy`: steps - `per_device_train_batch_size`: 32 - `per_device_eval_batch_size`: 32 - `learning_rate`: 2e-05 - `weight_decay`: 0.01 - `num_train_epochs`: 5 - `warmup_ratio`: 0.1 - `warmup_steps`: 50 - `fp16`: True - `load_best_model_at_end`: True - `batch_sampler`: no_duplicates #### All Hyperparameters
Click to expand - `overwrite_output_dir`: False - `do_predict`: False - `eval_strategy`: steps - `prediction_loss_only`: True - `per_device_train_batch_size`: 32 - `per_device_eval_batch_size`: 32 - `per_gpu_train_batch_size`: None - `per_gpu_eval_batch_size`: None - `gradient_accumulation_steps`: 1 - `eval_accumulation_steps`: None - `torch_empty_cache_steps`: None - `learning_rate`: 2e-05 - `weight_decay`: 0.01 - `adam_beta1`: 0.9 - `adam_beta2`: 0.999 - `adam_epsilon`: 1e-08 - `max_grad_norm`: 1.0 - `num_train_epochs`: 5 - `max_steps`: -1 - `lr_scheduler_type`: linear - `lr_scheduler_kwargs`: {} - `warmup_ratio`: 0.1 - `warmup_steps`: 50 - `log_level`: passive - `log_level_replica`: warning - `log_on_each_node`: True - `logging_nan_inf_filter`: True - `save_safetensors`: True - `save_on_each_node`: False - `save_only_model`: False - `restore_callback_states_from_checkpoint`: False - `no_cuda`: False - `use_cpu`: False - `use_mps_device`: False - `seed`: 42 - `data_seed`: None - `jit_mode_eval`: False - `use_ipex`: False - `bf16`: False - `fp16`: True - `fp16_opt_level`: O1 - `half_precision_backend`: auto - `bf16_full_eval`: False - `fp16_full_eval`: False - `tf32`: None - `local_rank`: 0 - `ddp_backend`: None - `tpu_num_cores`: None - `tpu_metrics_debug`: False - `debug`: [] - `dataloader_drop_last`: False - `dataloader_num_workers`: 0 - `dataloader_prefetch_factor`: None - `past_index`: -1 - `disable_tqdm`: False - `remove_unused_columns`: True - `label_names`: None - `load_best_model_at_end`: True - `ignore_data_skip`: False - `fsdp`: [] - `fsdp_min_num_params`: 0 - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False} - `tp_size`: 0 - `fsdp_transformer_layer_cls_to_wrap`: None - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None} - `deepspeed`: None - `label_smoothing_factor`: 0.0 - `optim`: adamw_torch - `optim_args`: None - `adafactor`: False - `group_by_length`: False - `length_column_name`: length - `ddp_find_unused_parameters`: None - `ddp_bucket_cap_mb`: None - `ddp_broadcast_buffers`: False - `dataloader_pin_memory`: True - `dataloader_persistent_workers`: False - `skip_memory_metrics`: True - `use_legacy_prediction_loop`: False - `push_to_hub`: False - `resume_from_checkpoint`: None - `hub_model_id`: None - `hub_strategy`: every_save - `hub_private_repo`: None - `hub_always_push`: False - `gradient_checkpointing`: False - `gradient_checkpointing_kwargs`: None - `include_inputs_for_metrics`: False - `include_for_metrics`: [] - `eval_do_concat_batches`: True - `fp16_backend`: auto - `push_to_hub_model_id`: None - `push_to_hub_organization`: None - `mp_parameters`: - `auto_find_batch_size`: False - `full_determinism`: False - `torchdynamo`: None - `ray_scope`: last - `ddp_timeout`: 1800 - `torch_compile`: False - `torch_compile_backend`: None - `torch_compile_mode`: None - `include_tokens_per_second`: False - `include_num_input_tokens_seen`: False - `neftune_noise_alpha`: None - `optim_target_modules`: None - `batch_eval_metrics`: False - `eval_on_start`: False - `use_liger_kernel`: False - `eval_use_gather_object`: False - `average_tokens_across_devices`: False - `prompts`: None - `batch_sampler`: no_duplicates - `multi_dataset_batch_sampler`: proportional - `router_mapping`: {} - `learning_rate_mapping`: {}
### Training Logs | Epoch | Step | Training Loss | Validation Loss | |:----------:|:--------:|:-------------:|:---------------:| | 0.1927 | 100 | 0.2414 | - | | 0.3854 | 200 | 0.1753 | - | | 0.5780 | 300 | 0.1559 | 0.1387 | | 0.7707 | 400 | 0.1442 | - | | 0.9634 | 500 | 0.129 | - | | 1.1561 | 600 | 0.1205 | 0.1092 | | 1.3487 | 700 | 0.0987 | - | | 1.5414 | 800 | 0.0966 | - | | 1.7341 | 900 | 0.0995 | 0.0950 | | 1.9268 | 1000 | 0.0874 | - | | 2.1195 | 1100 | 0.0719 | - | | 2.3121 | 1200 | 0.0588 | 0.0854 | | 2.5048 | 1300 | 0.0609 | - | | 2.6975 | 1400 | 0.0605 | - | | 2.8902 | 1500 | 0.0612 | 0.0838 | | 3.0829 | 1600 | 0.0458 | - | | 3.2755 | 1700 | 0.0409 | - | | 3.4682 | 1800 | 0.0359 | 0.0786 | | 3.6609 | 1900 | 0.0392 | - | | 3.8536 | 2000 | 0.041 | - | | 4.0462 | 2100 | 0.0355 | 0.0712 | | 4.2389 | 2200 | 0.0245 | - | | 4.4316 | 2300 | 0.0238 | - | | **4.6243** | **2400** | **0.0244** | **0.0704** | | 4.8170 | 2500 | 0.0265 | - | * The bold row denotes the saved checkpoint. ### Framework Versions - Python: 3.11.11 - Sentence Transformers: 5.1.0 - Transformers: 4.51.1 - PyTorch: 2.5.1+cu124 - Accelerate: 1.3.0 - Datasets: 3.5.0 - Tokenizers: 0.21.0 ## Citation ### BibTeX #### Sentence Transformers ```bibtex @inproceedings{reimers-2019-sentence-bert, title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks", author = "Reimers, Nils and Gurevych, Iryna", booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing", month = "11", year = "2019", publisher = "Association for Computational Linguistics", url = "https://arxiv.org/abs/1908.10084", } ``` #### CachedMultipleNegativesRankingLoss ```bibtex @misc{gao2021scaling, title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup}, author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan}, year={2021}, eprint={2101.06983}, archivePrefix={arXiv}, primaryClass={cs.LG} } ```