IDEA-CCNL
/

Erlangshen-SimCSE-110M-Chinese

Feature Extraction

Transformers

PyTorch

Chinese

bert

Model card Files Files and versions Community

Zimix commited on Nov 20, 2022

Commit

a807782

1 Parent(s): 521e48c

Update README.md

Browse files

Files changed (1) hide show

README.md +21 -12

README.md CHANGED Viewed

@@ -14,7 +14,7 @@ license: apache-2.0
 ## 简介 Brief Introduction
-基于simcse无监督版本，用搜集整理的中文nli数据进行simcse有监督任务的训练。在中文句子对任务上有良好的效果。
 **Erlangshen-SimCSE-110M-Chinese** is based on the unsupervised version of simcse, And training simcse supervised task with collected and sorted chinese NLI data for. It has good effect on the task in Chinese sentences pair.
@@ -22,7 +22,7 @@ license: apache-2.0
 |  需求 Demand  | 任务 Task       | 系列 Series      | 模型 Model    | 参数 Parameter | 额外 Extra |
 |  :----:  | :----:  | :----:  | :----:  | :----:  | :----:  |
-| 通用 General  | 自然语言生成 NLU | 闻仲 Erlangshen | Bert |      110M      |    中文 Chinese     |
 ## 模型信息 Model Information
@@ -45,21 +45,30 @@ In order to obtain a general sentence-embedding-model, we use a large number of
 ### 加载模型 Loading Models
 ```python
-from transformers import GPT2Tokenizer, GPT2Model
-tokenizer = GPT2Tokenizer.from_pretrained('IDEA-CCNL/Wenzhong2.0-GPT2-3.5B-chinese')
-model = GPT2Model.from_pretrained('IDEA-CCNL/Wenzhong2.0-GPT2-3.5B-chinese')
-text = "Replace me by any text you'd like."
-encoded_input = tokenizer(text, return_tensors='pt')
-output = model(**encoded_input)
 ```
 ### 使用示例 Usage Examples
 ```python
-from transformers import pipeline, set_seed
-set_seed(55)
-generator = pipeline('text-generation', model='IDEA-CCNL/Wenzhong2.0-GPT2-3.5B-chinese')
-generator("北京位于", max_length=30, num_return_sequences=1)
 ```
 ## 引用 Citation

 ## 简介 Brief Introduction
+基于simcse无监督版本，用搜集整理的中文NLI数据进行simcse有监督任务的训练。在中文句子对任务上有良好的效果。
 **Erlangshen-SimCSE-110M-Chinese** is based on the unsupervised version of simcse, And training simcse supervised task with collected and sorted chinese NLI data for. It has good effect on the task in Chinese sentences pair.
 |  需求 Demand  | 任务 Task       | 系列 Series      | 模型 Model    | 参数 Parameter | 额外 Extra |
 |  :----:  | :----:  | :----:  | :----:  | :----:  | :----:  |
+| 通用 General  | 自然语言生成 NLU | 二郎神 Erlangshen | Bert |      110M      |    中文 Chinese     |
 ## 模型信息 Model Information
 ### 加载模型 Loading Models
 ```python
+from transformers import AutoTokenizer,AutoModelForMaskedLM
+model =AutoModelForMaskedLM.from_pretrained('IDEA-CCNL/Erlangshen-SimCSE-110M-Chinese')
+tokenizer = AutoTokenizer.from_pretrained('IDEA-CCNL/Erlangshen-SimCSE-110M-Chinese')
 ```
 ### 使用示例 Usage Examples
 ```python
+from sklearn.metrics.pairwise import cosine_similarity
+texta = '今天天气真不错，我们去散步吧！'
+textb = '今天天气真糟糕，还是在宅家里写bug吧！'
+inputs_a = tokenizer(texta,return_tensors="pt")
+inputs_b = tokenizer(textb,return_tensors="pt")
+outputs_a = model(**inputs_a ,output_hidden_states=True)
+texta_embedding = outputs_a.hidden_states[-1][:,0,:].squeeze()
+outputs_b = model(**inputs_b ,output_hidden_states=True)
+textb_embedding = outputs_b.hidden_states[-1][:,0,:].squeeze()
+# if you use cuda, the text_embedding should be textb_embedding.cpu().numpy()
+silimarity_soce = cosine_similarity(texta_embedding.reshape(1,-1),textb_embedding .reshape(1,-1))[0][0]
 ```
 ## 引用 Citation