TheWeeeed
/

chinese-paragraph-selector

+license: apache-2.0 # 或者您選擇的其他許可證，例如 mit, cc-by-4.0
+language:
+- zh # 中文
+tags:
+- extractive-qa
+- bert
+- chinese
+pipeline_tag: question-answering
+widget:
+- question: "模型卡片的作者是誰？"
+  context: "這張模型卡片是由一個大型語言模型協助創建的。"
+  candidate_labels: ["大型語言模型", "Hugging Face", "用戶"] # 如果是多選模型
+# - text: "這是一段示例文本，用於測試模型。" # 如果是文本生成或其他類型
+#   answers: # 如果是問答模型，可以提供一個示例答案
+#   - "一個大型語言模型"
+---
+# 模型名稱：[您的模型名稱，例如：中文抽取式問答模型 - 段落選擇器]
+這是一個為中文抽取式問答任務微調的 [基礎模型架構，例如：BERT] 模型。
+它是[您的兩階段問答系統的描述，例如：一個兩階段問答系統的第一階段/第二階段]，用於[模型的功能，例如：從候選段落中選擇最相關的段落/從給定段落中提取答案]。
+## 模型描述
+* **模型類型**: [例如：bert-base-chinese 微調後的 `AutoModelForMultipleChoice` 或 `AutoModelForQuestionAnswering`]
+* **語言**: 中文 (簡體/繁體，請指明)
+* **訓練數據**: [簡要描述您用於訓練的數據集，例如：基於 [某數據集名稱] 修改/生成的自定義數據集，包含問題、候選段落和相關段落標籤/答案標註]
+* **開發者**: [您的名字或組織名，例如：TheWeeeed (YuTsyh)]
+* **相關項目/GitHub倉庫**: [鏈接到您的 GitHub 倉庫，例如：https://github.com/YuTsyh/Chinese-Extractive-Question-Answering-QA-.git]
+* **相關模型 (如果適用)**:
+    * [例如：對於答案抽取模型，可以鏈接到段落選擇模型：TheWeeeed/chinese-paragraph-selector]
+    * [例如：對於段落選擇模型，可以鏈接到答案抽取模型：TheWeeeed/chinese-extractive-qa]
+## 用途
+### 直接使用
+您可以直接使用這個模型進行[多項選擇/問題回答]。
+```python
+from transformers import AutoTokenizer, AutoModelForMultipleChoice # 或者 AutoModelForQuestionAnswering
+tokenizer = AutoTokenizer.from_pretrained("TheWeeeed/[您的模型倉庫名]")
+model = AutoModelForMultipleChoice.from_pretrained("TheWeeeed/[您的模型倉庫名]") # 或者 AutoModelForQuestionAnswering
+# --- 如果是段落選擇模型 (AutoModelForMultipleChoice) ---
+question = "問題文本"
+candidate_paragraphs = ["段落文本1", "段落文本2", "段落文本3", "段落文本4"]
+inputs = []
+for paragraph_text in candidate_paragraphs:
+    inputs.append(tokenizer(question, paragraph_text, return_tensors="pt", truncation=True, padding="max_length", max_length=512))
+# 準備模型的輸入格式
+input_ids = torch.stack([inp['input_ids'].squeeze(0) for inp in inputs]).unsqueeze(0)
+attention_mask = torch.stack([inp['attention_mask'].squeeze(0) for inp in inputs]).unsqueeze(0)
+# token_type_ids = ... (如果您的模型使用它)
+# device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+# model.to(device)
+# input_ids = input_ids.to(device)
+# attention_mask = attention_mask.to(device)
+with torch.no_grad():
+    outputs = model(input_ids=input_ids, attention_mask=attention_mask) # 可能還需要 token_type_ids
+predicted_index = torch.argmax(outputs.logits, dim=1).item()
+print(f"選擇的段落索引: {predicted_index}, 內容: {candidate_paragraphs[predicted_index][:100]}...")
+# --- 如果是答案抽取模型 (AutoModelForQuestionAnswering) ---
+# question = "問題文本"
+# context = "從段落選擇模型選出的相關段落文本"
+# inputs = tokenizer(question, context, return_tensors="pt", truncation=True, padding="max_length", max_length=384)
+# # inputs = {k: v.to(device) for k,v in inputs.items()} # 如果使用GPU
+# with torch.no_grad():
+#     outputs = model(**inputs)
+# start_logits = outputs.start_logits
+# end_logits = outputs.end_logits
+# # (接下來需要 utils_qa.py 中的後處理邏輯來提取答案文本)
+# # all_tokens = tokenizer.convert_ids_to_tokens(inputs["input_ids"].squeeze().tolist())
+# # answer_tokens = all_tokens[torch.argmax(start_logits):torch.argmax(end_logits)+1]
+# # answer = tokenizer.decode(tokenizer.convert_tokens_to_ids(answer_tokens))
+# # print(f"答案: {answer}")
+# # 更完整的答案提取請參考 inference_pipeline.py 中使用 postprocess_qa_predictions 的部分