Spaces:

PubPol
/

RAGTesting

Sleeping

Nicolai Berk commited on Apr 9

Commit

f499a63

1 Parent(s): 253a65f

Fix corpus ids

Files changed (1) hide show

app.py CHANGED Viewed

@@ -28,7 +28,14 @@ if hf_token:
 # Load corpus
 print("Loading dataset...")
 dataset = load_dataset("rag-datasets/rag-mini-wikipedia", "text-corpus")
-corpus = [item for item in dataset["passages"]]
 # Embedding model
 print("Encoding corpus...")

 # Load corpus
 print("Loading dataset...")
 dataset = load_dataset("rag-datasets/rag-mini-wikipedia", "text-corpus")
+# corpus = [item for item in dataset["passages"]]
+# Always clean + use this corpus consistently
+corpus = []
+for item in dataset["passages"]:
+    text = str(item).strip()
+    if text:
+        corpus.append(text)
 # Embedding model
 print("Encoding corpus...")