Spaces:

PubPol
/

RAGTesting

Running on Zero

Nicolai Berk commited on 13 days ago

Commit

456bc55

1 Parent(s): cdedfb1

Fix data loader

Files changed (1) hide show

app.py CHANGED Viewed

@@ -8,8 +8,8 @@ from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
 # Load corpus
 print("Loading dataset...")
-dataset = load_dataset("rag-datasets/rag-mini-wikipedia", "text-corpus", split="train[:1000]")
-corpus = [f"{item['title']}\n{item['text']}" for item in dataset]
 # Embedding model
 print("Encoding corpus...")

 # Load corpus
 print("Loading dataset...")
+dataset = load_dataset("rag-datasets/rag-mini-wikipedia", "text-corpus")
+corpus = [item for item in dataset["passages"]]
 # Embedding model
 print("Encoding corpus...")