""" | |
Modulo para procesar el PDF de la resolucion e indexar su contenido en la DB, para su posterior utilización por parte del chatbot. | |
Por simplicidad, se indexo un documento por cada página completa del documento. TODO: Implementar estrategia ParentDocumentRetriever. | |
""" | |
#from langchain_community.document_loaders import PyPDFLoader | |
from chatbot.embeddings import init_embeddings | |
from chatbot.vectorstore import ChromaDB | |
if __name__ == "__main__": | |
#loader = PyPDFLoader("2024_DP_134.pdf") | |
embedding_model = init_embeddings() | |
vector_store = ChromaDB(embedding_model) | |
#for page in loader.lazy_load(): | |
#print(f"Procesando pagina {page.metadata['page']} - len: {len(page.page_content)}") | |
#vector_store.add_documents([page]) | |
results = vector_store.db.similarity_search( | |
"Cuantos anexos contiene la resolucion?", | |
k=2, | |
) | |
print(results) |