Spaces:
Runtime error
Runtime error
jorge-henao
commited on
Commit
•
28ed40d
1
Parent(s):
7e17153
Update about.py
Browse files
about.py
CHANGED
@@ -4,16 +4,44 @@ import streamlit as st
|
|
4 |
def show_about_ask2democracy():
|
5 |
description = """
|
6 |
<h2>Sobre esta iniciativa</h2>
|
7 |
-
<p>El debate ciudadano generalmente está sustentado en documentos que salvo pocas excepciones, casi nadie lee.
|
8 |
En este demo se han indexado algunos textos relevantes para la discución pública que suelen estar dispersos y poco accesibles. Además, se apoya en el estado del arte de la inteligencia artificial (abajo más detalles) , permitiendo explorar los documentos haciéndoles preguntas en español.
|
9 |
<p>
|
10 |
-
|
11 |
<p>
|
12 |
-
|
|
|
|
|
|
|
|
|
|
|
13 |
<div align="right">
|
14 |
Creado por Jorge Henao 🇨🇴 <a href="https://twitter.com/jhenaotw" target='_blank'>Twitter</a> <a href="https://www.linkedin.com/in/henaojorge" target='_blank'>LinkedIn</a> <a href="https://linktr.ee/jorgehenao" target='_blank'>Linktree</a>
|
|
|
|
|
15 |
</div>
|
16 |
<p>
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
17 |
<h2>¿Cómo utilizar este espacio?</h2>
|
18 |
Selecciona el de documento que quieres explorar en el panel de la izquierda, escribe preguntas en la caja de texto y presiona el botón.
|
19 |
No se trata de un sistema de búsquedas basado en palabras clave, por el contrario, puedes redactar preguntas más extensas y elaboradas. Cuanto más contexto le des a la pregunta mejores resultados obtienes.
|
@@ -27,16 +55,17 @@ def show_about_ask2democracy():
|
|
27 |
Pretende ayudar a construir democracia participativa apaloncándose en el estado del arte de la inteligencia artificial.
|
28 |
Al ser un demo accesible en web, puede ayudarle a un ciudadano del común a tener una opinión más informada, ayudándole a ser partícipe del debate público haciendo preguntas directamente a las fuentes en su propio lenguaje y llegando a sus propias conclusiones.
|
29 |
<p><p>
|
30 |
-
|
31 |
<ul>
|
32 |
<li> ¿Que tan efectivo puede ser un sistema de búsquedas con modelos de inteligencia artificial abiertos, para ayudar a la gente a entender discuciones ciudadanas relevantes en español? </li>
|
33 |
<li> ¿Que tan creativa puede ser la ingeligencia artificial en esa materia?</li>
|
34 |
<li> ¿Puede la inteligencia artificial abierta, ayudarle a la gente a entender documentos legislativos: propuestas de reforma, planes de gobierno, y en general documentos de discución pública?</li>
|
35 |
-
<li> ¿Puede
|
36 |
</ul>
|
37 |
-
Por lo anterior se
|
38 |
-
Algo que puede ayudar a elevar
|
39 |
<h2>Ask2Democracy v0.3</h2>
|
|
|
40 |
Esta version usa sentence transformers (Cosine similarity), una base de dactos vectorial Pinecone para almacenar los embeddings, Haystack framework y la integración con OpenAI.
|
41 |
Los modelos de lenguaje transformers utilizados son:
|
42 |
<code>
|
|
|
4 |
def show_about_ask2democracy():
|
5 |
description = """
|
6 |
<h2>Sobre esta iniciativa</h2>
|
7 |
+
<p>El debate ciudadano generalmente está sustentado en documentos que salvo pocas excepciones, casi nadie lee.
|
8 |
En este demo se han indexado algunos textos relevantes para la discución pública que suelen estar dispersos y poco accesibles. Además, se apoya en el estado del arte de la inteligencia artificial (abajo más detalles) , permitiendo explorar los documentos haciéndoles preguntas en español.
|
9 |
<p>
|
10 |
+
Por otro lado, las alucinaciones generadas por modelos de lenguaje grandes como ChatGPT/GPT-4 son un problema que en la práctica resulta en desinformación y posibles consecuencias aún desconocidas. OpenAI ha liderado el camino en el control de estas alucinaciones mediante el uso de RLHF para generar texto a partir del conocimiento "congelado" de los modelos de lenguaje. Sin embargo, esta aproximación no es viable en muchos dominios específicos.
|
11 |
<p>
|
12 |
+
En este demo se aborda el problema de las alucinaciones utilizando una arquitectura RAG, Retrieval Augmented Generation. En el pipeline de consulta, se utilizan modelos sentence transformers para obtener el top k de documentos candidatos, modelos Roberta para generar respuestas abstractas tomadas de las fuentes y modelos generativos para aumentar las respuestas.
|
13 |
+
Dándole un estilo conversacional similar al de ChatGPT pero basado en fuentes.
|
14 |
+
<p>
|
15 |
+
También se busca contribuir a la inteligencia artificial abierta y en español, mediante la construcción de datasets y el entrenamiento de modelos de lenguaje adaptados para las discusiones democráticas. Algo que puede ayudar a elevar la calidad del debate en todos los países de habla hispana.
|
16 |
+
<p>
|
17 |
+
Textos indexados: Propuesta reforma pensional de Marzo 22 de 2023, Propuesta reforma de la salud del 13 febrero 2023 , Capítulo de hallazgos y recomendaciones de la comisión de la verdad sobre el conflicto armado Colombiano (trabajo en progreso, si quieres apoyar escríbeme)
|
18 |
<div align="right">
|
19 |
Creado por Jorge Henao 🇨🇴 <a href="https://twitter.com/jhenaotw" target='_blank'>Twitter</a> <a href="https://www.linkedin.com/in/henaojorge" target='_blank'>LinkedIn</a> <a href="https://linktr.ee/jorgehenao" target='_blank'>Linktree</a>
|
20 |
+
<br>
|
21 |
+
Con el apoyo de David Torres 🇨🇴 <a href="https://twitter.com/davinci137" target='_blank'>Twitter</a> <a href="https://github.com/datorresb" target='_blank'>LinkedIn</a>
|
22 |
</div>
|
23 |
<p>
|
24 |
+
<h2>Sobre el trabajo realizado durante la Hackathon Somos NLP 2023</h2>
|
25 |
+
Las siguientes contribuiciones fueron realizadas durante las fechas de la Hackathon (20 de Marzo al 9 de Abril de 2023):
|
26 |
+
<h4>En el espacio demo:</h4>
|
27 |
+
<ul>
|
28 |
+
<li>Refactor/Ajustes de integración con la base de datos vectorial Pinecone.</li>
|
29 |
+
<li>Pre-procesado e indexación de la propuesta de reforma pensional de Colombia de Marzo 2023.</li>
|
30 |
+
<li>Refactor UX y ajustes de usabilidad de la interfaz de usuario.</li>
|
31 |
+
<li>Ajustes de integración con OpenAI</li>
|
32 |
+
<li>Pruebas/Ajustes en el pipeline de consulta Sentence transformers usando texto en español y xlm-roberta-base-squad2-distilled</li>
|
33 |
+
</ul>
|
34 |
+
<h4>Modelos de lenguaje:</h4>
|
35 |
+
Fueron entrenados dos modelos Baizemocracy basados en LLaMA-7B con foco en aumentar los documentos retornados en el pipeline de consulta, con el fin de hacerlo más conversacional usando modelos open source en español.
|
36 |
+
Los siguientes modelos fueron entrenados entrenados con un dataset construido durante la hackathon además de varios datasets orientados a Question answering y Chat.
|
37 |
+
<ul>
|
38 |
+
<li><a href="https://huggingface.co/hackathon-somos-nlp-2023/baizemocracy-lora-7B-cfqa">baizemocracy-lora-7B-cfqa</a>: Esta variación del modelo es más enfocada en generar respuestas factuales dado un contexto basado en fuentes.</li>
|
39 |
+
<li><a href="https://huggingface.co/hackathon-somos-nlp-2023/baizemocracy-lora-7B-cfqa-conv">baizemocracy-lora-7B-cfqa-conv</a>: Esta variación del modelo tiene un estílo más conversacional para generar respuestas factuales dado un contexto basado en fuentes.</li>
|
40 |
+
</ul>
|
41 |
+
<h4>Datasets:</h4>
|
42 |
+
<ul>
|
43 |
+
<li><a href="https://huggingface.co/datasets/hackathon-somos-nlp-2023/ask2democracy-cfqa-salud-pension">ask2democracy-cfqa-salud-pension</a>: Un datset de tipo instrucciones con respuestas a preguntas generadas a partir de en un contexto basado en fuentes.</li>
|
44 |
+
</ul>
|
45 |
<h2>¿Cómo utilizar este espacio?</h2>
|
46 |
Selecciona el de documento que quieres explorar en el panel de la izquierda, escribe preguntas en la caja de texto y presiona el botón.
|
47 |
No se trata de un sistema de búsquedas basado en palabras clave, por el contrario, puedes redactar preguntas más extensas y elaboradas. Cuanto más contexto le des a la pregunta mejores resultados obtienes.
|
|
|
55 |
Pretende ayudar a construir democracia participativa apaloncándose en el estado del arte de la inteligencia artificial.
|
56 |
Al ser un demo accesible en web, puede ayudarle a un ciudadano del común a tener una opinión más informada, ayudándole a ser partícipe del debate público haciendo preguntas directamente a las fuentes en su propio lenguaje y llegando a sus propias conclusiones.
|
57 |
<p><p>
|
58 |
+
Respecto a la inteligencia artificial hay algunas hipótesis que se quieren probar:
|
59 |
<ul>
|
60 |
<li> ¿Que tan efectivo puede ser un sistema de búsquedas con modelos de inteligencia artificial abiertos, para ayudar a la gente a entender discuciones ciudadanas relevantes en español? </li>
|
61 |
<li> ¿Que tan creativa puede ser la ingeligencia artificial en esa materia?</li>
|
62 |
<li> ¿Puede la inteligencia artificial abierta, ayudarle a la gente a entender documentos legislativos: propuestas de reforma, planes de gobierno, y en general documentos de discución pública?</li>
|
63 |
+
<li> ¿Puede un sistema RAG usando modelos abiertos mejorar las halucinaciones presentadas en sistemas como ChatGPT/GPT-4 de OpenAI para el entendimiento de discusiones democráticas en español?</li>
|
64 |
</ul>
|
65 |
+
Por lo anterior, se busca contribuir a la inteligencia artificial abierta y en español, mediante la construcción de datasets y el entrenamiento de modelos de lenguaje adaptados para las discusiones democráticas.
|
66 |
+
Algo que puede ayudar a elevar la calidad del debate en todos los países de habla hispana.
|
67 |
<h2>Ask2Democracy v0.3</h2>
|
68 |
+
Se utiliza una arquitectura RAG(Retrieval Augmented Generation) para aumentar las respuestas basadas en fuentes de manera conversacional.
|
69 |
Esta version usa sentence transformers (Cosine similarity), una base de dactos vectorial Pinecone para almacenar los embeddings, Haystack framework y la integración con OpenAI.
|
70 |
Los modelos de lenguaje transformers utilizados son:
|
71 |
<code>
|