Spaces:

dasomaru
/

gemma

Sleeping

App Files Files Community

dasomaru commited on 15 days ago

Commit

2c5f455

verified ·

1 Parent(s): d3411be

Upload folder using huggingface_hub

Browse files

Files changed (12) hide show

app.py +79 -53
app_v2.py +61 -0
data/index/exam_db/chroma.sqlite3 +2 -2
data/index/law_db/chroma.sqlite3 +2 -2
generator/llm_inference.py +29 -30
generator/prompt_builder.py +13 -13
generator/prompt_builder_v1.py +19 -0
requirements.txt +6 -7
retriever/vectordb_rerank.py +43 -24
retriever/vectordb_rerank_exam.py +55 -0
retriever/vectordb_rerank_law.py +68 -0
services/rag_pipeline_v2.py +33 -0

app.py CHANGED Viewed

@@ -1,53 +1,79 @@
-import gradio as gr
-import spaces
-import torch
-from transformers import AutoModelForCausalLM, AutoTokenizer
-# from retriever.vectordb_rerank import search_documents  # 🧠 RAG 검색기 불러오기
-from services.rag_pipeline import rag_pipeline
-model_name = "dasomaru/gemma-3-4bit-it-demo"
-# 1. 모델/토크나이저 1회 로딩
-tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
-# 🚀 model은 CPU로만 먼저 올림 (GPU 아직 없음)
-model = AutoModelForCausalLM.from_pretrained(
-    model_name,
-    torch_dtype=torch.float16,  # 4bit model이니까
-    trust_remote_code=True,
-)
-# 2. 캐시 관리
-search_cache = {}
-@spaces.GPU(duration=300)
-def generate_response(query: str):
-    tokenizer = AutoTokenizer.from_pretrained("dasomaru/gemma-3-4bit-it-demo")
-    model = AutoModelForCausalLM.from_pretrained("dasomaru/gemma-3-4bit-it-demo")
-    model.to("cuda")
-    if query in search_cache:
-        print(f"⚡ 캐시 사용: '{query}'")
-        return search_cache[query]
-    # 🔥 rag_pipeline을 호출해서 검색 + 생성
-    results = rag_pipeline(query)
-    # 결과가 list일 경우 합치기
-    if isinstance(results, list):
-        results = "\n\n".join(results)
-    search_cache[query] = results
-    return results
-# 3. Gradio 인터페이스
-demo = gr.Interface(
-    fn=generate_response,
-    inputs=gr.Textbox(lines=2, placeholder="질문을 입력하세요"),
-    outputs="text",
-    title="Law RAG Assistant",
-    description="법령 기반 RAG 파이프라인 테스트",
-)
-# demo.launch(server_name="0.0.0.0", server_port=7860)  # 🚀 API 배포 준비 가능
-demo.launch()

+import gradio as gr
+import spaces
+import torch
+from transformers import AutoModelForCausalLM, AutoTokenizer
+# from retriever.vectordb_rerank import search_documents  # 🧠 RAG 검색기 불러오기
+from services.rag_pipeline import rag_pipeline
+model_name = "dasomaru/gemma-3-4bit-it-demo"
+# 1. 모델/토크나이저 1회 로딩
+tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
+# 🚀 model은 CPU로만 먼저 올림 (GPU 아직 없음)
+model = AutoModelForCausalLM.from_pretrained(
+    model_name,
+    torch_dtype=torch.float16,  # 4bit model이니까
+    device_map="auto",  # ✅ 중요: 자동으로 GPU 할당
+    trust_remote_code=True,
+)
+# 2. 캐시 관리
+search_cache = {}
+@spaces.GPU(duration=300)
+def generate_response(query: str):
+    tokenizer = AutoTokenizer.from_pretrained(
+        "dasomaru/gemma-3-4bit-it-demo",
+        trust_remote_code=True,
+        )
+    model = AutoModelForCausalLM.from_pretrained(
+        "dasomaru/gemma-3-4bit-it-demo",
+        torch_dtype=torch.float16,  # 4bit model이니까
+        device_map="auto",  # ✅ 중요: 자동으로 GPU 할당
+        trust_remote_code=True,
+        )
+    model.to("cuda")
+    if query in search_cache:
+        print(f"⚡ 캐시 사용: '{query}'")
+        return search_cache[query]
+    # 🔥 rag_pipeline을 호출해서 검색 + 생성
+    # 검색
+    top_k = 5
+    results = rag_pipeline(query, top_k=top_k)
+    # 결과가 list일 경우 합치기
+    if isinstance(results, list):
+        results = "\n\n".join(results)
+    search_cache[query] = results
+    # return results
+    inputs = tokenizer(results, return_tensors="pt").to(model.device)  # ✅ model.device
+    outputs = model.generate(
+        **inputs,
+        max_new_tokens=512,
+        temperature=0.7,
+        top_p=0.9,
+        top_k=50,
+        do_sample=True,
+    )
+    return tokenizer.decode(outputs[0], skip_special_tokens=True)
+# 3. Gradio 인터페이스
+demo = gr.Interface(
+    fn=generate_response,
+    # inputs=gr.Textbox(lines=2, placeholder="질문을 입력하세요"),
+    inputs="text",
+    outputs="text",
+    title="Law RAG Assistant",
+    description="법령 기반 RAG 파이프라인 테스트",
+)
+# demo.launch(server_name="0.0.0.0", server_port=7860)  # 🚀 API 배포 준비 가능
+demo.launch()

app_v2.py ADDED Viewed

	@@ -0,0 +1,61 @@

+import gradio as gr
+import spaces
+import torch
+from transformers import AutoModelForCausalLM, AutoTokenizer
+from retriever.vectordb import search_documents  # 🧠 RAG 검색기 불러오기
+model_name = "dasomaru/gemma-3-4bit-it-demo"
+# 🚀 tokenizer는 CPU에서도 미리 불러올 수 있음
+tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
+# 🚀 model은 CPU로만 먼저 올림 (GPU 아직 없음)
+model = AutoModelForCausalLM.from_pretrained(
+    model_name,
+    torch_dtype=torch.float16,  # 4bit model이니까
+    trust_remote_code=True,
+)
+@spaces.GPU(duration=300)
+def generate_response(query):
+    # 🚀 generate_response 함수 안에서 매번 로드
+    # tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
+    # model = AutoModelForCausalLM.from_pretrained(
+    #     model_name,
+    #     torch_dtype=torch.float16,
+    #     device_map="auto",  # ✅ 중요: 자동으로 GPU 할당
+    #     trust_remote_code=True,
+    # )
+    tokenizer = AutoTokenizer.from_pretrained("dasomaru/gemma-3-4bit-it-demo")
+    model = AutoModelForCausalLM.from_pretrained("dasomaru/gemma-3-4bit-it-demo")
+    model.to("cuda")
+    # 1. 검색
+    top_k = 5
+    retrieved_docs = search_documents(query, top_k=top_k)
+    # 2. 프롬프트 조립
+    prompt = (
+        "당신은 공인중개사 시험 문제 출제 전문가입니다.\n\n"
+        "다음은 기출 문제 및 관련 법령 정보입니다:\n"
+    )
+    for idx, doc in enumerate(retrieved_docs, 1):
+        prompt += f"- {doc}\n"
+    prompt += f"\n이 정보를 참고하여 사용자의 요청에 답변해 주세요.\n\n"
+    prompt += f"[질문]\n{query}\n\n[답변]\n"
+    # 3. 답변 생성
+    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)  # ✅ model.device
+    outputs = model.generate(
+        **inputs,
+        max_new_tokens=512,
+        temperature=0.7,
+        top_p=0.9,
+        top_k=50,
+        do_sample=True,
+    )
+    return tokenizer.decode(outputs[0], skip_special_tokens=True)
+demo = gr.Interface(fn=generate_response, inputs="text", outputs="text")
+demo.launch()

data/index/exam_db/chroma.sqlite3 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb44775f377f843c14055fc9590377051b9b63a5d78f41573c4c3cd73c8e8cbb
-size 20951040

 version https://git-lfs.github.com/spec/v1
+oid sha256:ab1270442e19db5a1c0ec0217101b32e3d5ce379d9cf0a4278f7b4edac2489fb
+size 14610432

data/index/law_db/chroma.sqlite3 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a5d91eaf7e130a1793a46f82d0c9951ace88ffa8610ba2b60352ae171b9b725f
-size 33640448

 version https://git-lfs.github.com/spec/v1
+oid sha256:6dbbf1eed4fb2a85649ef2d22fdce84b1c10a268a59279dbb4a9e0d8141e1e55
+size 38465536

generator/llm_inference.py CHANGED Viewed

@@ -1,30 +1,29 @@
-from transformers import pipeline
-import spaces
-# 1. 모델 로드 (최초 1번만 로드됨)
-generator = pipeline(
-    "text-generation",
-    model="dasomaru/gemma-3-4bit-it-demo",  # 네가 업로드한 모델 이름
-    tokenizer="dasomaru/gemma-3-4bit-it-demo",
-    device=0,  # CUDA:0 사용 (GPU). CPU만 있으면 device=-1
-    max_new_tokens=2048,
-    temperature=0.7,
-    top_p=0.9,
-    repetition_penalty=1.1
-)
-# 2. 답변 생성 함수
-@spaces.GPU(duration=300)
-def generate_answer(prompt: str) -> str:
-    """
-    입력받은 프롬프트로부터 모델이 답변을 생성한다.
-    """
-    print(f"🔵 Prompt Length: {len(prompt)} characters")  # 추가!
-    outputs = generator(
-        prompt,
-        do_sample=True,
-        top_k=50,
-        num_return_sequences=1
-    )
-    return outputs[0]["generated_text"].strip()

+from transformers import pipeline
+import spaces
+# 1. 모델 로드 (최초 1번만 로드됨)
+generator = pipeline(
+    "text-generation",
+    model="dasomaru/gemma-3-4bit-it-demo",  # 네가 업로드한 모델 이름
+    tokenizer="dasomaru/gemma-3-4bit-it-demo",
+    device=0,  # CUDA:0 사용 (GPU). CPU만 있으면 device=-1
+    max_new_tokens=512,
+    temperature=0.7,
+    top_p=0.9,
+    repetition_penalty=1.1
+)
+# 2. 답변 생성 함수
+@spaces.GPU(duration=300)
+def generate_answer(prompt: str) -> str:
+    """
+    입력받은 프롬프트로부터 모델이 답변을 생성한다.
+    """
+    print(f"🔵 Prompt Length: {len(prompt)} characters")  # 추가!
+    outputs = generator(
+        prompt,
+        do_sample=True,
+        top_k=50,
+        num_return_sequences=1
+    )
+    return outputs[0]["generated_text"].strip()

generator/prompt_builder.py CHANGED Viewed

@@ -1,19 +1,19 @@
-def build_prompt(query: str, context_docs: list) -> str:
-    """
-    사용자 질문과 검색된 문서들을 조합해 LLM 입력용 프롬프트를 만든다.
-    """
-    context_text = "\n".join([f"- {doc}" for doc in context_docs])
-    prompt = f"""당신은 공인중개사 시험 문제 출제 전문가입니다.
-다음은 기출 문제 및 관련 법령 정보입니다:
-{context_text}
-이 정보를 참고하여 사용자의 요청에 답변해 주세요.
-[질문]
-{query}
-[답변]
-"""
     return prompt

+def build_prompt(query: str, law_docs: list, exam_docs: list) -> str:
+    prompt = (
+        "당신은 공인중개사 시험 문제 출제 전문가입니다.\n\n"
+        "아래는 관련 법령과 기출문제입니다:\n\n"
+        "[법령 정보]\n"
+    )
+    for doc in law_docs:
+        prompt += f"- {doc}\n"
+    prompt += "\n[기출문제 정보]\n"
+    for doc in exam_docs:
+        prompt += f"- {doc}\n"
+    prompt += f"\n위 정보를 참고하여 사용자의 요청에 정확하고 명확하게 답변하세요.\n\n"
+    prompt += f"[질문]\n{query}\n\n[답변]\n"
     return prompt

generator/prompt_builder_v1.py ADDED Viewed

	@@ -0,0 +1,19 @@

+def build_prompt(query: str, context_docs: list) -> str:
+    """
+    사용자 질문과 검색된 문서들을 조합해 LLM 입력용 프롬프트를 만든다.
+    """
+    context_text = "\n".join([f"- {doc}" for doc in context_docs])
+    prompt = f"""당신은 공인중개사 시험 문제 출제 전문가입니다.
+다음은 기출 문제 및 관련 법령 정보입니다:
+{context_text}
+이 정보를 참고하여 사용자의 요청에 답변해 주세요.
+[질문]
+{query}
+[답변]
+"""
+    return prompt

requirements.txt CHANGED Viewed

@@ -1,7 +1,6 @@
-gradio
-torch
-transformers
-sentence-transformers
-faiss-cpu
-tqdm
-accelerate

+gradio
+torch
+transformers
+sentence-transformers
+faiss-cpu
+tqdm

retriever/vectordb_rerank.py CHANGED Viewed

@@ -1,37 +1,56 @@
 import faiss
 import numpy as np
 import os
 from sentence_transformers import SentenceTransformer
 from retriever.reranker import rerank_documents
-# 1. 임베딩 모델 로드
-embedding_model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")
-# 2. 벡터DB (FAISS Index) 초기화
-INDEX_PATH = "data/index/index.faiss"
-DOCS_PATH = "data/index/docs.npy"
-if os.path.exists(INDEX_PATH) and os.path.exists(DOCS_PATH):
-    index = faiss.read_index(INDEX_PATH)
-    documents = np.load(DOCS_PATH, allow_pickle=True)
-else:
-    index = None
-    documents = None
-    print("No FAISS index or docs found. Please build the index first.")
-# 3. 검색 함수
-def search_documents(query: str, top_k: int = 5):
-    if index is None or documents is None:
-        raise ValueError("Index or documents not loaded. Build the FAISS index first.")
-    # 1. FAISS rough 검색
-    query_embedding = embedding_model.encode([query], convert_to_tensor=True).cpu().detach().numpy()
-    distances, indices = index.search(query_embedding, top_k)
-    results = [documents[idx] for idx in indices[0] if idx != -1]
-    # 2. Reranking 적용
-    reranked_results = rerank_documents(query, results, top_k=top_k)
-    return reranked_results

+# vectordb_relank_law.py
 import faiss
 import numpy as np
 import os
+from chromadb import PersistentClient
+from chromadb.utils import embedding_functions
 from sentence_transformers import SentenceTransformer
 from retriever.reranker import rerank_documents
+# chroma vector config v2
+embedding_models = [
+    "upskyy/bge-m3-korean",
+    "jhgan/ko-sbert-sts",
+    "BM-K/KoSimCSE-roberta",
+    "BM-K/KoSimCSE-v2-multitask",
+    "snunlp/KR-SBERT-V40K-klueNLI-augSTS",
+    "beomi/KcELECTRA-small-v2022",
+]
+# law_db config v2
+CHROMA_PATH = os.path.abspath("data/index/law_db")
+COLLECTION_NAME = "law_all"
+EMBEDDING_MODEL_NAME = embedding_models[4]  # 사용하고자 하는 모델 선택
+# 1. 임베딩 모델 로드 v2
+# embedding_model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")
+embedding_model = SentenceTransformer(EMBEDDING_MODEL_NAME)
+# 2. 임베딩 함수 설정
+embedding_fn = embedding_functions.SentenceTransformerEmbeddingFunction(model_name=EMBEDDING_MODEL_NAME)
+# 3. Chroma 클라이언트 및 컬렉션 로드
+client = PersistentClient(path=CHROMA_PATH)
+collection = client.get_collection(name=COLLECTION_NAME, embedding_function=embedding_fn)
+# 4. 검색 함수
+def search_documents(query: str, top_k: int = 5):
+    print(f"\n🔍 검색어: '{query}'")
+    results = collection.query(
+        query_texts=[query],
+        n_results=top_k,
+        include=["documents", "metadatas", "distances"]
+    )
+    for i, (doc, meta, dist) in enumerate(zip(
+        results['documents'][0],
+        results['metadatas'][0],
+        results['distances'][0]
+    )):
+        print(f"\n📄 결과 {i+1} (유사도: {1 - dist:.2f})")
+        print(f"문서: {doc[:150]}...")
+        print("메타데이터:")
+        print(meta)

retriever/vectordb_rerank_exam.py ADDED Viewed

	@@ -0,0 +1,55 @@

+# vectordb_relank_law.py
+import faiss
+import numpy as np
+import os
+from chromadb import PersistentClient
+from chromadb.utils import embedding_functions
+from sentence_transformers import SentenceTransformer
+from retriever.reranker import rerank_documents
+# chroma vector config v2
+embedding_models = [
+    "upskyy/bge-m3-korean",
+    "jhgan/ko-sbert-sts",
+    "BM-K/KoSimCSE-roberta",
+    "BM-K/KoSimCSE-v2-multitask",
+    "snunlp/KR-SBERT-V40K-klueNLI-augSTS",
+    "beomi/KcELECTRA-small-v2022",
+]
+# law_db config v2
+CHROMA_PATH = os.path.abspath("data/index/exam_db")
+COLLECTION_NAME = "exam_all"
+EMBEDDING_MODEL_NAME = embedding_models[4]  # 사용하고자 하는 모델 선택
+# 1. 임베딩 모델 로드 v2
+# embedding_model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")
+embedding_model = SentenceTransformer(EMBEDDING_MODEL_NAME)
+# 2. 임베딩 함수 설정
+embedding_fn = embedding_functions.SentenceTransformerEmbeddingFunction(model_name=EMBEDDING_MODEL_NAME)
+# 3. Chroma 클라이언트 및 컬렉션 로드
+client = PersistentClient(path=CHROMA_PATH)
+collection = client.get_collection(name=COLLECTION_NAME, embedding_function=embedding_fn)
+# 4. 검색 함수
+def search_documents(query: str, top_k: int = 5):
+    print(f"\n🔍 검색어: '{query}'")
+    results = collection.query(
+        query_texts=[query],
+        n_results=top_k,
+        include=["documents", "metadatas", "distances"]
+    )
+    # rerank documents
+    # reranked_results = rerank_documents(query, results, top_k=top_k)
+    for i, (doc, meta, dist) in enumerate(zip(
+        results['documents'][0],
+        results['metadatas'][0],
+        results['distances'][0]
+    )):
+        print(f"\n📄 결과 {i+1} (유사도: {1 - dist:.2f})")
+        print(f"문서: {doc[:150]}...")
+        print("메타데이터:")
+        print(meta)

retriever/vectordb_rerank_law.py ADDED Viewed

	@@ -0,0 +1,68 @@

+# vectordb_relank_law.py
+import faiss
+import numpy as np
+import os
+from chromadb import PersistentClient
+from chromadb.utils import embedding_functions
+from sentence_transformers import SentenceTransformer
+from retriever.reranker import rerank_documents
+# chroma vector config v2
+embedding_models = [
+    "upskyy/bge-m3-korean",
+    "jhgan/ko-sbert-sts",
+    "BM-K/KoSimCSE-roberta",
+    "BM-K/KoSimCSE-v2-multitask",
+    "snunlp/KR-SBERT-V40K-klueNLI-augSTS",
+    "beomi/KcELECTRA-small-v2022",
+]
+# law_db config v2
+CHROMA_PATH = os.path.abspath("data/index/law_db")
+COLLECTION_NAME = "law_all"
+EMBEDDING_MODEL_NAME = embedding_models[4]  # 사용하고자 하는 모델 선택
+# 1. 임베딩 모델 로드 v2
+# embedding_model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")
+embedding_model = SentenceTransformer(EMBEDDING_MODEL_NAME)
+# 2. 임베딩 함수 설정
+embedding_fn = embedding_functions.SentenceTransformerEmbeddingFunction(model_name=EMBEDDING_MODEL_NAME)
+# 3. Chroma 클라이언트 및 컬렉션 로드
+client = PersistentClient(path=CHROMA_PATH)
+collection = client.get_collection(name=COLLECTION_NAME, embedding_function=embedding_fn)
+# 4. 검색 함수
+def search_documents(query: str, top_k: int = 5):
+    print(f"\n🔍 검색어: '{query}'")
+    results = collection.query(
+        query_texts=[query],
+        n_results=top_k,
+        include=["documents", "metadatas", "distances"]
+    )
+    # 문서 리스트만 추출
+    docs = results['documents'][0]
+    metadatas = results['metadatas'][0]
+    distances = results['distances'][0]
+    # Rerank 문서
+    reranked_docs = rerank_documents(query, docs, top_k=top_k)
+    # Rerank된 문서에 맞춰 metadata, distance 다시 정렬
+    reranked_data = []
+    for doc in reranked_docs:
+        idx = docs.index(doc)
+        reranked_data.append((doc, metadatas[idx], distances[idx]))
+    for i, (doc, meta, dist) in enumerate(reranked_data):
+        print(f"\n📄 결과 {i+1} (유사도: {1 - dist:.2f})")
+        print(f"문서: {doc[:150]}...")
+        print("메타데이터:")
+        print(meta)
+    return reranked_data  # 필요하면 리턴

services/rag_pipeline_v2.py ADDED Viewed

	@@ -0,0 +1,33 @@

+# from retriever.vectordb import search_documents
+# from retriever.vectordb_rerank import search_documents
+from retriever.vectordb_rerank_law import search_documents as search_law
+from retriever.vectordb_rerank_exam import search_documents as search_exam
+from generator.prompt_builder import build_prompt
+from generator.llm_inference import generate_answer
+def rag_pipeline(query: str, top_k: int = 5) -> str:
+    """
+    1. 사용자 질문으로 관련 문서를 검색
+    2. 검색된 문서와 함께 프롬프트 구성
+    3. 프롬프트로부터 답변 생성
+    """
+    # 1. 법령과 문제를 각각 검색
+    # context_docs = search_documents(query, top_k=top_k)
+    laws_docs = search_law(query, top_k=top_k)
+    exam_docs = search_exam(query, top_k=top_k)
+    # 2. 프롬프트 구성
+    # prompt = build_prompt(query, context_docs)
+    prompt = build_prompt(query, laws_docs, exam_docs)
+    # 3. LLM으로 문제 생성
+    # output = generate_answer(prompt)
+    questions = generate_answer(prompt)
+    # 4. 결과 저장
+    # save_to_exam_vector_db(questions)
+    return questions