Spaces:

dasomaru
/

gemma

Sleeping

App Files Files Community

dasomaru commited on 16 days ago

Commit

9b14ff1

verified ·

1 Parent(s): 901a928

Upload folder using huggingface_hub

Browse files

Files changed (44) hide show

.gitattributes +3 -0
api/__pycache__/ask.cpython-312.pyc +0 -0
api/__pycache__/generation.cpython-312.pyc +0 -0
api/__pycache__/main.cpython-312.pyc +0 -0
api/__pycache__/retrieval.cpython-312.pyc +0 -0
api/ask.py +19 -0
api/generation.py +21 -0
api/main.py +34 -0
api/retrieval.py +19 -0
api/search.py +0 -0
app.py +31 -45
app_v1.py +45 -0
data/index/docs.npy +3 -0
data/index/exam_db/b2606c9f-ce01-45ef-b1f9-52c07138f09d/data_level0.bin +3 -0
data/index/exam_db/b2606c9f-ce01-45ef-b1f9-52c07138f09d/header.bin +3 -0
data/index/exam_db/b2606c9f-ce01-45ef-b1f9-52c07138f09d/index_metadata.pickle +3 -0
data/index/exam_db/b2606c9f-ce01-45ef-b1f9-52c07138f09d/length.bin +3 -0
data/index/exam_db/b2606c9f-ce01-45ef-b1f9-52c07138f09d/link_lists.bin +3 -0
data/index/exam_db/chroma.sqlite3 +3 -0
data/index/index.faiss +3 -0
data/index/law_db/cb176df0-95bf-46b3-b7bc-bdbef0408cfb/data_level0.bin +3 -0
data/index/law_db/cb176df0-95bf-46b3-b7bc-bdbef0408cfb/header.bin +3 -0
data/index/law_db/cb176df0-95bf-46b3-b7bc-bdbef0408cfb/length.bin +3 -0
data/index/law_db/cb176df0-95bf-46b3-b7bc-bdbef0408cfb/link_lists.bin +0 -0
data/index/law_db/chroma.sqlite3 +3 -0
data/index/law_db/f2c1d7dc-c9a9-4f2f-a66e-892865f49d38/data_level0.bin +3 -0
data/index/law_db/f2c1d7dc-c9a9-4f2f-a66e-892865f49d38/header.bin +3 -0
data/index/law_db/f2c1d7dc-c9a9-4f2f-a66e-892865f49d38/index_metadata.pickle +3 -0
data/index/law_db/f2c1d7dc-c9a9-4f2f-a66e-892865f49d38/length.bin +3 -0
data/index/law_db/f2c1d7dc-c9a9-4f2f-a66e-892865f49d38/link_lists.bin +3 -0
generator/__pycache__/llm_inference.cpython-312.pyc +0 -0
generator/__pycache__/prompt_builder.cpython-312.pyc +0 -0
generator/llm_inference.py +27 -0
generator/prompt_builder.py +19 -0
requirements.txt +6 -6
retriever/__pycache__/reranker.cpython-312.pyc +0 -0
retriever/__pycache__/vectordb.cpython-312.pyc +0 -0
retriever/__pycache__/vectordb_rerank.cpython-312.pyc +0 -0
retriever/build_index.py +58 -0
retriever/reranker.py +30 -0
retriever/vectordb.py +50 -0
retriever/vectordb_rerank.py +37 -0
services/__pycache__/rag_pipeline.cpython-312.pyc +0 -0
services/rag_pipeline.py +21 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,6 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+data/index/exam_db/chroma.sqlite3 filter=lfs diff=lfs merge=lfs -text
+data/index/index.faiss filter=lfs diff=lfs merge=lfs -text
+data/index/law_db/chroma.sqlite3 filter=lfs diff=lfs merge=lfs -text

api/__pycache__/ask.cpython-312.pyc ADDED Viewed

Binary file (1.13 kB). View file

api/__pycache__/generation.cpython-312.pyc ADDED Viewed

Binary file (1.26 kB). View file

api/__pycache__/main.cpython-312.pyc ADDED Viewed

Binary file (1.42 kB). View file

api/__pycache__/retrieval.cpython-312.pyc ADDED Viewed

Binary file (1.16 kB). View file

api/ask.py ADDED Viewed

	@@ -0,0 +1,19 @@

+from fastapi import APIRouter
+from pydantic import BaseModel
+from services.rag_pipeline import rag_pipeline
+router = APIRouter()
+# 요청 스키마
+class AskRequest(BaseModel):
+    query: str
+    top_k: int = 5
+# 응답 스키마
+class AskResponse(BaseModel):
+    output: str
+@router.post("/ask", response_model=AskResponse)
+async def ask(request: AskRequest):
+    output = rag_pipeline(request.query, top_k=request.top_k)
+    return {"output": output}

api/generation.py ADDED Viewed

	@@ -0,0 +1,21 @@

+from fastapi import APIRouter
+from pydantic import BaseModel
+from generator.prompt_builder import build_prompt
+from generator.llm_inference import generate_answer
+router = APIRouter()
+# 요청 스키마
+class GenerateRequest(BaseModel):
+    query: str
+    context_docs: list
+# 응답 스키마
+class GenerateResponse(BaseModel):
+    output: str
+@router.post("/generate", response_model=GenerateResponse)
+async def generate(request: GenerateRequest):
+    prompt = build_prompt(request.query, request.context_docs)
+    output = generate_answer(prompt)
+    return {"output": output}

api/main.py ADDED Viewed

	@@ -0,0 +1,34 @@

+from fastapi import FastAPI
+from fastapi.middleware.cors import CORSMiddleware
+from api.retrieval import router as retrieval_router
+from api.generation import router as generation_router
+from api.ask import router as ask_router
+app = FastAPI(
+    title="RAG 기반 문제 출제 시스템",
+    description="공인중개사 시험 문제 자동 생성 API",
+    version="1.0.0",
+)
+# (선택) CORS 설정 - 나중에 Next.js 프론트 연결할 때 필요함
+app.add_middleware(
+    CORSMiddleware,
+    allow_origins=["*"],  # 실제 배포 때는 프론트 도메인만 허용 추천
+    allow_credentials=True,
+    allow_methods=["*"],
+    allow_headers=["*"],
+)
+# 헬스 체크용 엔드포인트
+@app.get("/health")
+async def health_check():
+    return {"status": "ok"}
+# 기본 인덱스
+@app.get("/")
+async def root():
+    return {"message": "Welcome to the RAG Question Generator API!"}
+app.include_router(retrieval_router, prefix="/api")
+app.include_router(generation_router, prefix="/api")
+app.include_router(ask_router, prefix="/api")

api/retrieval.py ADDED Viewed

	@@ -0,0 +1,19 @@

+from fastapi import APIRouter
+from pydantic import BaseModel
+from retriever.vectordb import search_documents
+router = APIRouter()
+# 요청받을 데이터 포맷 정의
+class SearchRequest(BaseModel):
+    query: str
+    top_k: int = 5  # 기본적으로 상위 5개 검색
+# 응답 데이터 포맷 정의
+class SearchResponse(BaseModel):
+    documents: list
+@router.post("/search", response_model=SearchResponse)
+async def search(request: SearchRequest):
+    docs = search_documents(request.query, top_k=request.top_k)
+    return {"documents": docs}

api/search.py ADDED Viewed

File without changes

app.py CHANGED Viewed

@@ -1,45 +1,31 @@
-import gradio as gr
-import spaces
-import torch
-from transformers import AutoModelForCausalLM, AutoTokenizer
-model_name = "dasomaru/gemma-3-4bit-it-demo"
-# 🚀 tokenizer는 CPU에서도 미리 불러올 수 있음
-tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
-# 🚀 model은 CPU로만 먼저 올림 (GPU 아직 없음)
-model = AutoModelForCausalLM.from_pretrained(
-    model_name,
-    torch_dtype=torch.float16,  # 4bit model이니까
-    trust_remote_code=True,
-)
-@spaces.GPU(duration=300)
-def generate_response(prompt):
-    # 모델 및 토크나이저 로딩은 함수 내부에서 수행
-    tokenizer = AutoTokenizer.from_pretrained("dasomaru/gemma-3-4bit-it-demo")
-    model = AutoModelForCausalLM.from_pretrained("dasomaru/gemma-3-4bit-it-demo")
-    model.to("cuda")
-    inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
-    outputs = model.generate(**inputs, max_new_tokens=512, temperature=0.7,
-    top_p=0.9,
-    top_k=50,
-    do_sample=True,)
-    return tokenizer.decode(outputs[0], skip_special_tokens=True)
-demo = gr.Interface(fn=generate_response, inputs="text", outputs="text")
-demo.launch()
-# zero = torch.Tensor([0]).cuda()
-# print(zero.device) # <-- 'cpu' 🤔
-# @spaces.GPU
-# def greet(n):
-#     print(zero.device) # <-- 'cuda:0' 🤗
-#     return f"Hello {zero + n} Tensor"
-# demo = gr.Interface(fn=greet, inputs=gr.Number(), outputs=gr.Text())
-# demo.launch()

+import gradio as gr
+import spaces
+import torch
+from transformers import AutoModelForCausalLM, AutoTokenizer
+model_name = "dasomaru/gemma-3-4bit-it-demo"
+# 🚀 모델과 토크나이저를 서버 시작 시 한번만 불러온다
+tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
+model = AutoModelForCausalLM.from_pretrained(
+    model_name,
+    torch_dtype=torch.float16,
+    device_map="auto",  # ZeroGPU에서는 자동으로 GPU 할당됨
+    trust_remote_code=True,
+)
+@spaces.GPU(duration=300)
+def generate_response(prompt):
+    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
+    outputs = model.generate(
+        **inputs,
+        max_new_tokens=512,
+        temperature=0.7,
+        top_p=0.9,
+        top_k=50,
+        do_sample=True,
+    )
+    return tokenizer.decode(outputs[0], skip_special_tokens=True)
+demo = gr.Interface(fn=generate_response, inputs="text", outputs="text")
+demo.launch()

app_v1.py ADDED Viewed

	@@ -0,0 +1,45 @@

+import gradio as gr
+import spaces
+import torch
+from transformers import AutoModelForCausalLM, AutoTokenizer
+model_name = "dasomaru/gemma-3-4bit-it-demo"
+# 🚀 tokenizer는 CPU에서도 미리 불러올 수 있음
+tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
+# 🚀 model은 CPU로만 먼저 올림 (GPU 아직 없음)
+model = AutoModelForCausalLM.from_pretrained(
+    model_name,
+    torch_dtype=torch.float16,  # 4bit model이니까
+    trust_remote_code=True,
+)
+@spaces.GPU(duration=300)
+def generate_response(prompt):
+    # 모델 및 토크나이저 로딩은 함수 내부에서 수행
+    tokenizer = AutoTokenizer.from_pretrained("dasomaru/gemma-3-4bit-it-demo")
+    model = AutoModelForCausalLM.from_pretrained("dasomaru/gemma-3-4bit-it-demo")
+    model.to("cuda")
+    inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
+    outputs = model.generate(**inputs, max_new_tokens=512, temperature=0.7,
+    top_p=0.9,
+    top_k=50,
+    do_sample=True,)
+    return tokenizer.decode(outputs[0], skip_special_tokens=True)
+demo = gr.Interface(fn=generate_response, inputs="text", outputs="text")
+demo.launch()
+# zero = torch.Tensor([0]).cuda()
+# print(zero.device) # <-- 'cpu' 🤔
+# @spaces.GPU
+# def greet(n):
+#     print(zero.device) # <-- 'cuda:0' 🤗
+#     return f"Hello {zero + n} Tensor"
+# demo = gr.Interface(fn=greet, inputs=gr.Number(), outputs=gr.Text())
+# demo.launch()

data/index/docs.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:920adcfc1f2972387acc6ccbb28748cbd6fac18bfce18b593667bedaafd59a1f
+size 3009728

data/index/exam_db/b2606c9f-ce01-45ef-b1f9-52c07138f09d/data_level0.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3ade3c2875730097a196c1411680ef487dd1a2d8c7a736a6e2686769cbccfb87
+size 42360000

data/index/exam_db/b2606c9f-ce01-45ef-b1f9-52c07138f09d/header.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0b83b314b04a5821a8b898c42848dee892ae700907983325de177d26e7cd0f27
+size 100

data/index/exam_db/b2606c9f-ce01-45ef-b1f9-52c07138f09d/index_metadata.pickle ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2d69ef1a7671665a27366fbcef9b12bfafc5085dea30ec686dead0ba8e9970db
+size 72200

data/index/exam_db/b2606c9f-ce01-45ef-b1f9-52c07138f09d/length.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0d8561f29f57731a703e7fa40308ff25bd0997bccbc44836a2c0e5e980263594
+size 40000

data/index/exam_db/b2606c9f-ce01-45ef-b1f9-52c07138f09d/link_lists.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f20d900ea11271e836c4f3ac19fddf990a8f68ca09ddad8ff2ada76640fe5c3e
+size 7580

data/index/exam_db/chroma.sqlite3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ab1270442e19db5a1c0ec0217101b32e3d5ce379d9cf0a4278f7b4edac2489fb
+size 14610432

data/index/index.faiss ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:afd28a8ec27caf932aa2f40eadc4d2213567db1ff3aaae320fdb707c9bcf82f4
+size 3379245

data/index/law_db/cb176df0-95bf-46b3-b7bc-bdbef0408cfb/data_level0.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2679902f7ee9902bd54e85a1e4b822cccb4a163c0d49ae93b57d42d40edf49d0
+size 42360000

data/index/law_db/cb176df0-95bf-46b3-b7bc-bdbef0408cfb/header.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f14d42069445548e1fceb9acb767255a21e1e9d11c021b2d5999d5cbf4d2b705
+size 100

data/index/law_db/cb176df0-95bf-46b3-b7bc-bdbef0408cfb/length.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:decfb869a98e71a64885be65a562bd9aaa173e8b0008338a9fc149c91527113c
+size 40000

data/index/law_db/cb176df0-95bf-46b3-b7bc-bdbef0408cfb/link_lists.bin ADDED Viewed

File without changes

data/index/law_db/chroma.sqlite3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6dbbf1eed4fb2a85649ef2d22fdce84b1c10a268a59279dbb4a9e0d8141e1e55
+size 38465536

data/index/law_db/f2c1d7dc-c9a9-4f2f-a66e-892865f49d38/data_level0.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2b200c007a3efa458f364e90f4f2fc57a51d3800cdc7b9da0a472e3c2be0f516
+size 42360000

data/index/law_db/f2c1d7dc-c9a9-4f2f-a66e-892865f49d38/header.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8998d4105cfc3bb8d0767c2d5f5d5b862eebf1e18753cc27a8e1edabbd16e5dd
+size 100

data/index/law_db/f2c1d7dc-c9a9-4f2f-a66e-892865f49d38/index_metadata.pickle ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7be6b19c0dea5d3a3ade705a1de0afd97ad2ea0098fdd90c2ffaae8548079944
+size 266000

data/index/law_db/f2c1d7dc-c9a9-4f2f-a66e-892865f49d38/length.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:73f7b190c3b790c39f0c2dd1fec9bfcc844a5ec5d6b5b77c035bb627e8683fce
+size 40000

data/index/law_db/f2c1d7dc-c9a9-4f2f-a66e-892865f49d38/link_lists.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ba2a1c508243b08e82d3aea180a7acb8537c8eab5d0e7670bd32dc0299b60962
+size 26124

generator/__pycache__/llm_inference.cpython-312.pyc ADDED Viewed

Binary file (1.01 kB). View file

generator/__pycache__/prompt_builder.cpython-312.pyc ADDED Viewed

Binary file (901 Bytes). View file

generator/llm_inference.py ADDED Viewed

	@@ -0,0 +1,27 @@

+from transformers import pipeline
+# 1. 모델 로드 (최초 1번만 로드됨)
+generator = pipeline(
+    "text-generation",
+    model="dasomaru/gemma-3-4bit-it-demo",  # 네가 업로드한 모델 이름
+    tokenizer="dasomaru/gemma-3-4bit-it-demo",
+    device=0,  # CUDA:0 사용 (GPU). CPU만 있으면 device=-1
+    max_new_tokens=512,
+    temperature=0.7,
+    top_p=0.9,
+    repetition_penalty=1.1
+)
+# 2. 답변 생성 함수
+def generate_answer(prompt: str) -> str:
+    """
+    입력받은 프롬프트로부터 모델이 답변을 생성한다.
+    """
+    print(f"🔵 Prompt Length: {len(prompt)} characters")  # 추가!
+    outputs = generator(
+        prompt,
+        do_sample=True,
+        top_k=50,
+        num_return_sequences=1
+    )
+    return outputs[0]["generated_text"].strip()

generator/prompt_builder.py ADDED Viewed

	@@ -0,0 +1,19 @@

+def build_prompt(query: str, context_docs: list) -> str:
+    """
+    사용자 질문과 검색된 문서들을 조합해 LLM 입력용 프롬프트를 만든다.
+    """
+    context_text = "\n".join([f"- {doc}" for doc in context_docs])
+    prompt = f"""당신은 공인중개사 시험 문제 출제 전문가입니다.
+다음은 기출 문제 및 관련 법령 정보입니다:
+{context_text}
+이 정보를 참고하여 사용자의 요청에 답변해 주세요.
+[질문]
+{query}
+[답변]
+"""
+    return prompt

requirements.txt CHANGED Viewed

@@ -1,6 +1,6 @@
-gradio
-transformers
-torch
-peft
-bitsandbytes
-spaces

+gradio
+torch
+transformers
+sentence-transformers
+faiss-cpu
+tqdm

retriever/__pycache__/reranker.cpython-312.pyc ADDED Viewed

Binary file (1.73 kB). View file

retriever/__pycache__/vectordb.cpython-312.pyc ADDED Viewed

Binary file (1.77 kB). View file

retriever/__pycache__/vectordb_rerank.cpython-312.pyc ADDED Viewed

Binary file (1.85 kB). View file

retriever/build_index.py ADDED Viewed

	@@ -0,0 +1,58 @@

+import os
+import json
+import faiss
+import numpy as np
+from sentence_transformers import SentenceTransformer
+from tqdm import tqdm
+# 1. 데이터 경로 설정
+source_paths = [
+    r"data/real_estate_agent/raw/past_papers/brokerage_law.jsonl",
+    r"data/real_estate_agent/raw/past_papers/civil_law.jsonl",
+    r"data/real_estate_agent/raw/past_papers/disclosure_taxation.jsonl",
+    r"data/real_estate_agent/raw/past_papers/introduction.jsonl",
+    r"data/real_estate_agent/raw/past_papers/public_law.jsonl",
+]
+INDEX_PATH = "data/index/index.faiss"
+DOCS_PATH = "data/index/docs.npy"
+# 2. 임베딩 모델 로드
+embedding_model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")
+def init_faiss():
+    questions = []
+    # 3. JSONL 파일 읽기
+    for path in source_paths:
+        with open(path, "r", encoding="utf-8") as f:
+            for line in f:
+                data = json.loads(line)
+                question_text = data.get("question", "")
+                if question_text:  # 질문이 비어있지 않으면 추가
+                    questions.append(question_text)
+    print(f"✅ 총 {len(questions)}개 질문 로딩 완료")
+    # 4. 임베딩 생성
+    embeddings = embedding_model.encode(
+        questions,
+        batch_size=32,
+        show_progress_bar=True
+    )
+    embeddings = np.array(embeddings).astype('float32')
+    # 5. FAISS 인덱스 생성
+    dimension = embeddings.shape[1]
+    index = faiss.IndexFlatL2(dimension)  # L2 거리 기반 인덱스
+    index.add(embeddings)
+    # 6. 저장
+    os.makedirs(os.path.dirname(INDEX_PATH), exist_ok=True)
+    faiss.write_index(index, INDEX_PATH)
+    np.save(DOCS_PATH, questions)
+    print(f"✅ FAISS 인덱스와 문서 저장 완료!")
+if __name__ == "__main__":
+    init_faiss()

retriever/reranker.py ADDED Viewed

	@@ -0,0 +1,30 @@

+from transformers import AutoTokenizer, AutoModelForSequenceClassification
+import torch
+# 1. Reranker 모델 로딩
+reranker_tokenizer = AutoTokenizer.from_pretrained("BAAI/bge-reranker-base")
+reranker_model = AutoModelForSequenceClassification.from_pretrained("BAAI/bge-reranker-base")
+def rerank_documents(query: str, docs: list, top_k: int = 5) -> list:
+    """
+    검색된 문서 리스트를 Query와 비교해서 relevance 순서로 재정렬한다.
+    """
+    pairs = [(query, doc) for doc in docs]
+    inputs = reranker_tokenizer.batch_encode_plus(
+        pairs,
+        padding=True,
+        truncation=True,
+        return_tensors="pt",
+        max_length=512
+    )
+    with torch.no_grad():
+        scores = reranker_model(**inputs).logits.squeeze(-1)  # (batch_size,)
+    scores = scores.tolist()
+    # 점수 높은 순서대로 정렬
+    sorted_docs = [doc for _, doc in sorted(zip(scores, docs), key=lambda x: x[0], reverse=True)]
+    return sorted_docs[:top_k]

retriever/vectordb.py ADDED Viewed

	@@ -0,0 +1,50 @@

+import faiss
+import numpy as np
+import os
+from sentence_transformers import SentenceTransformer
+from retriever.reranker import rerank_documents
+# 1. 임베딩 모델 로드
+embedding_model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")
+# 2. 벡터DB (FAISS Index) 초기화
+INDEX_PATH = "data/index/index.faiss"
+DOCS_PATH = "data/index/docs.npy"
+if os.path.exists(INDEX_PATH) and os.path.exists(DOCS_PATH):
+    index = faiss.read_index(INDEX_PATH)
+    documents = np.load(DOCS_PATH, allow_pickle=True)
+else:
+    index = None
+    documents = None
+    print("No FAISS index or docs found. Please build the index first.")
+# 3. 검색 함수
+def search_documents(query: str, top_k: int = 5):
+    if index is None or documents is None:
+        raise ValueError("Index or documents not loaded. Build the FAISS index first.")
+    query_vector = embedding_model.encode([query])
+    query_vector = np.array(query_vector).astype('float32')
+    distances, indices = index.search(query_vector, top_k)
+    results = []
+    for idx in indices[0]:
+        if idx < len(documents):
+            results.append(documents[idx])
+    return results
+    # # 1. Rough FAISS 검색
+    # query_embedding = embedding_model.encode([query], convert_to_tensor=True).cpu().detach().numpy()
+    # distances, indices = index.search(query_embedding, top_k)
+    # results = [documents[idx] for idx in indices[0] if idx != -1]
+    # # 2. 정밀 Reranking
+    # reranked_results = rerank_documents(query, results, top_k=top_k)
+    # return reranked_results

retriever/vectordb_rerank.py ADDED Viewed

	@@ -0,0 +1,37 @@

+import faiss
+import numpy as np
+import os
+from sentence_transformers import SentenceTransformer
+from retriever.reranker import rerank_documents
+# 1. 임베딩 모델 로드
+embedding_model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")
+# 2. 벡터DB (FAISS Index) 초기화
+INDEX_PATH = "data/index/index.faiss"
+DOCS_PATH = "data/index/docs.npy"
+if os.path.exists(INDEX_PATH) and os.path.exists(DOCS_PATH):
+    index = faiss.read_index(INDEX_PATH)
+    documents = np.load(DOCS_PATH, allow_pickle=True)
+else:
+    index = None
+    documents = None
+    print("No FAISS index or docs found. Please build the index first.")
+# 3. 검색 함수
+def search_documents(query: str, top_k: int = 5):
+    if index is None or documents is None:
+        raise ValueError("Index or documents not loaded. Build the FAISS index first.")
+    # 1. FAISS rough 검색
+    query_embedding = embedding_model.encode([query], convert_to_tensor=True).cpu().detach().numpy()
+    distances, indices = index.search(query_embedding, top_k)
+    results = [documents[idx] for idx in indices[0] if idx != -1]
+    # 2. Reranking 적용
+    reranked_results = rerank_documents(query, results, top_k=top_k)
+    return reranked_results

services/__pycache__/rag_pipeline.cpython-312.pyc ADDED Viewed

Binary file (857 Bytes). View file

services/rag_pipeline.py ADDED Viewed

	@@ -0,0 +1,21 @@

+# from retriever.vectordb import search_documents
+from retriever.vectordb_rerank import search_documents
+from generator.prompt_builder import build_prompt
+from generator.llm_inference import generate_answer
+def rag_pipeline(query: str, top_k: int = 5) -> str:
+    """
+    1. 사용자 질문으로 관련 문서를 검색
+    2. 검색된 문서와 함께 프롬프트 구성
+    3. 프롬프트로부터 답변 생성
+    """
+    # 1. 검색
+    context_docs = search_documents(query, top_k=top_k)
+    # 2. 프롬프트 조립
+    prompt = build_prompt(query, context_docs)
+    # 3. 모델 추론
+    output = generate_answer(prompt)
+    return output