Spaces:

truong1301
/

RERANKER_HG_DOCS

Sleeping

App Files Files Community

truong1301 commited on Apr 5

Commit

fd91b9f

verified ·

1 Parent(s): e1c7f2a

Upload 4 files

Browse files

Files changed (4) hide show

Dockerfile +37 -0
app.py +129 -0
huggingface.yml +1 -0
requirements.txt +4 -0

Dockerfile ADDED Viewed

	@@ -0,0 +1,37 @@

+# Use Python 3.10 slim as base image
+FROM python:3.10-slim
+# Install OpenJDK 17 (includes javac and libjvm.so)
+RUN apt-get update && \
+    apt-get install -y openjdk-17-jdk && \
+    apt-get clean && \
+    rm -rf /var/lib/apt/lists/*
+# Find the actual JAVA_HOME path dynamically
+RUN update-alternatives --config java || true
+RUN echo "JAVA_HOME=$(dirname $(dirname $(readlink -f $(which java))))" >> /etc/environment
+# Set JAVA_HOME and update PATH
+ENV JAVA_HOME=/usr/lib/jvm/java-17-openjdk-amd64
+ENV PATH=$JAVA_HOME/bin:$PATH
+# Verify Java installation
+RUN echo "Checking Java installation..." && \
+    java -version && \
+    javac -version && \
+    echo "Java installed successfully!"
+# Set working directory
+WORKDIR /home/user/app
+# Copy application files
+COPY . .
+# Install Python dependencies
+RUN pip install --no-cache-dir -r requirements.txt
+# Expose port for HF Spaces
+EXPOSE 7860
+# Run the Flask app
+CMD ["python", "app.py"]

app.py ADDED Viewed

	@@ -0,0 +1,129 @@

+from flask import Flask, request, jsonify
+from sentence_transformers import CrossEncoder
+app = Flask(__name__)
+# Load your cross-encoder model
+model_name = "truong1301/reranker_pho_BLAI"  # Replace with your actual model if different
+cross_encoder = CrossEncoder(model_name, max_length=256, num_labels=1)
+# Function to preprocess text with Vietnamese word segmentation
+def preprocess_text(text):
+    if not text:
+        return text
+    segmented_text = rdrsegmenter.word_segment(text)
+    # Join tokenized sentences into a single string
+    return " ".join([" ".join(sentence) for sentence in segmented_text])
+@app.route("/rerank", methods=["POST"])
+def rerank():
+    try:
+        # Get JSON data from the request (query and list of documents)
+        data = request.get_json()
+        query = data.get("query", "")
+        documents = data.get("documents", [])
+        if not query or not documents:
+            return jsonify({"error": "Missing query or documents"}), 400
+        # Create pairs of query and documents for reranking
+        query_doc_pairs = [(query, doc) for doc in documents]
+        # Get reranking scores from the cross-encoder
+        scores = cross_encoder.predict(query_doc_pairs).tolist()
+        # Combine documents with their scores and sort
+        ranked_results = sorted(
+            [{"document": doc, "score": score} for doc, score in zip(documents, scores)],
+            key=lambda x: x["score"],
+            reverse=True
+        )
+        return jsonify({"results": ranked_results})
+    except Exception as e:
+        return jsonify({"error": str(e)}), 500
+@app.route("/", methods=["GET"])
+def health_check():
+    return jsonify({"status": "Server is running"}), 200
+if __name__ == "__main__":
+    app.run(host="0.0.0.0", port=7860)  # Default port for Hugging Face Spaces
+# from flask import Flask, request, jsonify
+# from transformers import pipeline
+# from sentence_transformers import CrossEncoder
+# app = Flask(__name__)
+# # Load Vietnamese word segmentation pipeline
+# segmenter = pipeline("token-classification", model="NlpHUST/vi-word-segmentation")
+# # Load your cross-encoder model
+# model_name = "truong1301/reranker_pho_BLAI"  # Replace with your actual model if different
+# cross_encoder = CrossEncoder(model_name, max_length=256, num_labels=1)
+# # Function to preprocess text using Vietnamese word segmentation
+# def preprocess_text(text):
+#     if not text:
+#         return text
+#     ner_results = segmenter(text)
+#     segmented_text = ""
+#     for e in ner_results:
+#         if "##" in e["word"]:
+#             segmented_text += e["word"].replace("##", "")
+#         elif e["entity"] == "I":
+#             segmented_text += "_" + e["word"]
+#         else:
+#             segmented_text += " " + e["word"]
+#     return segmented_text.strip()
+# @app.route("/rerank", methods=["POST"])
+# def rerank():
+#     try:
+#         # Get JSON data from the request (query and list of documents)
+#         data = request.get_json()
+#         query = data.get("query", "")
+#         documents = data.get("documents", [])
+#         if not query or not documents:
+#             return jsonify({"error": "Missing query or documents"}), 400
+#         # Apply Vietnamese word segmentation preprocessing
+#         segmented_query = preprocess_text(query)
+#         segmented_documents = [preprocess_text(doc) for doc in documents]
+#         # Create pairs of query and documents for reranking
+#         query_doc_pairs = [(segmented_query, doc) for doc in segmented_documents]
+#         # Get reranking scores from the cross-encoder
+#         scores = cross_encoder.predict(query_doc_pairs).tolist()
+#         # Combine documents with their scores and sort
+#         ranked_results = sorted(
+#             [{"document": doc, "score": score} for doc, score in zip(documents, scores)],
+#             key=lambda x: x["score"],
+#             reverse=True
+#         )
+#         return jsonify({"results": ranked_results})
+#     except Exception as e:
+#         return jsonify({"error": str(e)}), 500
+# @app.route("/", methods=["GET"])
+# def health_check():
+#     return jsonify({"status": "Server is running"}), 200
+# if __name__ == "__main__":
+#     app.run(host="0.0.0.0", port=7860)  # Default port for Hugging Face Spaces

huggingface.yml ADDED Viewed

	@@ -0,0 +1 @@


1	+ sdk: docker

requirements.txt ADDED Viewed

	@@ -0,0 +1,4 @@

+Flask
+sentence-transformers
+transformers
+torch