Spaces:

Woziii
/

Woziii-llama-3-8b-chat-me

Runtime error

App Files Files Community

Woziii commited on Jul 24, 2024

Commit

b59dc9b

verified ·

1 Parent(s): ed870be

Update app.py

Browse files

Files changed (1) hide show

app.py +41 -27

app.py CHANGED Viewed

@@ -25,7 +25,7 @@ model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto", torc
 model.config.pad_token_id = tokenizer.pad_token_id
 MAX_MAX_NEW_TOKENS = 250
-DEFAULT_MAX_NEW_TOKENS = 70
 MAX_INPUT_TOKEN_LENGTH = 2048
@@ -161,35 +161,47 @@ def truncate_to_questions(text, max_questions):
-def post_process_response(response, is_short_response, max_questions=2):
-    # Limiter au nombre spécifié de questions, quelle que soit la longueur de la réponse
-    truncated_response = truncate_to_questions(response, max_questions)
-    # Diviser la réponse en phrases
-    sentences = re.split(r'(?<=[.!?])\s+', truncated_response)
-    # Fonction pour compter les tokens (approximation)
-    def count_tokens(text):
-        return len(text.split())
     # Déterminer la limite de tokens en fonction du type de réponse
     if is_short_response:
-        token_limit = 70
     else:
-        token_limit = 150  # Pour les réponses moyennes, ajustez si nécessaire
-    # Construire la réponse finale
-    final_response = ""
-    for sentence in sentences:
-        if count_tokens(final_response + sentence) <= token_limit:
-            final_response += sentence + " "
-        else:
-            break
-    # S'assurer que la réponse se termine par une ponctuation appropriée
-    final_response = final_response.strip()
-    if final_response and final_response[-1] not in ".!?":
-        final_response += "."
     return final_response
@@ -273,15 +285,17 @@ def generate(
         outputs = []
         for text in streamer:
             outputs.append(text)
-            partial_output = post_process_response("".join(outputs), response_type == "short")
-            if response_type == "long" and not check_coherence(partial_output):
                 yield "Je m'excuse, ma réponse manquait de cohérence. Pouvez-vous reformuler votre question ?"
                 return
-            yield partial_output
-        yield post_process_response("".join(outputs), response_type == "short")
     except Exception as e:
         print(f"Une erreur s'est produite : {str(e)}")

 model.config.pad_token_id = tokenizer.pad_token_id
 MAX_MAX_NEW_TOKENS = 250
+DEFAULT_MAX_NEW_TOKENS = 50
 MAX_INPUT_TOKEN_LENGTH = 2048
+def find_logical_stop(text, max_tokens):
+    """
+    Trouve un point d'arrêt logique dans le texte, sans dépasser max_tokens.
+    """
+    # Définir les motifs de fin logiques
+    end_patterns = r'(?<=[.!?])\s+|\n|\. |\! |\? '
+    # Diviser le texte en segments logiques
+    segments = re.split(end_patterns, text)
+    current_length = 0
+    result = ""
+    for segment in segments:
+        segment_tokens = len(segment.split())
+        if current_length + segment_tokens <= max_tokens:
+            result += segment + " "
+            current_length += segment_tokens
+        else:
+            break
+    # Nettoyer et finaliser le résultat
+    result = result.strip()
+    if result and result[-1] not in ".!?":
+        result += "."
+    return result
+def post_process_response(response, is_short_response, max_questions=2):
+    # Limiter au nombre spécifié de questions
+    truncated_response = truncate_to_questions(response, max_questions)
     # Déterminer la limite de tokens en fonction du type de réponse
     if is_short_response:
+        max_tokens = 70
     else:
+        max_tokens = 150  # Ajustez selon vos besoins
+    # Trouver un point d'arrêt logique
+    final_response = find_logical_stop(truncated_response, max_tokens)
     return final_response
         outputs = []
         for text in streamer:
             outputs.append(text)
+            current_output = "".join(outputs)
+            processed_output = post_process_response(current_output, response_type == "short")
+            if response_type == "long" and not check_coherence(processed_output):
                 yield "Je m'excuse, ma réponse manquait de cohérence. Pouvez-vous reformuler votre question ?"
                 return
+            yield processed_output
+        final_output = post_process_response("".join(outputs), response_type == "short")
+        yield final_output
     except Exception as e:
         print(f"Une erreur s'est produite : {str(e)}")