Spaces:

nairaxo
/

swauti

Runtime error

App Files Files Community

nairaxo commited on Jan 6

Commit

d7e32f5

verified ·

1 Parent(s): cba6e73

Update app.py

Browse files

Files changed (1) hide show

app.py +31 -20

app.py CHANGED Viewed

@@ -4,6 +4,8 @@ import scipy
 import torchaudio
 from speechbrain.pretrained import SepformerSeparation as separator
 # Chargement des modèles Whisper pour la transcription
 model_roman = pipeline("automatic-speech-recognition", model="nairaxo/whisper-shikomori-latin")
 model_arabic = pipeline("automatic-speech-recognition", model="nairaxo/whisper-shikomori-arabic")
@@ -24,17 +26,22 @@ def transcribe(audio, model_choice):
     return transcription
 # Fonction de génération et d'amélioration audio
-def generate_and_enhance_audio(text):
-    # Synthétiser la parole
     speech = synthesiser(text)
-    output = "finetuned_output.wav"
-    scipy.io.wavfile.write(output, rate=speech["sampling_rate"], data=speech["audio"][0])
-    # Améliorer la qualité audio
-    est_sources = model_enh.separate_file(path=output)
-    torchaudio.save(output, est_sources[:, :, 0].detach().cpu(), 16000)
-    return output
 # Initialisation des blocs pour l'interface Gradio
 demo = gr.Blocks()
@@ -50,7 +57,6 @@ mf_transcribe = gr.Interface(
     outputs=gr.Textbox(label="📄 Transcription en Shikomori", lines=5, max_lines=10),
     title="Transcription Audio en Shikomori",
     description="<p style='color: #555;'>Sélectionnez une méthode et un modèle pour transcrire l'audio en langue Shikomori. Ce service (en version bêta) prend en charge les transcriptions en alphabet latin et arabe (système Kamar-Eddine). Les modèles ont été entraîné sur la base de données construites à partir d'un algorithme d'alignement forcé. Pour une bonne expérience et afin de mieux transcrire vos audios, assurez-vous de prononcer clairement les mots et d'être dans un environnement ayant peu de bruits.</p>",
-    theme="compact",
 )
 # Interface Gradio pour fichier audio (Speech-to-Text)
@@ -64,23 +70,28 @@ file_transcribe = gr.Interface(
     outputs=gr.Textbox(label="📄 Transcription en Shikomori", lines=5, max_lines=10),
     title="Transcription Audio en Shikomori",
     description="<p style='color: #555;'>Chargez un fichier audio et sélectionnez une méthode et un modèle pour transcrire l'audio en langue Shikomori. Ce service (en version bêta) prend en charge les transcriptions en alphabet latin et arabe (système Kamar-Eddine). Les modèles ont été entraîné sur la base de données construites à partir d'un algorithme d'alignement forcé. Pour une bonne expérience et afin de mieux transcrire vos audios, assurez-vous de prononcer clairement les mots et d'être dans un environnement ayant peu de bruits.</p>",
-    theme="compact",
 )
 # Interface Gradio pour Text-to-Speech
-tts_interface = gr.Interface(
-    fn=generate_and_enhance_audio,
-    inputs=gr.Textbox(label="Entrez votre texte", lines=3, placeholder="Écrivez ici..."),
-    outputs=gr.Audio(label="Audio généré", type="filepath"),
-    title="Synthèse et amélioration de la parole",
-    description="<p style='color: #555;'>Entrez du texte pour générer de la parole en Shikomori et améliorer sa qualité audio.</p>",
-    theme="compact",
-)
 # Utilisation de l'interface avec des onglets
-with demo:
     gr.TabbedInterface(
-        [mf_transcribe, file_transcribe, tts_interface],
         ["🔊 Microphone", "📁 Fichier Audio", "🎙️ Text-to-Speech"]
     )

 import torchaudio
 from speechbrain.pretrained import SepformerSeparation as separator
+from shialifube import transliterate
 # Chargement des modèles Whisper pour la transcription
 model_roman = pipeline("automatic-speech-recognition", model="nairaxo/whisper-shikomori-latin")
 model_arabic = pipeline("automatic-speech-recognition", model="nairaxo/whisper-shikomori-arabic")
     return transcription
 # Fonction de génération et d'amélioration audio
+def generate_and_enhance_audio(text, script_choice):
+    # Translittérer le texte si l'utilisateur a choisi l'arabe
+    if script_choice == "Alphabet arabe":
+        text = transliterate(text)  # Translittération de l'arabe en latin
+    # Synthétiser la parole (audio original)
     speech = synthesiser(text)
+    original_output = "original_output.wav"
+    scipy.io.wavfile.write(original_output, rate=speech["sampling_rate"], data=speech["audio"][0])
+    # Améliorer la qualité audio (audio amélioré)
+    enhanced_output = "enhanced_output.wav"
+    est_sources = model_enh.separate_file(path=original_output)
+    torchaudio.save(enhanced_output, est_sources[:, :, 0].detach().cpu(), 16000)
+    return original_output, enhanced_output
 # Initialisation des blocs pour l'interface Gradio
 demo = gr.Blocks()
     outputs=gr.Textbox(label="📄 Transcription en Shikomori", lines=5, max_lines=10),
     title="Transcription Audio en Shikomori",
     description="<p style='color: #555;'>Sélectionnez une méthode et un modèle pour transcrire l'audio en langue Shikomori. Ce service (en version bêta) prend en charge les transcriptions en alphabet latin et arabe (système Kamar-Eddine). Les modèles ont été entraîné sur la base de données construites à partir d'un algorithme d'alignement forcé. Pour une bonne expérience et afin de mieux transcrire vos audios, assurez-vous de prononcer clairement les mots et d'être dans un environnement ayant peu de bruits.</p>",
 )
 # Interface Gradio pour fichier audio (Speech-to-Text)
     outputs=gr.Textbox(label="📄 Transcription en Shikomori", lines=5, max_lines=10),
     title="Transcription Audio en Shikomori",
     description="<p style='color: #555;'>Chargez un fichier audio et sélectionnez une méthode et un modèle pour transcrire l'audio en langue Shikomori. Ce service (en version bêta) prend en charge les transcriptions en alphabet latin et arabe (système Kamar-Eddine). Les modèles ont été entraîné sur la base de données construites à partir d'un algorithme d'alignement forcé. Pour une bonne expérience et afin de mieux transcrire vos audios, assurez-vous de prononcer clairement les mots et d'être dans un environnement ayant peu de bruits.</p>",
 )
 # Interface Gradio pour Text-to-Speech
+with gr.Blocks() as tts_interface: # Create a new Blocks instance for Text-to-Speech
+    gr.Markdown("## 🎙️ Synthèse et amélioration de la parole")
+    gr.Markdown("<p style='color: #555;'>Entrez du texte pour générer de la parole en Shikomori. Si le texte est en alphabet arabe, il sera automatiquement translittéré en alphabet latin avant la synthèse. L'audio original et l'audio amélioré seront affichés côte à côte.</p>")
+    with gr.Row():
+        text_input = gr.Textbox(label="Entrez votre texte", lines=3, placeholder="Écrivez ici...")
+        script_choice = gr.Radio(choices=["Alphabet latin", "Alphabet arabe"], label="Sélection du script d'entrée", value="Alphabet latin")
+    with gr.Row():
+        original_audio = gr.Audio(label="Audio original", type="filepath")
+        enhanced_audio = gr.Audio(label="Audio amélioré", type="filepath")
+    generate_button = gr.Button("Générer l'audio")
+    generate_button.click(fn=generate_and_enhance_audio, inputs=[text_input, script_choice], outputs=[original_audio, enhanced_audio])
 # Utilisation de l'interface avec des onglets
+with demo: # Use the main 'demo' Blocks instance for the TabbedInterface
     gr.TabbedInterface(
+        [mf_transcribe, file_transcribe, tts_interface], # Use the new tts_interface
         ["🔊 Microphone", "📁 Fichier Audio", "🎙️ Text-to-Speech"]
     )