Spaces:

AlirezaF138
/

Hazm

Running

AlirezaF138 commited on Jan 17

Commit

cc082f0

verified ·

1 Parent(s): 789bb05

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,9 +1,10 @@
 import gradio as gr
-from hazm import Normalizer, word_tokenize, Lemmatizer, Chunker
 # Initialize Hazm components
 lemmatizer = Lemmatizer()
-chunker = Chunker(model='resources/chunker.model')
 def process_text(text, operation, correct_spacing, remove_diacritics, remove_specials_chars, decrease_repeated_chars, persian_style, persian_numbers, unicodes_replacement, seperate_mi):
     # Initialize the Normalizer with user-selected parameters
@@ -29,8 +30,10 @@ def process_text(text, operation, correct_spacing, remove_diacritics, remove_spe
         lemmas = [lemmatizer.lemmatize(token) for token in word_tokenize(text)]
         result = " ".join(lemmas)  # Show lemmas as a space-separated string
     elif operation == "chunk":
-        pos_tags = word_tokenize(text)
-        chunks = chunker.parse(pos_tags)
         result = str(chunks)  # Show chunks as text
     return result

 import gradio as gr
+from hazm import Normalizer, word_tokenize, Lemmatizer, POSTagger, Chunker
 # Initialize Hazm components
 lemmatizer = Lemmatizer()
+pos_tagger = POSTagger(model='resources/pos_tagger.model')  # Load POS Tagger model
+chunker = Chunker(model='resources/chunker.model')  # Load Chunker model
 def process_text(text, operation, correct_spacing, remove_diacritics, remove_specials_chars, decrease_repeated_chars, persian_style, persian_numbers, unicodes_replacement, seperate_mi):
     # Initialize the Normalizer with user-selected parameters
         lemmas = [lemmatizer.lemmatize(token) for token in word_tokenize(text)]
         result = " ".join(lemmas)  # Show lemmas as a space-separated string
     elif operation == "chunk":
+        # Tokenize and tag the input text
+        tokens = word_tokenize(text)
+        pos_tags = pos_tagger.tag(tokens)  # Generate POS tags
+        chunks = chunker.parse(pos_tags)  # Pass tagged tokens to Chunker
         result = str(chunks)  # Show chunks as text
     return result