jkot
/

transormer_en_cs_translator

Model card Files Files and versions

jkot commited on Dec 13, 2023

Commit

389ef93

·

1 Parent(s): 32e3407

Upload eval.py

Files changed (1) hide show

eval.py +9 -12

eval.py CHANGED Viewed

@@ -9,19 +9,19 @@ from tensorflow.keras.callbacks import EarlyStopping, ModelCheckpoint
 import datetime
 import random
 import re
-from sacrebleu.metrics import CHRF
 import time
 import sys
 # from keras import ops
 #hyperparameters
 MAX_SEQUENCE_LENGTH = 64
-eval_samples = 100
 transformer = keras.models.load_model('models_europarl/en_cs_translator_saved_20231209_0046.keras')
 def read_files(path, lowercase = False):
     with open(path, "r", encoding="utf-8") as f:
         dataset_split = f.read().split("\n")[:-1]
     if(lowercase):
         dataset_split = [line.lower() for line in dataset_split]
     return dataset_split
@@ -148,12 +148,9 @@ def decode_sequences(input_sentence):
 test_en = read_files('datasets/europarl/test-cs-en.en')
 test_cs = read_files('datasets/europarl/test-cs-en.cs')
-bleu_metrics = keras_nlp.metrics.Bleu(
-    name="bleu",
-    tokenizer = cs_tokenizer
-)
 chrf = CHRF()
 refs = test_cs[:eval_samples]
 translations = []
 start_time = time.time()
@@ -177,17 +174,17 @@ end_time = time.time()
 refs_twodim = [[ref] for ref in refs]
-bleu_metrics(refs_twodim, translations)
 print("evaluating chrf", flush=True)
 chrf2_result = chrf.corpus_score(translations, refs_twodim)
 print("chrf2")
 print(chrf2_result)
 print("bleu")
-print(bleu_metrics.result().numpy())
-print("elapsed time")
 elapsed_time = end_time - start_time
-print(elapsed_time)

 import datetime
 import random
 import re
+from sacrebleu.metrics import CHRF, BLEU
 import time
 import sys
 # from keras import ops
 #hyperparameters
 MAX_SEQUENCE_LENGTH = 64
+eval_samples = 10
 transformer = keras.models.load_model('models_europarl/en_cs_translator_saved_20231209_0046.keras')
 def read_files(path, lowercase = False):
     with open(path, "r", encoding="utf-8") as f:
         dataset_split = f.read().split("\n")[:-1]
+    #to lowercase, idk why
     if(lowercase):
         dataset_split = [line.lower() for line in dataset_split]
     return dataset_split
 test_en = read_files('datasets/europarl/test-cs-en.en')
 test_cs = read_files('datasets/europarl/test-cs-en.cs')
 chrf = CHRF()
+bleu = BLEU()
 refs = test_cs[:eval_samples]
 translations = []
 start_time = time.time()
+print("evaluating bleu", flush=True)
 refs_twodim = [[ref] for ref in refs]
 print("evaluating chrf", flush=True)
 chrf2_result = chrf.corpus_score(translations, refs_twodim)
+bleu_result = bleu.corpus_score(translations, refs_twodim)
 print("chrf2")
 print(chrf2_result)
 print("bleu")
+print(bleu_result)
 elapsed_time = end_time - start_time
+print("elapsed time")
+print(elapsed_time)