jkot
/

transormer_en_cs_translator

jkot commited on Dec 13, 2023

Commit

e05693a

1 Parent(s): 1308da5

Upload 5 files

Files changed (4) hide show

eval.py CHANGED Viewed

@@ -20,7 +20,6 @@ transformer = keras.models.load_model('models_europarl/en_cs_translator_saved_20
 def read_files(path, lowercase = False):
     with open(path, "r", encoding="utf-8") as f:
         dataset_split = f.read().split("\n")[:-1]
-    #to lowercase, idk why
     if(lowercase):
         dataset_split = [line.lower() for line in dataset_split]
     return dataset_split

 def read_files(path, lowercase = False):
     with open(path, "r", encoding="utf-8") as f:
         dataset_split = f.read().split("\n")[:-1]
     if(lowercase):
         dataset_split = [line.lower() for line in dataset_split]
     return dataset_split

preprocess_dataset.py CHANGED Viewed

@@ -1,14 +1,10 @@
 import keras_nlp
-import keras
 import tensorflow.data as tf_data
-import pickle
 #hyperparameters
 BATCH_SIZE = 16
 MAX_SEQUENCE_LENGTH = 64
-#load tokenizers/en_vocab to list
 def read_files(path, lowercase = False):
     with open(path, "r", encoding="utf-8") as f:
         dataset_split = f.read().split("\n")[:-1]

 import keras_nlp
 import tensorflow.data as tf_data
 #hyperparameters
 BATCH_SIZE = 16
 MAX_SEQUENCE_LENGTH = 64
 def read_files(path, lowercase = False):
     with open(path, "r", encoding="utf-8") as f:
         dataset_split = f.read().split("\n")[:-1]

train.py CHANGED Viewed

@@ -2,7 +2,6 @@
 import keras_nlp
 import keras
 import tensorflow.data as tf_data
-import pickle
 from tensorflow.keras.optimizers import Adam
 from tensorflow.keras.callbacks import EarlyStopping, ModelCheckpoint
 import datetime
@@ -13,7 +12,6 @@ EPOCHS = 20
 EMBED_DIM = 256
 INTERMEDIATE_DIM = 2048
 NUM_HEADS = 8
-# TODO probably change dynamically
 MAX_SEQUENCE_LENGTH = 128
 EN_VOCAB_SIZE = 30000
 CS_VOCAB_SIZE = 30000

 import keras_nlp
 import keras
 import tensorflow.data as tf_data
 from tensorflow.keras.optimizers import Adam
 from tensorflow.keras.callbacks import EarlyStopping, ModelCheckpoint
 import datetime
 EMBED_DIM = 256
 INTERMEDIATE_DIM = 2048
 NUM_HEADS = 8
 MAX_SEQUENCE_LENGTH = 128
 EN_VOCAB_SIZE = 30000
 CS_VOCAB_SIZE = 30000

train_tokenizers.py CHANGED Viewed

@@ -1,8 +1,5 @@
 import keras_nlp
-import keras
 import tensorflow.data as tf_data
-import pickle
-import random
 EN_VOCAB_SIZE = 30000
 CS_VOCAB_SIZE = 30000
@@ -20,27 +17,12 @@ def train_word_piece(text_samples, vocab_size, reserved_tokens, save_output_path
 def read_files(path):
     with open(path, "r", encoding="utf-8") as f:
         dataset_split = f.read().split("\n")[:-1]
-    #to lowercase, idk why
     dataset_split = [line.lower() for line in dataset_split]
     return dataset_split
-#OPUS cs-en
-# train_cs = read_files('datasets/cs-en/opus.cs-en-train.cs')
-# train_en = read_files('datasets/cs-en/opus.cs-en-train.en')
-#EUROPARL cs-en
 train_cs = read_files('datasets/europarl/train-cs-en.cs')
 train_en = read_files('datasets/europarl/train-cs-en.en')
-print(train_cs[0])
-print(train_en[0])
 reserved_tokens = ["[PAD]", "[UNK]", "[START]", "[END]"]
 en_vocab = train_word_piece(train_en, EN_VOCAB_SIZE, reserved_tokens, "tokenizers/en_europarl_vocab")
 cs_vocab = train_word_piece(train_cs, CS_VOCAB_SIZE, reserved_tokens, "tokenizers/cs_europarl_vocab")

 import keras_nlp
 import tensorflow.data as tf_data
 EN_VOCAB_SIZE = 30000
 CS_VOCAB_SIZE = 30000
 def read_files(path):
     with open(path, "r", encoding="utf-8") as f:
         dataset_split = f.read().split("\n")[:-1]
     dataset_split = [line.lower() for line in dataset_split]
     return dataset_split
 train_cs = read_files('datasets/europarl/train-cs-en.cs')
 train_en = read_files('datasets/europarl/train-cs-en.en')
 reserved_tokens = ["[PAD]", "[UNK]", "[START]", "[END]"]
 en_vocab = train_word_piece(train_en, EN_VOCAB_SIZE, reserved_tokens, "tokenizers/en_europarl_vocab")
 cs_vocab = train_word_piece(train_cs, CS_VOCAB_SIZE, reserved_tokens, "tokenizers/cs_europarl_vocab")