Spaces:

zaibutcooler
/

burmese-gpt

Sleeping

App Files Files Community

Zai commited on Jan 2

Commit

9cfe63d

1 Parent(s): 4cc4af5

Reformat code with black

Browse files

Files changed (12) hide show

burmese_gpt/config.py +3 -1
burmese_gpt/data/__init__.py +1 -1
burmese_gpt/data/dataset.py +4 -4
burmese_gpt/models/__init__.py +1 -1
burmese_gpt/models/model.py +6 -3
burmese_gpt/training/__init__.py +1 -1
burmese_gpt/training/trainer.py +19 -15
scripts/sample.py +1 -1
scripts/space.py +2 -4
scripts/train.py +7 -15
setup.py +2 -2
tests/test_data.py +2 -2

burmese_gpt/config.py CHANGED Viewed

@@ -1,5 +1,6 @@
 from dataclasses import dataclass
 @dataclass
 class ModelConfig:
     vocab_size: int = 30000
@@ -8,6 +9,7 @@ class ModelConfig:
     num_layers: int = 4
     dropout: float = 0.1
 @dataclass
 class TrainingConfig:
     batch_size: int = 32
@@ -17,4 +19,4 @@ class TrainingConfig:
     log_dir: str = "logs"
     save_every: int = 1
     eval_every: int = 1
-    dataset_url: str = "zaibutcooler/wiki-burmese"

 from dataclasses import dataclass
 @dataclass
 class ModelConfig:
     vocab_size: int = 30000
     num_layers: int = 4
     dropout: float = 0.1
 @dataclass
 class TrainingConfig:
     batch_size: int = 32
     log_dir: str = "logs"
     save_every: int = 1
     eval_every: int = 1
+    dataset_url: str = "zaibutcooler/wiki-burmese"

burmese_gpt/data/__init__.py CHANGED Viewed

	@@ -1 +1 @@
1	- from .dataset import BurmeseDataset


1	+ from .dataset import BurmeseDataset

burmese_gpt/data/dataset.py CHANGED Viewed

@@ -6,7 +6,7 @@ from burmese_gpt.config import TrainingConfig
 class BurmeseDataset(Dataset):
-    def __init__(self, split="train", max_length=128,config:TrainingConfig=None):
         self.dataset = load_dataset(config.dataset_url, split=split)
         self.tokenizer = AutoTokenizer.from_pretrained("bert-base-multilingual-cased")
         if self.tokenizer.pad_token is None:
@@ -23,9 +23,9 @@ class BurmeseDataset(Dataset):
             truncation=True,
             max_length=self.max_length,
             padding="max_length",
-            return_tensors="pt"
         )
         return {
             "input_ids": encodings["input_ids"].squeeze(),
-            "attention_mask": encodings["attention_mask"].squeeze()
-        }

 class BurmeseDataset(Dataset):
+    def __init__(self, split="train", max_length=128, config: TrainingConfig = None):
         self.dataset = load_dataset(config.dataset_url, split=split)
         self.tokenizer = AutoTokenizer.from_pretrained("bert-base-multilingual-cased")
         if self.tokenizer.pad_token is None:
             truncation=True,
             max_length=self.max_length,
             padding="max_length",
+            return_tensors="pt",
         )
         return {
             "input_ids": encodings["input_ids"].squeeze(),
+            "attention_mask": encodings["attention_mask"].squeeze(),
+        }

burmese_gpt/models/__init__.py CHANGED Viewed

	@@ -1 +1 @@
1	- from .model import BurmeseGPT


1	+ from .model import BurmeseGPT

burmese_gpt/models/model.py CHANGED Viewed

@@ -2,6 +2,7 @@ import torch
 from torch import nn
 from burmese_gpt.config import ModelConfig
 class BurmeseGPT(nn.Module):
     def __init__(self, config: ModelConfig):
         super(BurmeseGPT, self).__init__()
@@ -18,9 +19,11 @@ class BurmeseGPT(nn.Module):
             d_model=config.embed_dim,
             nhead=config.num_heads,
             dropout=config.dropout,
-            batch_first=True
         )
-        self.transformer = nn.TransformerEncoder(encoder_layer, num_layers=config.num_layers)
         # Final projection layer
         self.fc = nn.Linear(config.embed_dim, config.vocab_size)
@@ -55,4 +58,4 @@ class BurmeseGPT(nn.Module):
         x = self.transformer(x, mask)
         # Final projection
-        return self.fc(x)

 from torch import nn
 from burmese_gpt.config import ModelConfig
 class BurmeseGPT(nn.Module):
     def __init__(self, config: ModelConfig):
         super(BurmeseGPT, self).__init__()
             d_model=config.embed_dim,
             nhead=config.num_heads,
             dropout=config.dropout,
+            batch_first=True,
+        )
+        self.transformer = nn.TransformerEncoder(
+            encoder_layer, num_layers=config.num_layers
         )
         # Final projection layer
         self.fc = nn.Linear(config.embed_dim, config.vocab_size)
         x = self.transformer(x, mask)
         # Final projection
+        return self.fc(x)

burmese_gpt/training/__init__.py CHANGED Viewed

	@@ -1 +1 @@
1	- from .trainer import BurmeseGPTTrainer


1	+ from .trainer import BurmeseGPTTrainer

burmese_gpt/training/trainer.py CHANGED Viewed

@@ -8,8 +8,9 @@ from burmese_gpt.config import TrainingConfig
 logger = logging.getLogger(__name__)
 class BurmeseGPTTrainer:
-    def __init__(self, model, train_loader, val_loader, config:TrainingConfig):
         """
         Trainer for BurmeseGPT model
@@ -32,7 +33,9 @@ class BurmeseGPTTrainer:
         self.optimizer = AdamW(
             model.parameters(),
             lr=config.learning_rate,
-            weight_decay=config.weight_decay if hasattr(config, 'weight_decay') else 0.01
         )
         # Loss function (ignoring padding tokens)
@@ -59,8 +62,7 @@ class BurmeseGPTTrainer:
             # Calculate loss (same as original)
             loss = self.criterion(
-                outputs.reshape(-1, outputs.size(-1)),
-                targets.reshape(-1)
             )
             # Backward pass
@@ -85,8 +87,7 @@ class BurmeseGPTTrainer:
                 outputs = self.model(inputs)
                 loss = self.criterion(
-                    outputs.reshape(-1, outputs.size(-1)),
-                    targets.reshape(-1)
                 )
                 total_loss += loss.item()
@@ -99,19 +100,19 @@ class BurmeseGPTTrainer:
         Returns:
             Dictionary with training metrics
         """
-        metrics = {'train_loss': [], 'val_loss': []}
-        best_loss = float('inf')
         for epoch in range(1, self.config.num_epochs + 1):
             logger.info(f"Epoch {epoch}/{self.config.num_epochs}")
             # Training
             train_loss = self.train_epoch()
-            metrics['train_loss'].append(train_loss)
             # Validation
             val_loss = self.validate()
-            metrics['val_loss'].append(val_loss)
             logger.info(f"Train Loss: {train_loss:.4f} | Val Loss: {val_loss:.4f}")
@@ -129,8 +130,11 @@ class BurmeseGPTTrainer:
     def save_checkpoint(self, filename: str):
         """Save model checkpoint"""
-        torch.save({
-            'model_state_dict': self.model.state_dict(),
-            'optimizer_state_dict': self.optimizer.state_dict(),
-            'config': self.config
-        }, f"{self.config.checkpoint_dir}/{filename}")

 logger = logging.getLogger(__name__)
 class BurmeseGPTTrainer:
+    def __init__(self, model, train_loader, val_loader, config: TrainingConfig):
         """
         Trainer for BurmeseGPT model
         self.optimizer = AdamW(
             model.parameters(),
             lr=config.learning_rate,
+            weight_decay=(
+                config.weight_decay if hasattr(config, "weight_decay") else 0.01
+            ),
         )
         # Loss function (ignoring padding tokens)
             # Calculate loss (same as original)
             loss = self.criterion(
+                outputs.reshape(-1, outputs.size(-1)), targets.reshape(-1)
             )
             # Backward pass
                 outputs = self.model(inputs)
                 loss = self.criterion(
+                    outputs.reshape(-1, outputs.size(-1)), targets.reshape(-1)
                 )
                 total_loss += loss.item()
         Returns:
             Dictionary with training metrics
         """
+        metrics = {"train_loss": [], "val_loss": []}
+        best_loss = float("inf")
         for epoch in range(1, self.config.num_epochs + 1):
             logger.info(f"Epoch {epoch}/{self.config.num_epochs}")
             # Training
             train_loss = self.train_epoch()
+            metrics["train_loss"].append(train_loss)
             # Validation
             val_loss = self.validate()
+            metrics["val_loss"].append(val_loss)
             logger.info(f"Train Loss: {train_loss:.4f} | Val Loss: {val_loss:.4f}")
     def save_checkpoint(self, filename: str):
         """Save model checkpoint"""
+        torch.save(
+            {
+                "model_state_dict": self.model.state_dict(),
+                "optimizer_state_dict": self.optimizer.state_dict(),
+                "config": self.config,
+            },
+            f"{self.config.checkpoint_dir}/{filename}",
+        )

scripts/sample.py CHANGED Viewed

@@ -1,4 +1,4 @@
 # TODO: Need to sample
 if __name__ == "__main__":
-    print("Sampling the Burmese GPT model...")

 # TODO: Need to sample
 if __name__ == "__main__":
+    print("Sampling the Burmese GPT model...")

scripts/space.py CHANGED Viewed

@@ -2,9 +2,7 @@ import streamlit as st
 # Set up the page layout
 st.set_page_config(
-    page_title="Burmese GPT",
-    page_icon=":speech_balloon:",
-    layout="wide"
 )
 # Create a sidebar with a title and a brief description
@@ -49,4 +47,4 @@ elif selected_view == "Chat Interface":
     response_area = st.text_area("Model:", height=200, disabled=True)
     # Add some space between the input and output areas
-    st.write("")

 # Set up the page layout
 st.set_page_config(
+    page_title="Burmese GPT", page_icon=":speech_balloon:", layout="wide"
 )
 # Create a sidebar with a title and a brief description
     response_area = st.text_area("Model:", height=200, disabled=True)
     # Add some space between the input and output areas
+    st.write("")

scripts/train.py CHANGED Viewed

@@ -9,13 +9,12 @@ from burmese_gpt.config import ModelConfig, TrainingConfig
 from torch.utils.data import DataLoader
 logging.basicConfig(
-    level=logging.INFO,
-    format='%(asctime)s - %(levelname)s - %(message)s'
 )
 logger = logging.getLogger(__name__)
-if __name__ == '__main__':
     model_config = ModelConfig()
     training_config = TrainingConfig()
@@ -23,8 +22,8 @@ if __name__ == '__main__':
     logger.info(f"Loading dataset from {training_config.dataset_url}")
-    train_dataset = BurmeseDataset(split="train[:90%]")  # First 90% for training
-    val_dataset = BurmeseDataset(split="train[90%:]")  # Last 10% for validation
     model_config.vocab_size = train_dataset.tokenizer.vocab_size
     logger.info(f"Using vocab size: {model_config.vocab_size}")
@@ -33,25 +32,18 @@ if __name__ == '__main__':
     model = BurmeseGPT(model_config)
     train_loader = DataLoader(
-        train_dataset,
-        batch_size=training_config.batch_size,
-        shuffle=True
-    )
-    val_loader = DataLoader(
-        val_dataset,
-        batch_size=training_config.batch_size
     )
     logger.info("Starting training...")
     trainer = BurmeseGPTTrainer(
         model=model,
         train_loader=train_loader,
         val_loader=val_loader,
-        config=training_config
     )
     metrics = trainer.train()
     logger.info("Training completed!")

 from torch.utils.data import DataLoader
 logging.basicConfig(
+    level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s"
 )
 logger = logging.getLogger(__name__)
+if __name__ == "__main__":
     model_config = ModelConfig()
     training_config = TrainingConfig()
     logger.info(f"Loading dataset from {training_config.dataset_url}")
+    train_dataset = BurmeseDataset(split="train[:90%]", config=training_config)
+    val_dataset = BurmeseDataset(split="train[90%:]", config=training_config)
     model_config.vocab_size = train_dataset.tokenizer.vocab_size
     logger.info(f"Using vocab size: {model_config.vocab_size}")
     model = BurmeseGPT(model_config)
     train_loader = DataLoader(
+        train_dataset, batch_size=training_config.batch_size, shuffle=True
     )
+    val_loader = DataLoader(val_dataset, batch_size=training_config.batch_size)
     logger.info("Starting training...")
     trainer = BurmeseGPTTrainer(
         model=model,
         train_loader=train_loader,
         val_loader=val_loader,
+        config=training_config,
     )
     metrics = trainer.train()
     logger.info("Training completed!")

setup.py CHANGED Viewed

@@ -1,7 +1,7 @@
-from setuptools import  setup
 setup(
     name="burmese_gpt",
     version="0.1",
     author="Sai Ye Yint Aung",
-)

+from setuptools import setup
 setup(
     name="burmese_gpt",
     version="0.1",
     author="Sai Ye Yint Aung",
+)

tests/test_data.py CHANGED Viewed

@@ -6,8 +6,8 @@ from burmese_gpt.config import TrainingConfig
 class TestData(unittest.TestCase):
     def test_data(self):
         training_config = TrainingConfig()
-        train_dataset = BurmeseDataset(split="train[:90%]",config=training_config)
-        val_dataset = BurmeseDataset(split="train[90%:]",config=training_config)
         self.assertIsNotNone(train_dataset)
         self.assertIsNotNone(val_dataset)

 class TestData(unittest.TestCase):
     def test_data(self):
         training_config = TrainingConfig()
+        train_dataset = BurmeseDataset(split="train[:90%]", config=training_config)
+        val_dataset = BurmeseDataset(split="train[90%:]", config=training_config)
         self.assertIsNotNone(train_dataset)
         self.assertIsNotNone(val_dataset)