ollama

File size: 4,192 Bytes

9104d9c

"""
NeuralQuantum Ollama Tokenizer for Hugging Face Transformers
"""

import json
from typing import List, Optional, Union
from transformers import PreTrainedTokenizer


class NeuralQuantumOllamaTokenizer(PreTrainedTokenizer):
    """Tokenizer for NeuralQuantum Ollama model"""
    
    def __init__(
        self,
        vocab_file=None,
        merges_file=None,
        tokenizer_file=None,
        unk_token="<|endoftext|>",
        bos_token="<|endoftext|>",
        eos_token="<|endoftext|>",
        pad_token="<|endoftext|>",
        quantum_token="<|quantum|>",
        classical_token="<|classical|>",
        system_token="<|system|>",
        user_token="<|user|>",
        assistant_token="<|assistant|>",
        add_prefix_space=False,
        **kwargs
    ):
        # Simple vocabulary for demonstration
        vocab = {
            "<|endoftext|>": 0,
            "<|quantum|>": 1,
            "<|classical|>": 2,
            "<|system|>": 3,
            "<|user|>": 4,
            "<|assistant|>": 5,
        }
        
        # Add basic vocabulary
        for i, char in enumerate("abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789 .,!?;:'\"-()[]{}"):
            vocab[char] = i + 6
        
        # Set vocab before calling super().__init__
        self._vocab = vocab
        self._ids_to_tokens = {v: k for k, v in vocab.items()}
            
        super().__init__(
            unk_token=unk_token,
            bos_token=bos_token,
            eos_token=eos_token,
            pad_token=pad_token,
            add_prefix_space=add_prefix_space,
            **kwargs
        )
        
        self.quantum_token = quantum_token
        self.classical_token = classical_token
        self.system_token = system_token
        self.user_token = user_token
        self.assistant_token = assistant_token
        
    @property
    def vocab_size(self):
        return len(self._vocab)
        
    def get_vocab(self):
        return dict(self._vocab)
        
    def _tokenize(self, text):
        """Basic tokenization - split by whitespace and characters"""
        tokens = []
        current_token = ""
        
        for char in text:
            if char.isspace():
                if current_token:
                    tokens.append(current_token)
                    current_token = ""
            else:
                current_token += char
                
        if current_token:
            tokens.append(current_token)
            
        return tokens
        
    def _convert_token_to_id(self, token):
        """Convert token to ID"""
        return self._vocab.get(token, self._vocab[self.unk_token])
        
    def _convert_id_to_token(self, index):
        """Convert ID to token"""
        return self._ids_to_tokens.get(index, self.unk_token)
        
    def convert_tokens_to_string(self, tokens):
        """Convert tokens back to string"""
        return " ".join(tokens)
        
    def save_vocabulary(self, save_directory, filename_prefix=None):
        """Save vocabulary to files"""
        vocab_file = f"{filename_prefix}-vocab.json" if filename_prefix else "vocab.json"
        vocab_path = f"{save_directory}/{vocab_file}"
        
        with open(vocab_path, 'w') as f:
            json.dump(self._vocab, f, indent=2)
            
        return (vocab_path,)
        
    def build_inputs_with_special_tokens(self, token_ids_0, token_ids_1=None):
        """Build input with special tokens for Ollama format"""
        if token_ids_1 is None:
            return token_ids_0 + [self.eos_token_id]
        return token_ids_0 + token_ids_1 + [self.eos_token_id]
        
    def get_special_tokens_mask(self, token_ids_0, token_ids_1=None, already_has_special_tokens=False):
        """Get special tokens mask"""
        if already_has_special_tokens:
            return super().get_special_tokens_mask(
                token_ids_0=token_ids_0, token_ids_1=token_ids_1, already_has_special_tokens=True
            )
            
        if token_ids_1 is not None:
            return [1] + ([0] * len(token_ids_0)) + [1] + ([0] * len(token_ids_1)) + [1]
        return [1] + ([0] * len(token_ids_0)) + [1]