Tokenizers

tokenizers

DummyTokenizer

DummyTokenizer(*args, **kwargs)

Bases: Tokenizer

A dummy tokenizer that splits the input text on whitespace and returns the tokens as is.

This tokenizer will generally under-estimate token counts in English and latin languages (where words comprise more than one token on average), and will give very poor results for languages where the whitespace/"word" heuristic doesn't work well (e.g. Chinese, Japanese, Korean, Thai).

However, it requires no dependencies beyond the Python standard library, using str.split()

Source code in llmeter/tokenizers.py

def __init__(self, *args, **kwargs):
    pass

Tokenizer

Tokenizer(*args, **kwargs)

Bases: ABC

Source code in llmeter/tokenizers.py

def __init__(self, *args, **kwargs):
    pass

load `staticmethod`

load(tokenizer_info)

Loads a tokenizer from a dictionary.

Parameters:

Name	Type	Description	Default
`tokenizer_info`	`Dict`	The tokenizer information to load.	required

Returns:

Name	Type	Description
`Tokenizer`	`Tokenizer`	The loaded tokenizer.

Source code in llmeter/tokenizers.py

@staticmethod
def load(tokenizer_info: dict) -> Tokenizer:
    """
    Loads a tokenizer from a dictionary.

    Args:
        tokenizer_info (Dict): The tokenizer information to load.

    Returns:
        Tokenizer: The loaded tokenizer.
    """
    return _load_tokenizer_from_info(tokenizer_info)

load_from_file `staticmethod`

load_from_file(tokenizer_path)

Loads a tokenizer from a file.

Parameters:

Name	Type	Description	Default
`tokenizer_path`	`UPath`	The path to the serialized tokenizer file.	required

Returns:

Name	Type	Description
`Tokenizer`	`Tokenizer`	The loaded tokenizer.

Source code in llmeter/tokenizers.py

@staticmethod
def load_from_file(tokenizer_path: UPath | None) -> Tokenizer:
    """
    Loads a tokenizer from a file.

    Args:
        tokenizer_path (UPath): The path to the serialized tokenizer file.

    Returns:
        Tokenizer: The loaded tokenizer.
    """
    if tokenizer_path is None:
        return DummyTokenizer()
    with open(tokenizer_path, "r") as f:
        tokenizer_info = json.load(f)

    return _load_tokenizer_from_info(tokenizer_info)

to_dict `staticmethod`

to_dict(tokenizer)

Serializes a tokenizer to a dictionary.

Parameters:

Name	Type	Description	Default
`tokenizer`	`Tokenizer`	The tokenizer to serialize.	required

Returns:

Name	Type	Description
`Dict`	`dict`	The serialized tokenizer.

Source code in llmeter/tokenizers.py

@staticmethod
def to_dict(tokenizer: Any) -> dict:
    """
    Serializes a tokenizer to a dictionary.

    Args:
        tokenizer (Tokenizer): The tokenizer to serialize.

    Returns:
        Dict: The serialized tokenizer.
    """
    return _to_dict(tokenizer)

save_tokenizer

save_tokenizer(tokenizer, output_path)

Save a tokenizer information to a file.

Parameters:

Name	Type	Description	Default
`tokenizer`	`Tokenizer`	The tokenizer to serialize.	required
`output_path`	`UPath`	The path to save the serialized tokenizer to.	required

Returns:

Name	Type	Description
`UPath`	`UPath`	The path to the serialized tokenizer file.

Source code in llmeter/tokenizers.py

def save_tokenizer(tokenizer: Any, output_path: UPath | str) -> UPath:
    """
    Save a tokenizer information to a file.

    Args:
        tokenizer (Tokenizer): The tokenizer to serialize.
        output_path (UPath): The path to save the serialized tokenizer to.

    Returns:
        UPath: The path to the serialized tokenizer file.
    """
    tokenizer_info = _to_dict(tokenizer)

    output_path = UPath(output_path)
    output_path.parent.mkdir(parents=True, exist_ok=True)
    with open(output_path, "w") as f:
        json.dump(tokenizer_info, f)

    return output_path

Tokenizers

tokenizers

DummyTokenizer

Tokenizer

load staticmethod

load_from_file staticmethod

to_dict staticmethod

save_tokenizer

load `staticmethod`

load_from_file `staticmethod`

to_dict `staticmethod`