huggingface-tokenizers tutorials

How to train a tokenizer on a big dataset?

Jun 16, 2026

How to load a WordLevel Tokenizer trained with tokenizers in transformers

Jun 11, 2026

nlp huggingface-transformers huggingface-tokenizers

How to map token indices from the SQuAD data to tokens from BERT tokenizer?

Jun 07, 2026

bert-language-model transformer-model nlp-question-answering huggingface-tokenizers squad

What's the meaning of "Using bos_token, but it is not set yet."

Jun 01, 2026

multilingual huggingface-transformers huggingface-tokenizers distilbert

Huggingface error: AttributeError: 'ByteLevelBPETokenizer' object has no attribute 'pad_token_id'

Apr 28, 2026

python pytorch tokenize huggingface-transformers huggingface-tokenizers

How to know if HuggingFace's pipeline text input exceeds 512 tokens

Apr 23, 2026

huggingface-transformers huggingface-tokenizers huggingface

How to do Tokenizer Batch processing? - HuggingFace

Apr 22, 2026

pytorch batch-processing tokenize huggingface-transformers huggingface-tokenizers

TypeError: not a string | parameters in AutoTokenizer.from_pretrained()

Mar 30, 2026

python tensorflow huggingface-transformers onnx huggingface-tokenizers

How to get a probability distribution over tokens in a huggingface model?

Mar 29, 2026

python pytorch huggingface-transformers huggingface-tokenizers

How does one set the pad token correctly (not to eos) during fine-tuning to avoid model not predicting EOS?

Mar 20, 2026

machine-learning pytorch huggingface-transformers huggingface huggingface-tokenizers

what is the difference between len(tokenizer) and tokenizer.vocab_size

Mar 14, 2026

nlp tokenize huggingface-transformers huggingface-tokenizers

How can I make sentence-BERT throw an exception if the text exceeds max_seq_length, and what is the max possible max_seq_length for all-MiniLM-L6-v2?

Mar 13, 2026

nlp huggingface-transformers bert-language-model huggingface-tokenizers sentence-transformers

Huggingface MarianMT translators lose content, depending on the model

Mar 12, 2026

python huggingface-transformers huggingface-tokenizers machine-translation

How to add new special token to the tokenizer?

Mar 10, 2026

bert-language-model huggingface-tokenizers sentencepiece

Tokenizer.from_file() HUGGINFACE : Exception: data did not match any variant of untagged enum ModelWrapper

Mar 08, 2026

json nlp huggingface-transformers huggingface-tokenizers huggingface

Loading checkpoint shards takes too long

Mar 03, 2026

huggingface-transformers h2o huggingface huggingface-tokenizers llama

New posts in huggingface-tokenizers