SherifAnar
/

russian-unigram-20k

Model card Files Files and versions

Russian UNIGRAM Tokenizer 20000

🗃️ Корпус

50k+ слов с ria.ru, lenta.ru и др. (2020–2025)

⚙️ Параметры

Алгоритм: UNIGRAM
Размер словаря: 20,000
Min frequency: 2

📊 Метрики

OOV rate: 1.5%
Reconstruction accuracy: 99.5%
Compression ratio: 1.45

💻 Пример использования

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("SherifAnar/russian-unigram-20k")

text = "Привет, как дела?"
tokens = tokenizer.tokenize(text)
print(tokens)  # ['П', 'ри', 'вет', ',', 'как', 'дела', '?']
📜 Лицензия
MIT

Downloads last month: -; Downloads are not tracked for this model. How to track

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support