Persian BPE Tokenizer (30K)

A Byte-Pair Encoding (BPE) tokenizer with a vocabulary size of 30,000, trained on ~2M Persian texts with an average length of 10,000 characters for NLP tasks.

Usage

Encoding

from tokenizers import Tokenizer
tokenizer= Tokenizer.from_file("Persian_BPE_Tokenizer_30K.json")
encoded_text= tokenizer.encode("این یک متن آزمایشی است.")
print("Tokens:", encoded_text.tokens)
print("IDs:", encoded_text.ids)

Decoding

decoded_text= tokenizer.decode_batch([[id] for id in encoded_text.ids])
print("Decoded:", decoded_text)

Training Data

This tokenizer was trained on the following datasets:

Wikipedia (20231101.fa): https://huggingface.co/datasets/wikimedia/wikipedia
Persian Blog: https://huggingface.co/datasets/RohanAiLab/persian_blog
HomoRich: https://huggingface.co/datasets/MahtaFetrat/HomoRich-G2P-Persian

License

Code and tokenizer: MIT License

Evaluation Metrics

UNK Rate: 0.0% (on 100,000 samples)
Compression Ratio: 4.56 (on 100,000 samples)

Requirements

For using the tokenizer:
- Python >= 3.9
- tokenizers
For training the tokenizer:
- pandas
- datasets
- requests
- hazm

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
.gitignore		.gitignore
LICENSE		LICENSE
Persian_BPE_Tokenizer_30K.json		Persian_BPE_Tokenizer_30K.json
README.md		README.md
main.py		main.py
packages.py		packages.py
preprocess.py		preprocess.py
requirements.txt		requirements.txt
tokenizer_training.py		tokenizer_training.py
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Persian BPE Tokenizer (30K)

Usage

Encoding

Decoding

Training Data

License

Evaluation Metrics

Requirements

About

Uh oh!

Releases

Packages

Languages

License

Amir-Hofo/Persian_BPE_Tokenizer

Folders and files

Latest commit

History

Repository files navigation

Persian BPE Tokenizer (30K)

Usage

Encoding

Decoding

Training Data

License

Evaluation Metrics

Requirements

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages