Indic NLP Library - Awesome Marathi Datasets

Indic NLP Library

MH Specific

Python library for Indian language text processing including tokenisation, normalisation, script conversion, and transliteration with full support for Devanagari/Marathi

Build a Marathi text preprocessing pipeline using Indic NLP Library for tokenization, normalization, and script conversion.

Homepage GitHub

Quick Start

from indicnlp.tokenize import indic_tokenize
from indicnlp.normalize import indic_normalize
text = 'मराठी भाषा प्रक्रिया'
tokens = indic_tokenize.trivial_tokenize(text, 'mr')
print(f'Tokens: {tokens}')

Modality

Tools (Python)

Size

20+ Indian languages

License

GPL v3

Format

Various

Language

Update Frequency

static

Organization