L3Cube-MahaNLP Toolkit

MH Specific

Comprehensive Marathi NLP library including MahaBERT, MahaAlBERT, MahaRoBERTa language models, MahaFT word embeddings, and tools for tokenisation, sentiment, NER, and hate speech detection

Build an end-to-end Marathi NLP pipeline using L3Cube models for text classification, NER, and sentiment analysis.

Homepage GitHub

Quick Start

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained('l3cube-pune/marathi-roberta')
model = AutoModel.from_pretrained('l3cube-pune/marathi-roberta')
inputs = tokenizer('मराठी भाषा प्रक्रिया', return_tensors='pt')
outputs = model(**inputs)
print(f"Embedding shape: {outputs.last_hidden_state.shape}")

Modality

Models, Tools (Python)

Size

Models + MahaCorpus (752M tokens)

License

Open Research

Format

Various

Language

Update Frequency

static

Organization