AI4Bharat Samanantar (Marathi)

MH Specific

Largest publicly available English-Marathi parallel corpus with 3.32 million sentence pairs for machine translation.

Build an English-to-Marathi translation API for government schemes

Quick Start

from datasets import load_dataset
ds = load_dataset("ai4bharat/samanantar", "mr")
print(ds["train"][0])
# {'src': 'English sentence', 'tgt': 'मराठी वाक्य', ...}

Modality

parallel-text

Size

3.32M sentence pairs

License

CC0-1.0

Format

Parquet

Language

mr, en

Update Frequency

static

Organization

AI4Bharat

Schema

Field	Type	Description
src	string	Source sentence in English
tgt	string	Parallel translation in Marathi
src_lang	string	Source language code (en)
tgt_lang	string	Target language code (mr)
data_source	string	Origin corpus the sentence pair was mined from

Build With This

WhatsApp bot that translates government scheme notifications to Marathi

Browser extension that translates English web pages to Marathi in real-time

Bilingual Marathi-English chatbot for tourism and hospitality

AI Use Cases

Machine translationCross-lingual transfer learningBilingual dictionary extractionParallel corpus mining

Related Datasets

AI4Bharat BPCC (mr)

parallel-text

AI4Bharat IndicCorp v1 (mr)

text

AI4Bharat IndicCorp v2 (Marathi)

text

AI4Bharat IndicGLUE (mr)

text

Last verified: 2026-03-07