OSCAR 23.01 (mr) - Awesome Marathi Datasets

OSCAR 23.01 (mr)

MH Specific

OSCAR 23.01 (mr) dataset for language nlp.

Build a quality-filtered Marathi pre-training corpus from OSCAR with document-level quality scoring.

Quick Start

from datasets import load_dataset
ds = load_dataset('oscar-corpus/OSCAR-2301', 'mr', split='train', streaming=True)
for i, ex in enumerate(ds):
    print(f"Text: {ex['text'][:100]}...")
    if i >= 4: break

Modality

text

Size

729,578 documents, 252M words, 4.5 GB

License

CC0-1.0 (metadata)

Format

CSV/JSON

Language

Update Frequency

static

Organization

OSCAR Project / Inria

Schema

Field	Type	Description
text	string	Web-crawled Marathi text content
meta	object	Metadata including quality scores and word count

Build With This

Create a Marathi perplexity-based data filter that selects the most linguistically coherent OSCAR documents

Develop a Marathi web content timeline analyzer tracking how online Marathi content evolved over time

Build an n-gram language model from OSCAR Marathi as a baseline for evaluating neural language models

AI Use Cases

Language model pretraining

Related Datasets

AI4Bharat BPCC (mr)

parallel-text

AI4Bharat IndicCorp v1 (mr)

text

AI4Bharat IndicCorp v2 (Marathi)

text

AI4Bharat IndicGLUE (mr)

text

Last verified: 2026-03-07