Indian Languages Audio Dataset

5-second MP3 audio samples across 10 Indian languages including Marathi, sourced from YouTube regional videos. Designed for spoken language identification and audio classification tasks rather than ASR transcription.

Build a multilingual Indian language identification system from audio that includes Marathi detection.

Homepage Download

Quick Start

# Indian Languages Audio Dataset
import torchaudio
# Filter for Marathi subset
print("Access the Indian Languages Audio Dataset")
print("Filter for Marathi (mr) language code")

Modality

audio

Size

~748 MB; 5-second clips; 10 Indian languages including Marathi

License

Apache-2.0

Format

MP3

Language

mr, hi, en

Update Frequency

static

Organization

Independent researcher (Kaggle)

Schema

Field	Type	Description
audio	audio	Audio recording in Indian language
text	string	Transcription text
language	string	Language identifier

Build With This

Create a language-specific audio router for multilingual call centers serving Maharashtra's diverse population

Develop an Indian language ASR meta-model that leverages cross-lingual transfer from this multi-language dataset

Build a dialectal variation study comparing Marathi audio features against other Indo-Aryan languages in the dataset

AI Use Cases

Spoken language identification (Marathi vs other Indian languages)Audio classification and dialect detectionMultilingual call routing for contact centersLanguage detection in mixed-language broadcast media

Related Datasets

AI4Bharat BhasaAnuvaad (Marathi)

Speech + Text (Translation)

AI4Bharat IndicVoices

speech+text

AI4Bharat IndicVoices-R

Speech + Text (TTS-ready)

AI4Bharat Kathbath

Speech + Text

Last verified: 2026-03-09