Sanskrit Letter Dataset (602 Character Classes)

Handwritten Devanagari character dataset with the widest class diversity available — 602 character classes covering basic vowels, consonants, modifiers, AND hundreds of conjunct/compound character combinations found in Sanskrit texts. Contains 7,702 images (~12.8 per class). While the per-class sample count is low, the class inventory is invaluable as a reference for which conjuncts actually appear in real Devanagari text. Many Sanskrit conjuncts carry over into Marathi vocabulary (e.g., विद्या, संस्कृत, शास्त्र). Essential for building comprehensive conjunct recognition models.

Use the 602-class inventory to build a comprehensive conjunct coverage test suite for Marathi OCR evaluation.

Homepage GitHub

Quick Start

# Clone from https://github.com/avadesh02/Sanskrit-letter-dataset
import os
from PIL import Image

dataset_dir = 'Sanskrit-letter-dataset/'
classes = os.listdir(dataset_dir)
print(f"Total character classes: {len(classes)}")
# 602 classes including hundreds of conjunct characters
total = sum(len(os.listdir(os.path.join(dataset_dir, c))) for c in classes)
print(f"Total images: {total}")

Modality

Image (handwritten character crops)

Size

7,702 images; 602 character classes

License

Research use

Format

PNG/JPEG

Language

sa, mr, hi

Update Frequency

static

Organization

Research community (DAS 2018)

Schema

Field	Type	Description
image	image	Handwritten Devanagari character image
character_class	string	Unicode character or conjunct sequence label
class_id	int	Numeric class identifier (0-601)

Build With This

Create a data augmentation pipeline expanding each of the 602 classes to 500+ samples using font rendering and GAN generation

Develop a conjunct frequency analyzer mapping Sanskrit dataset classes against Marathi text corpus frequencies to prioritize OCR training

Build a few-shot conjunct recognizer using meta-learning to handle the long tail of rare Devanagari conjuncts

AI Use Cases

Comprehensive Devanagari conjunct character recognitionCharacter class inventory for OCR model coverage testingLow-shot learning for rare conjunct charactersSanskrit-Marathi shared vocabulary OCR

Related Datasets

AIKOSH IIT Bombay Indic Datasets (IndiaAI)

multimodal

Bharat Scene Text Dataset (BSTD)

Image (scene text)

CHIPS - Corpus of Handwritten Indic Scripts (Page-Level OCR)

Image (full-page handwritten documents with detection + recognition annotations)

CMATERdb - Devanagari-Roman Mixed-Script Handwritten Documents

Image (handwritten mixed-script document pages with word-level annotations)

Last verified: 2026-03-12