भारत सरकार | Government of India | இந்திய அரசு शिक्षा मंत्रालय | Ministry of Education | கல்வி அமைச்சகம்
An Autonomous Institution ஒரு தன்னாட்சி நிறுவனம்
Lion Capital of Ashoka — State Emblem of India
செம்மொழித் தமிழாய்வு மத்திய நிறுவனம்
Central Institute of Classical Tamil
A Flagship Initiative of CICT CICT-ன் ஒரு முதன்மைத் திட்டம்

Digital Library of
Tamil Palm-Leaf
Manuscripts
தமிழ் ஓலைச் சுவடிகளின்
இணைய நூலகம்

865 Manuscript Bundles (approx. 1,00,000 leaves). 41 Classical Tamil texts. Collected from institutions across India and worldwide. Now powered by Computer Vision OCR — upload a palm-leaf image, extract Tamil script, and connect to the living lexicon. 865 ஓலைச்சுவடிக் கட்டுகள் (சுமார் 1,00,000 ஏடுகள்). 41 செம்மொழித் தமிழ் நூல்கள். இந்தியா மற்றும் உலகெங்கிலும் உள்ள நிறுவனங்களிலிருந்து சேகரிக்கப்பட்டவை. இப்போது கணினிப் பார்வை OCR தொழில்நுட்பத்தின் மூலம் இயக்கப்படுகிறது — ஓலைச்சுவடிப் படத்தைப் பதிவேற்றவும், தமிழ் எழுத்துக்களைப் பிரித்தெடுக்கவும், சொற்களஞ்சியத்துடன் இணைக.

865
Manuscript Bundles
approx. 1,00,000 leaves
சுவடிக் கட்டுகள்
சுமார் 1,00,000 ஓலைகள்
41
Classical Texts செம்மொழி நூல்கள்
15
Source Institutions மூல நிறுவனங்கள்
6
Critical Editions செம்பதிப்புகள்
Prof. R. Chandrasekaran, Director, Central Institute of Classical Tamil

The Central Institute of Classical Tamil is honoured to present this digital library — a growing repository bringing together palm-leaf manuscripts of the Tirukkural with critical editions of foundational Tamil works, supported by active research in computational paleography and manuscript imaging. செம்மொழித் தமிழாய்வு மத்திய நிறுவனம் இந்த இணைய எண்ணிம ஆவணகத்தை வழங்குவதில் பெருமிதம் கொள்கிறது — திருக்குறளின் ஓலைச்சுவடிகளுடன் அடிப்படைத் தமிழ் நூல்களின் செம்பதிப்புகளை ஒருங்கிணைக்கும் வளர்ந்து வரும் களஞ்சியம் இது. மேலும், கணினி வழி பண்டைய எழுத்துரு ஆய்வு மற்றும் சுவடி எழுத்துணரிப் படமாக்கல் தொடர்பான தற்போதைய ஆராய்ச்சிகளாலும் இது ஆதரிக்கப்படுகிறது.

Our mission has always been to preserve and disseminate Tamil literary heritage in formats accessible to scholars worldwide. This portal embodies that mission, opening the institute's collections to students, researchers, and the broader Tamil community. உலகெங்கிலும் உள்ள அறிஞர்களுக்கு அணுகக்கூடிய வடிவில் தமிழ் இலக்கியப் பாரம்பரியத்தைப் பாதுகாத்து பரப்புவதே எங்கள் இலக்காக எப்போதும் இருந்து வந்துள்ளது. அந்த இலக்கின் வெளிப்பாடாக இத்தளம், நிறுவனத்தின் சேகரிப்புகளை மாணவர்கள், ஆராய்ச்சியாளர்கள் மற்றும் பரந்த தமிழ் சமூகத்தினருக்காக திறந்து வைக்கிறது.

We invite engagement, scholarship, and continued contribution to the work of Tamil philological research. தமிழ் மொழியியல் ஆராய்ச்சியின் தொடர்ச்சியான பணிகளில் ஈடுபாடு, அறிஞர் பங்களிப்பு மற்றும் தொடர்ந்த ஆதரவை அன்புடன் வரவேற்கிறோம்.

865
Manuscript Pothi Bundles சுவடி கட்டுகள்
1,08,655
Lexical Words Indexed அகராதிச் சொற்கள்
2,75,262
Citations Documented மேற்கோள்கள்
6,758
Lexicon Entries அகராதி உள்ளீடுகள்
Tamil Audio Lexicon தமிழ் ஒலி அகராதி
59,170
Entries சொற்பதிவுகள்
55,831
Headwords தலைச்சொற்கள்
5,547
Sanskrit-origin வடசொற்கள்
Tamil Grammatical Encyclopaedia தமிழ் இலக்கணப் பேரகராதி
14,252
Entries digitised இலக்கமாக்கப்பட்ட பதிவுகள்
17
Volumes loaded ஏற்றிய தொகுதிகள்
8,613
Unique headwords தனித் தலைச்சொற்கள்
6.279
Million Characters of prose மில்லியன் உரை எழுத்துகள்

Manuscript OCR Engine சுவடி OCR பொறி

Upload a photo of a palm-leaf manuscript or old print text. A transformer-based pipeline (HTR-VT + TrOCR) recognises Tamil characters with up to 50% lower character error rate than legacy engines, then links recognised passages to lexicon entries automatically. Fine-tuned on CICT's six critical editions as ground-truth. ஓலைச் சுவடி அல்லது பழைய அச்சுப் படத்தைப் பதிவேற்றுங்கள். மாற்றி அடிப்படையிலான பொறி (HTR-VT + TrOCR) தமிழ் எழுத்துக்களை 50% குறைவான பிழை விகிதத்துடன் அடையாளம் காண்கிறது, பின்னர் சொற்களை அகராதியுடன் தானாக இணைக்கிறது. CICT-ன் ஆறு செம்பதிப்புகளில் பயிற்சி பெற்றது.

Initialising engine...
Drop Manuscript Image

Supports palm-leaf scans, field inscription photos, TIFF or JPEG. Drag & drop or click to browse.

HTR-VT TrOCR ViT Encoder Tamil Fine-tune
Field Researcher Mode — Works offline. Ideal for documenting inscriptions, copper-plate grants, or temple epigraphs in the field. Results automatically link to the 6,758-entry Classical Tamil Lexicon.
⟁ Vision Transformer Pipeline ⟁ விஷன் மாற்றி பொறி
CER ↓ 50%
01
Pre-process
02
Layout · CNN
03
HTR-VT
04
TrOCR
05
Lexicon Link
Char. Error Rate
1.60
↓ vs Tesseract 3.20
Training Lines
4,037
6 editions · 41 texts
Architecture
ViT + SAM
span-mask regularised
Based on: Li et al., HTR-VT: Handwritten Text Recognition with Vision Transformer, Pattern Recognition 158:110967 (2025) · Li et al., TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models (AAAI 2023). Fine-tuned on CICT's six Classical Tamil critical editions as ground-truth witness data.
Extracted Text · Lexicon-Linked
Awaiting image
Tamil characters will appear here. Hover highlighted words to see lexicon entries.
⚡ Active Research · 2025-2026 Roadmap ⚡ தற்போதைய ஆராய்ச்சி · 2025-2026 பாதை வரைபடம்
+30-60% CER ↓ projected

Five frontier techniques under active evaluation against the 25-specimen Ground Truth corpus (CICT-PLM-GT-001 → GT-025): three pipeline enhancements (A/B/C) plus two complementary research directions — paleographic analysis (D) and pre-OCR imaging (E). The corpus's 12 documented paleographic features and 250 verified couplets serve as a labeled benchmark unique in Tamil-script HTR research. 25 சுவடிகள் கொண்ட தரப்படுத்தப்பட்ட மெய்ப்படிவுத் தொகுப்பை (CICT-PLM-GT-001 → GT-025) எதிராக மதிப்பீடு செய்யப்படும் ஐந்து முன்னோடி நுட்பங்கள்: மூன்று பாதை மேம்பாடுகள் (A/B/C) மற்றும் இரண்டு துணை ஆராய்ச்சித் திசைகள் — கையெழுத்தாய்வு பகுப்பாய்வு (D), முன்-OCR படப்பிடிப்பு (E). தொகுப்பின் 12 ஆவணப்படுத்தப்பட்ட பேலியோகிராஃபிக் அம்சங்களும் 250 சரிபார்க்கப்பட்ட குறட்பாக்களும் தமிழ்-எழுத்து HTR ஆராய்ச்சியில் தனித்துவமான தரநிலை தொகுப்பாக செயல்படுகின்றன.

A
LLM Post-Correction Layer பெரிய மொழி மாதிரி பிழைதிருத்த அடுக்கு
Open-weight LLMs (fine-tuned ByT5, Llama-3) applied as a re-ranking stage atop HTR-VT output. Reported CER reduction: 56-60% on top of base recognition. The lexicon-link stage feeds back as morphological constraints for Tamil-specific correction. திறந்த-எடை LLM-கள் (ByT5, Llama-3 நுட்பப்படுத்தப்பட்டவை) HTR-VT வெளியீட்டின் மீது மறுதரப்படுத்தும் கட்டமாகப் பயன்படுத்தப்படுகின்றன. பதிவு செய்யப்பட்ட CER குறைப்பு: அடிப்படை அடையாளத்தின் மீது 56-60%.
Kim et al., arXiv:2502.01205 (Feb 2025) Boroş et al., arXiv:2504.00414 (Apr 2025) Li, arXiv:2410.24034 (Oct 2024)
B
Vision-Language Model End-to-End OCR காட்சி-மொழி மாதிரி நிறை-முதல்-நிறை OCR
Multimodal OCR models bypass the segmentation stage entirely, processing whole folios in one pass. Particularly effective for low-resource historical scripts. Candidates: CHURRO (open-weight VLM trained for historical text recognition), olmOCR-2-7B (Allen AI; Qwen2.5-VL fine-tuned with GRPO RL on 270K pages), Qwen3-VL, PaddleOCR-VL (109 languages), DeepSeek-OCR (~100 languages). பல-முறைமை OCR மாதிரிகள் பகுப்பாய்வுக் கட்டத்தை முழுமையாகத் தவிர்த்து, முழு ஓலைகளையும் ஒரே சுற்றில் செயலாக்குகின்றன. குறைந்த-வளம் கொண்ட வரலாற்றுப் பாடநூல்களுக்கு குறிப்பாக பயனுள்ளது.
CHURRO, arXiv:2509.19768 (Sep 2025) olmOCR-2-7B-1025 (Allen AI, Oct 2025) PaddleOCR-VL · DeepSeek-OCR · Qwen3-VL (2025) Manchu VLM-OCR, arXiv:2507.06761 (Jul 2025)
C
Palm-Leaf Specialised Pipeline ஓலைச்சுவடிக்கான சிறப்பு பாதை
Domain-specific advances designed for palm-leaf material: PLM-Res-U-Net for binarization (handles palm-leaf texture variation that breaks generic methods), PALM-LAY for layout analysis (6-script benchmark dataset including Tamil, with 566 pages and 6,000+ annotated regions), and hybrid Indo-Aryan/Tamil classification for mixed-script bundles. ஓலைச்சுவடி பொருளுக்காக வடிவமைக்கப்பட்ட களம்-சார்ந்த முன்னேற்றங்கள்: PLM-Res-U-Net பைனரைசேஷனுக்கு (ஓலைச்சுவடி அமைப்பு வேறுபாடுகளை கையாளுகிறது), PALM-LAY அமைப்பு பகுப்பாய்வுக்கு (தமிழ் உட்பட 6 எழுத்துக்களை உள்ளடக்கிய தரநிலை தரவுத்தொகுப்பு).
PLM-Res-U-Net, J.Comp.Hum. (2025) PALM-LAY, Thuon et al., ICDAR 2025 Workshops Dinesh et al., Sci.Rep. 15 (Nov 2025)
D
Computational Paleography & Scribe Attribution கணினி-உதவி பேலியோகிராஃபி & எழுத்தாளர் அடையாளம்
Vision-Transformer-based writer-identification models extract scribal-hand fingerprints from character-level features (stroke geometry, glyph contour, spacing). The corpus's 12 systematically-documented paleographic features — verse-count glyph alternation (25/25 perfect), ந-for-ன gradient, ள/ழ bidirectional confusion, ந்ந doubling pattern, Grantha-ஷ lexical recurrence, title-cell placement convention, ற-for-ல word-final substitution, etc. — constitute a labeled benchmark unique in Tamil-script HTR. An initial hypothesis already implicit in the paleographic notes: GT-020/021 and GT-024/025 (non-sequential ordering, elevated ந-substitution, ~10× higher ந-density) should cluster separately from sequential low-ந folios under unsupervised embedding — potentially identifying multiple scribal hands or exemplars within the bundle. விஷன்-மாற்றி அடிப்படையிலான எழுத்தாளர்-அடையாள மாதிரிகள் எழுத்து-நிலை அம்சங்களிலிருந்து கையெழுத்து-கை கைரேகைகளை பிரித்தெடுக்கின்றன. தொகுப்பின் 12 முறையாக ஆவணப்படுத்தப்பட்ட பேலியோகிராஃபிக் அம்சங்கள் — தமிழ்-எழுத்து HTR-இல் தனித்துவமான தரப்படுத்தப்பட்ட தரநிலையாக செயல்படுகின்றன.
Boudraa et al., J.Imaging 11(6):204 (Jun 2025) Hebrew Paleography MTL, ICDAR 2025 Marthot-Santaniello et al., d-scribes/EGRAPSA (SNSF, 2023-28) Christlein et al., ICDAR-W writer-ID lineage
E
Multispectral & RTI Imaging — Pre-OCR Enhancement பல-நிறமாலை & RTI படப்பிடிப்பு — முன்-OCR மேம்பாடு
Heritage-imaging techniques designed to recover faded incisions on darkened palm-leaf surfaces — directly relevant to specimens where ink-fading confounds character distinction (e.g., GT-018's ஃ→கு aytham dissolution, GT-020's heavy ந/ன clusters, GT-021's ND-cluster passages). Reflectance Transformation Imaging (RTI) via Polynomial Texture Mapping enables virtual relighting from any angle, revealing incision depth invisible under fixed illumination. Multispectral RTI couples this with narrow-band capture (UV through NIR) plus Principal Component Analysis to surface text components absorbed differently across wavelengths. Combined pipeline could promote single-pass verification to dual-pass certified GT, raising the corpus's verification status from "single-pass" to "RTI-verified". பாரம்பரிய-படப்பிடிப்பு நுட்பங்கள் இருண்ட ஓலைச்சுவடி மேற்பரப்புகளில் மங்கிய எழுத்துக்களை மீட்டெடுக்க வடிவமைக்கப்பட்டுள்ளன. RTI எந்த கோணத்திலிருந்தும் மெய்நிகர் ஒளியூட்டலை இயக்குகிறது; பல-நிறமாலை RTI குறுகிய-நிலை கைப்பற்றலுடன் (UV–NIR) PCA இணைக்கிறது.
Multi-light Reflectance Imaging, Springer (2024-25) Extended Multispectral RTI, Imaging Lib. 19(12) ArtLab MSI+PCA, Future of Paleography (2025) Cultural Heritage Imaging — PTM/HSH pipeline
Status: All five tracks will be benchmarked against the GT-001 → GT-025 corpus as additional ground-truth verification rounds complete. The 25-specimen sequence provides 250 verified couplets across two scripts (Tamil + Grantha, with three documented Grantha-ஷ instances), 12 systematically-documented paleographic features, multiple documented substantive textual variants, and the first explicit section-boundary marker in the corpus (GT-025, இல்லறவியல் → துறவறவியல்). Tracks A/B/C address the OCR pipeline directly; D enables downstream scribal analysis; E enables upstream image enhancement. Together they form a coherent pipeline: image enhancement (E) → recognition (A/B/C) → paleographic interpretation (D). நிலை: ஐந்து பாதைகளும் கூடுதல் தரப்படுத்தப்பட்ட சரிபார்ப்பு சுற்றுகள் முடிந்த பிறகு GT-001 → GT-025 தொகுப்பை எதிராக அளவிடப்படும். 25-சுவடித் தொடர் இரண்டு எழுத்துக்களில் (தமிழ் + கிரந்தம்) 250 சரிபார்க்கப்பட்ட குறட்பாக்களை வழங்குகிறது. ஒட்டுமொத்தமாக ஒரு ஒத்திசைவான பாதையை உருவாக்குகின்றன: பட மேம்பாடு (E) → அடையாளம் (A/B/C) → பேலியோகிராஃபிக் விளக்கம் (D).
CICT Tirukkural Ground Truth Corpus

Towards a Complete Tirukkural Corpus முழு திருக்குறள் சேகரம் நோக்கி

133 chapters · 1,330 kurals · published progressively as scholars complete verified transcriptions. Click any published tile to see the full specimen. 133 அதிகாரங்கள் · 1,330 குறள்கள் · அறிஞர்கள் சரிபார்க்கப்பட்ட பிரதிகளை முடிக்கும்போது படிப்படியாக வெளியிடப்படுகின்றன.

of 133 chapters
of 1,330 kurals
complete
🔎 Search the corpusசேகரத்தில் தேடு
HTR-ready exportHTR-தயார் பதிவிறக்கம்

Browse the corpus சேகரத்தில் உலாவவும்

CICT Lexical Tools CICT சொல்வளக் கருவிகள்

Twelve indispensable companion tools — the searchable Sangam concordance, the comprehensive Classical Tamil lexicon, the audio edition of the historic Madras University Tamil Lexicon, digital editions of the two classical nikaṇṭu thesauri Piṅkala Nigaṇṭu and the earliest Sēndan Tivākaram, T. V. Gopal Iyer's seventeen-volume Tamil Grammatical Encyclopaedia, a complete word-by-word concordance of the Tirukkural, the twelfth-century treatise on poetical ornaments Tantiyalaṅkāram, the standard classical grammar Naṉṉūl with its medieval commentaries, Ārumuka Nāvalar's concise grammar Ilakkaṇac Curukkam, the foundational 41 Classical Tamil Texts digital archive, and a digital archive of Classical Tamil poetry Pāṭṭum Tokaiyum — all maintained as open scholarly resources alongside the manuscript collection. பன்னிரண்டு இன்றியமையாத துணைக் கருவிகள் — சங்க இலக்கியத்தின் தேடக்கூடிய சொல்லடைவு, செம்மொழித் தமிழுக்கான விரிவான சொற்பொருட் களஞ்சியம், வரலாற்றுச் சிறப்புமிக்க மெட்ராஸ் பல்கலைக்கழகத் தமிழ்ப் பேரகராதியின் ஒலி வடிவம், செவ்வியல் நிகண்டுகளான பிங்கல நிகண்டு மற்றும் தமிழ் மரபின் மிக மூத்த நிகண்டான சேந்தன் திவாகரம்-இரண்டினதும் இணைய பதிப்புகள், தி. வே. கோபாலையரின் பதினேழு தொகுதி தமிழ் இலக்கணப் பேரகராதி, திருக்குறளின் முழுமையான சொல்-வாரியான தொடரடைவு, பன்னிரண்டாம் நூற்றாண்டு அணியிலக்கண நூலான தண்டியலங்காரம், உரைகளுடன் கூடிய செவ்வியல் தமிழ் இலக்கண நூலான நன்னூல், ஆறுமுக நாவலரின் இலக்கணச் சுருக்கம், 41 செவ்வியல் தமிழ் நூல்கள் அடிநிலை இணைய ஆவணத் தொகுப்பு, மற்றும் செம்மொழித் தமிழ்ச் செய்யுள் ஆவணத் தொகுப்பான பாட்டும் தொகையும் — பன்னிரண்டும் சுவடி சேகரிப்புடன் திறந்த அறிவியல் வளங்களாகப் பராமரிக்கப்படுகின்றன.

◉ Concordance · Live Tool ◉ சொல்லடைவு · இணைய கருவி
சங்க இலக்கியச் சொல்லடைவு
Index of the Sangam Classic Corpus

A searchable concordance of every word across the Eight Anthologies and Ten Idylls. Trace any Sangam-era term to its source verse, count its frequency across the corpus, and study its semantic neighbourhoods. எட்டுத்தொகை மற்றும் பத்துப்பாட்டில் உள்ள ஒவ்வொரு சொல்லின் தேடக்கூடிய சொல்லடைவு. எந்த சங்க கால சொல்லின் மூலப் பாடல், அதிர்வெண், மற்றும் சொல்லாக்கப் பின்னணியை ஆராயவும்.

Open Concordance திறக்கவும்
◉ Digital Encyclopaedia · Live Tool ◉ இணைய அகராதி · கருவி
செந்தமிழ்ச் சொற்பொருட் களஞ்சியம்
Comprehensive Digital Encyclopaedia of Classical Tamil

A definitive lexicographical reference for Classical Tamil — covering 6,758 entries with etymology, semantic range, attested usage across Sangam and post-Sangam corpora, and rich citational scholarship. செம்மொழித் தமிழுக்கான திட்டவட்டமான சொல்லியல் குறிப்பேடு — 6,758 சொல்லுருக்கள், சொற்பிறப்பியல், பொருள் வீச்சு, சங்க மற்றும் சங்கமருவிய நூல்களில் காணப்படும் பயன்பாடுகள், மற்றும் பல மேற்கோள்களுடன்.

Open Encyclopaedia திறக்கவும்
◉ Madras University Tamil Lexicon · 1924–1939 · Live Tool ◉ மெட்ராஸ் பல்கலைக்கழகத் தமிழ்ப் பேரகராதி · 1924–1939 · கருவி
தமிழ்க் களஞ்சியம் (ஒலிவடிவம்)
Tamil Audio Lexicon

A searchable digital audio edition of the foundational Madras University Tamil Lexicon (1924–1939) — the most comprehensive Tamil-Tamil reference compiled over fifteen years at the University of Madras. 59,170 entries across 55,831 headwords; 5,547 are of Sanskrit origin (vaṭacol), annotated for etymological provenance. சென்னைப் பல்கலைக்கழகத்தில் பதினைந்து ஆண்டுகளில் தொகுக்கப்பட்ட மெட்ராஸ் பல்கலைக்கழகத் தமிழ்ப் பேரகராதி (1924–1939)-யின் இணைய ஒலி வடிவம் — மிக விரிவான தமிழ்-தமிழ் சொற்களஞ்சியம். 59,170 சொற்பதிவுகள், 55,831 தலைச்சொற்கள்; 5,547 வடசொற்கள் சொற்பிறப்பியல் குறிப்புகளுடன்.

Open Audio Encyclopaedia திறக்கவும்
◉ Classical Thesaurus · Digital Edition · Live Tool ◉ பாரம்பரிய நிகண்டு · இணைய பதிப்பு · கருவி
பிங்கல நிகண்டு
Piṅkala Nigaṇṭu · Digital Edition

A digital edition of Piṅkala Nigaṇṭu — the classical Tamil thesaurus composed by the lexicographer Piṅkalar and historically one of the standard reference lexicons of Tamil philology. Organized thematically rather than alphabetically, it preserves rare classical synonyms, regional vocabulary, and poetic registers essential for reading Sangam and post-Sangam literature. பிங்கலரால் இயற்றப்பட்ட செவ்வியல் தமிழ் நிகண்டான பிங்கல நிகண்டுவின் இணைய பதிப்பு — அகராதி-வரிசையாக அல்லாமல் கருத்து-வரிசையாக அமைக்கப்பட்டது; தமிழ் மொழியியலின் தரப்படுத்தப்பட்ட குறிப்பு நூல்களில் ஒன்று. சங்க இலக்கியம், சங்கம் மருவிய இலக்கியம் ஆகியவற்றை வாசிக்க அவசியமான அரிய செவ்வியல் சொற்களையும் கவித்துவச் சொல்லாட்சிகளையும் கொண்டுள்ளது.

Open Nigaṇṭu திறக்கவும்
◉ Earliest Tamil Nikaṇṭu · 8th–9th c. CE · Digital Edition · Live Tool ◉ முதல் தமிழ் நிகண்டு · 8–9 ஆம் நூற்றாண்டு · இணைய பதிப்பு · கருவி
சேந்தன் திவாகரம்
Sēndan Tivākaram

A digital edition of Sēndan Tivākaram (the Tivākara Nikaṇṭu) — the earliest and most distinguished nikaṇṭu to appear in Tamil, composed by Divākara Munivar in the 8th–9th century CE. A rare work of Tamil scholarship that classifies and expounds the manifold meanings of words, homonyms (a single word bearing many senses), and the many names of things, set out in an ordered, alphabetical arrangement. The foundational thesaurus-lexicon that influenced all subsequent Tamil nikaṇṭu literature. திவாகர முனிவரால் 8–9 ஆம் நூற்றாண்டில் இயற்றப்பட்ட சேந்தன் திவாகரம் (திவாகர நிகண்டு) — தமிழ் மரபின் மிக மூத்த, தலைசிறந்த நிகண்டுவின் இணைய பதிப்பு. சொற்களின் பல்வேறு பொருள்கள், ஓரெழுத்து ஒருமொழி, பல பொருள் ஒரு சொல், பொருள்களின் பல பெயர்கள் ஆகியவற்றை அகராதி-வரிசையில் வகுத்து விளக்கும் அரிய தமிழறிவு நூல். பின்னாளில் வந்த அனைத்து தமிழ் நிகண்டுகளுக்கும் அடிநிலையாக அமைந்த மூல சொற்களஞ்சியம்.

Open Nikaṇṭu திறக்கவும்
◉ Grammatical Encyclopaedia · Digital Edition · Live Tool ◉ இலக்கணக் களஞ்சியம் · இணைய பதிப்பு · கருவி
தமிழ் இலக்கணப் பேரகராதி
Tamil Grammatical Lexicon

A digital edition of Pandit Vidwan T. V. Gopal Iyer's seventeen-volume Tamil Grammatical Encyclopaedia (தமிழ் இலக்கணப் பேரகராதி) — a monumental philological survey of the Tamil grammatical tradition. The complete 17-volume corpus, comprising 14,252 entries and over 6.28 million characters of prose exegesis across 8,613 unique headwords, traverses Tolkāppiyam, Naṉṉūl, Vīracōḻiyam, and the entire commentarial tradition that shaped Tamil grammatical scholarship. பண்டித வித்துவான் தி. வே. கோபாலையரின் பதினேழு தொகுதி தமிழ் இலக்கணப் பேரகராதியின் இணைய பதிப்பு — தமிழ் இலக்கண மரபின் ஒரு பெருந்தொகுப்பு. தொல்காப்பியம், நன்னூல், வீரசோழியம் முதலான இலக்கண நூல்களையும் அவற்றின் உரை மரபையும் உள்ளடக்கிய இத்தொகுப்பில் 14,252 பதிவுகள், 8,613 தனிச் சொற்கள், 60 லட்சத்துக்கும் மேற்பட்ட எழுத்துகள் கொண்ட விளக்க உரை — அனைத்தும் இணையத்தில் தேடக்கூடியதாக.

Open Encyclopaedia திறக்கவும்
◉ Concordance · KWIC · Live Tool ◉ தொடரடைவு · KWIC · கருவி
திருக்குறள் தொடரடைவு
Digital Concordance of the Tirukkural

A complete word-by-word index to the 1,330 kurals of Tiruvaḷḷuvar, with concordance lines aligned in the keyword-in-context tradition — a foundational research instrument from the Central Institute of Classical Tamil. 4,898 headwords · 11,467 occurrences across the complete work, enabling exhaustive lexical, syntactic, and stylistic analysis of the Kural corpus. திருவள்ளுவரின் 1,330 குறள்களுக்கான முழுமையான சொல்-வாரியான அட்டவணை — keyword-in-context மரபில் அமைந்த தொடரடைவு வரிகளுடன், செம்மொழித் தமிழாய்வு மத்திய நிறுவனத்தின் (CICT) அடிப்படை ஆராய்ச்சிக் கருவி. குறள் நூல் முழுவதிலும் 4,898 தலைச்சொற்கள் · 11,467 சொற்பயன்பாடுகள் — சொல்லியல், தொடரியல், நடையியல் ஆராய்ச்சிக்கு இன்றியமையாதது.

Open Concordance திறக்கவும்
◉ Alaṅkāra Treatise · c. 12th c. · Live Tool ◉ அணியிலக்கணம் · கி.பி. 12-ம் நூ. · கருவி
தண்டியலங்காரம்
Tantiyalaṅkāram · Grammar of Poetical Ornaments

A digital edition of Tantiyalaṅkāram — the foundational twelfth-century Tamil treatise on poetical ornaments (alaṅkāra), composed in the alaṅkāra-śāstra tradition and serving as the principal reference for figurative language in classical Tamil poetics. The complete corpus comprises 126 sūtras (326 lines) organized across 3 paṭalams covering 98 alaṅkāra sections, with a complete concordance of 926 headwords · 1,464 occurrences. பன்னிரண்டாம் நூற்றாண்டில் இயற்றப்பட்ட தண்டியலங்காரம் — செவ்வியல் தமிழின் அடிப்படை அணியிலக்கண நூல், சமஸ்கிருத அலங்கார சாஸ்திர மரபை ஒட்டி அமைந்த தமிழ் அணியியல் கையேடு. 3 படலங்களில் அமைந்த 126 சூத்திரங்கள் (326 அடிகள்), 98 அலங்காரப் பிரிவுகள், மற்றும் 926 தலைச்சொற்கள் · 1,464 சொற்பயன்பாடுகள் கொண்ட முழுமையான தொடரடைவு — தமிழ் கவிதையியல், அணியியல் ஆராய்ச்சிக்கு இன்றியமையாதது.

Open Treatise திறக்கவும்
◉ Classical Tamil Grammar · 12th–13th c. · mūlam + 2 commentaries · Live Tool ◉ செவ்வியல் தமிழ் இலக்கணம் · 12–13 ஆம் நூற்றாண்டு · மூலம் + உரைகள் · கருவி
நன்னூல்
Naṉṉūl

A digital edition of Naṉṉūl — the mūlam (root text) presented with the celebrated Mayilainātar commentary and the fuller Viruttiyurai. Composed by the Jain ascetic Pavaṇanti Munivar (c. 1178–1216 CE) under the patronage of the Western Ganga vassal king Cīyagaṅgaṉ (Seeya Gangan) of Kolar, Naṉṉūl is the most authoritative work on Tamil grammar after the Tolkāppiyam. Arranged in two books — Eḻuttatikāram (orthography and phonology) and Collatikāram (morphology and syntax) — its aphoristic nūṟpā verses reorganized and modernized the older grammatical tradition and served as the standard grammar of Tamil for the better part of a millennium. சமண முனிவரான பவணந்தி முனிவர் (கி.பி. ~1178–1216) இயற்றிய நன்னூல் — மூலமும், புகழ்பெற்ற மயிலைநாதர் உரையும், விரிவான விருத்தியுரையும் கொண்ட இணைய பதிப்பு. கோலார் மேற்குக் கங்க குறுநில மன்னன் சீயகங்கன் ஆதரவில் உருவான இந்நூல், தொல்காப்பியத்திற்குப் பிறகு தமிழ் இலக்கணத்தில் தலைசிறந்த நூலாகும். எழுத்ததிகாரம், சொல்லதிகாரம் என இரு அதிகாரங்களாக அமைந்து, நூற்பா வடிவில் பழைய இலக்கண மரபை மறுசீரமைத்து, கிட்டத்தட்ட ஓராயிரம் ஆண்டுகளாகத் தமிழ் இலக்கணப் பயிற்றுவிப்பின் அடிப்படை நூலாக விளங்கியது.

Open Grammar திறக்கவும்
◉ Tamil Grammar Primer · Ārumuka Nāvalar · 19th c. · Live Tool ◉ தமிழ் இலக்கண நூல் · ஆறுமுக நாவலர் · 19 ஆம் நூற்றாண்டு · கருவி
இலக்கணச் சுருக்கம்
Ilakkaṇac Curukkam

A digital edition of Ilakkaṇac Curukkam ('Abridgement of Grammar'), the concise Tamil grammar of Ārumuka Nāvalar (1822–1879) — the Jaffna Śaiva scholar, printer, and a founding figure of modern Tamil prose. A pedagogical primer covering the core divisions of Tamil grammar — orthography (eḻuttu), morphology, and syntax (col) — it distilled the classical grammatical tradition into an accessible nineteenth-century schoolbook that shaped Tamil instruction for generations. ஆறுமுக நாவலர் (1822–1879) — யாழ்ப்பாணத்துச் சைவப் பெரியாரும், அச்சுப் பதிப்பாளரும், தற்காலத் தமிழ் உரைநடையின் முன்னோடியும் — இயற்றிய சுருக்கமான தமிழ் இலக்கண நூலான இலக்கணச் சுருக்கம்-இன் இணைய பதிப்பு. எழுத்து, சொல் (உருபனியல், தொடரியல்) எனும் தமிழ் இலக்கணத்தின் அடிப்படைப் பகுதிகளை எளிய பாடநூல் வடிவில் தொகுத்து, பல தலைமுறைகளுக்குத் தமிழ்க் கல்வியை வடிவமைத்த நூல்.

Open Grammar திறக்கவும்
◉ Foundational Corpus · 41 Texts · Digital Archive · Live Tool ◉ அடிநிலைத் தொகுப்பு · 41 நூல்கள் · இணைய ஆவணம் · கருவி
41 செவ்வியல் தமிழ் நூல்கள்
First Editions of Forty-One Classical Tamil Texts

The foundational corpus of 41 Classical Tamil textsTolkāppiyam, the Caṅkam-age anthologies and idylls (Patiṉeṇmēlkaṇakku), the eighteen lesser texts (Patiṉeṇkīḻkaṇakku), the twin epics (Kāppiyam), the poetics treatise Iṟaiyaṉār Akapporuḷ, and the anthology Muttoḷḷāyiram — gathered into a single digital archive. Two thousand years of poetry, grammar, ethics, and narrative; the literary inheritance from which all subsequent Tamil writing flows. இரண்டாயிரம் ஆண்டுகளில் வளர்ந்த 41 செவ்வியல் தமிழ் நூல்களின் அடிநிலைத் தொகுப்பு — தொல்காப்பியம், சங்க கால எட்டுத்தொகை-பத்துப்பாட்டு (பதினெண்மேல்கணக்கு), பதினெண்கீழ்க்கணக்கு, இரட்டைக் காப்பியம் (சிலப்பதிகாரம், மணிமேகலை), அகப்பொருள் இலக்கண நூலான இறையனார் அகப்பொருள், மற்றும் முத்தொள்ளாயிரம் ஆகிய அனைத்தையும் ஒரே இணைய ஆவணத் தொகுப்பில் ஒருங்கிணைத்துள்ளது. பின்வந்த தமிழ் இலக்கியங்கள் அனைத்திற்கும் அடித்தளமாக அமைந்த இலக்கிய பாரம்பரியம் — கவிதை, இலக்கணம், அறம், கதைப் பாடல் என இரண்டாயிரம் ஆண்டுகளின் பாரம்பரியம்.

Open Archive திறக்கவும்
◉ Classical Tamil Poetry · Sangam corpus · verse + commentary · Live Tool ◉ செம்மொழித் தமிழ்ச் செய்யுள் · சங்கத் தொகுப்பு · செய்யுள் + உரை · கருவி
பாட்டும் தொகையும்
Pāṭṭum Tokaiyum

A digital archive of Classical Tamil (Caṅkam) poetry. The traditional designation pāṭṭum tokaiyum — 'the Songs and the Anthologies' — names the foundational Sangam corpus: the Ten Idylls (Pattuppāṭṭu) and the Eight Anthologies (Eṭṭuttokai). This archive gathers the verse together with its commentary (urai) for continuous reading and study. செம்மொழித் தமிழ்ச் (சங்க) செய்யுள்களின் இணைய ஆவணத் தொகுப்பு. பாட்டும் தொகையும் என்பது சங்க இலக்கியத்தின் அடிநிலைத் தொகுப்பான பத்துப்பாட்டையும் (பாட்டு) எட்டுத்தொகையையும் (தொகை) குறிக்கும் மரபுத் தொடர். இத்தொகுப்பு செய்யுளையும் அதன் உரையையும் ஒருசேர வாசிப்புக்கும் ஆய்வுக்கும் கொணர்ந்து தருகிறது.

Open Archive திறக்கவும்

Canonical Reference Editions செம்பதிப்பு மூல நூல்கள்

Published critical editions of classical Tamil works, embedded as canonical reference data alongside the manuscript collection. Each edition supplies the authoritative source-text against which palm-leaf manuscript folios of the same work can be compared once added to the corpus — exactly as the canonical Tirukkural text serves the manuscript folios in the Ground Truth section above. தமிழ் செவ்வியல் நூல்களின் வெளியிடப்பட்ட செம்பதிப்புகள், சுவடிச் சேகரிப்புடன் சேர்ந்து செம்பதிப்பு மூல உரைகளாகச் சேமிக்கப்பட்டுள்ளன. ஒவ்வொரு பதிப்பும் ஒரு நூலின் ஓலைச் சுவடிகள் சேகரிப்பில் சேர்க்கப்படும்போது அவற்றுடன் ஒப்பிடுவதற்குச் செம்பதிப்பு உரையை வழங்குகிறது — மேற்கண்ட தரப்படுத்தப்பட்ட மெய்ப்படிவுப் பகுதியில் திருக்குறள் செம்பதிப்பு சுவடி எழுத்துக்களுக்குச் செயல்படுவதைப் போல.

◉ Critical Edition · KAIN-CE-001 · Embedded

கைந்நிலை

Kainnilai · Patiṉeṇkīḻkkaṇakku #18

60 Total poemsமொத்தப் பாடல்கள்
5 Tinai sectionsதிணைப் பகுதிகள்
41 Completeமுழுமையானவை
19 Fragmentaryசிதைந்தவை

Kainnilai is the eighteenth and final work of the Patiṉeṇkīḻkkaṇakku (Eighteen Lesser Anthologies), a Sangam-adjacent corpus dating to the centuries immediately following the Sangam classical era. The 60 poems are organised into the five canonical akam landscapes (tiṇai) — twelve poems each — exploring love and longing through landscape symbolism. The text passed through extensive scholarly debate (1887–1931) before being established as part of the canonical anthology by I. V. Anantharamaiyar's 1931 first edition. This CICT critical edition (Series #6, 2024) is the first to systematically establish the source-reading by collating palm-leaf manuscripts, paper manuscripts, prior printed editions, and citational quotations across classical commentaries. The 19 fragmentary poems preserve the editor's lacuna markers exactly as published — these damaged readings reflect the manuscript witnesses' actual condition rather than transcription gaps. கைந்நிலை பதினெண்கீழ்க்கணக்கு தொகுப்பின் பதினெட்டாவது நூல் — சங்க மருவிய காலத்தைச் சேர்ந்தது. 60 பாடல்கள் ஐந்து அக ஒழுக்கத் திணைகளாகப் பகுக்கப்பட்டுள்ளன, ஒவ்வொன்றிலும் பன்னிரு பாடல்கள். இந்தச் செம்பதிப்பு (CICT செம்பதிப்பு வரிசை #6, 2024) ஓலைச் சுவடிகள், தாள் சுவடிகள், முந்தைய பதிப்புகள், உரை மேற்கோள்கள் ஆகியவற்றை ஒப்பிட்டு மூலபாடத்தை முதன்முதலில் முறையாக உறுதிசெய்த பதிப்பு. சிதைந்த 19 பாடல்களில் பதிப்பாசிரியரின் சிதைவு குறியீடுகள் வெளியிடப்பட்டபடியே பாதுகாக்கப்பட்டுள்ளன.

▸ Browse all 60 poems by tinai ▸ அனைத்து 60 பாடல்களையும் திணை வாரியாகப் பார்க்க
◉ Critical Edition · IRAI-CE-001 · Embedded

இறையனார் களவியல்

Iṟaiyaṉār Kaḷaviyal · Akapporul grammar with Nakkīrar's commentary

60 Sutras (நூற்பா)நூற்பாக்கள்
18 MSS collatedசுவடிகள் ஒப்பீடு
15 Palm-leaf MSSஓலைச் சுவடிகள்
574 Pagesபக்கங்கள்

Iṟaiyaṉār Kaḷaviyal (also Iṟaiyaṉār Akapporuḷ) is the foundational treatise on akam grammar — the poetic conventions for clandestine love (kaḷavu) in classical Tamil literature. Its 60 nūṟpā (sutras) are attributed to Iṟaiyaṉār (a legendary author traditionally identified with Lord Śiva), with the surviving prose commentary composed by Nakkīrar of the Last Sangam — the earliest surviving Tamil prose commentary, predating all other Tamil commentarial literature. The work was first printed by C.V. Damodaram Pillai in 1883; subsequent printed editions (Bavanantam Pillai 1916, Govindaraja Mudaliyar 1939, Namasivaya Mudaliyar 1943, Saiva Siddhantha Press 1953) presented divergent readings based on whichever manuscripts each editor possessed. This CICT critical edition (செம்பதிப்பு:1, 2025) is the first to systematically collate 18 manuscripts (15 palm-leaf + 3 paper) along with all prior printed editions and citation-witnesses to establish a definitive source-reading. The sutras preserve a remarkable mixed-numeral system: most use Tamil numerals (௧, ௩, ௪…), but sutras 2, 7, and 8 use the classical vowel-letter numerals உ, எ, அ respectively — a paleographic feature faithfully reproduced from the source manuscripts. The associate editor Dr. Se. Karumpāyiram also edited KAIN-CE-001 (Kainnilai), establishing CICT's growing critical-edition series. இறையனார் களவியல் (இறையனார் அகப்பொருள் என்றும் வழங்கப்படும்) தமிழ் இலக்கணத்தில் அகம் குறித்த அடிப்படை இலக்கண நூலாகும். 60 நூற்பாக்கள் இறையனார் என்னும் ஆசிரியருக்கு (சிவபெருமான் என்று மரபு கூறும்) உரியன; எஞ்சியுள்ள உரை கடைச் சங்கத்துத் தலைமைப் புலவர் நக்கீரர் இயற்றியது — தமிழில் காலத்தால் முந்தைய உரை இதுவே. முதன்முதலில் 1883-ஆம் ஆண்டு சி.வை. தாமோதரம் பிள்ளை அவர்களால் பதிப்பிக்கப்பட்டது. இச்செம்பதிப்பில் (செம்பதிப்பு:1, 2025) முதன்முதலாக 18 சுவடிகள் (15 ஓலை + 3 தாள்) ஒப்புநோக்கப்பட்டுள்ளன. நூற்பா எண் 2, 7, 8 ஆகியவை முறையே உ, எ, அ எனும் செவ்வியல் உயிர்-எழுத்து எண்களைப் பயன்படுத்துகின்றன — மூலச் சுவடியின் எழுத்து வடிவம் அப்படியே பாதுகாக்கப்பட்டுள்ளது.

▸ Browse all 60 sutras (mūlam) + sample commentary on Sutra 1 ▸ அனைத்து 60 நூற்பாக்களையும் காண (மூலம்) + சூத்திரம் 1 உரை மாதிரி

Digital Library Roadmap இணைய நூலகப் பாதை வரைபடம்

From physical acquisition to globally-accessible open repository — six stages transforming 865 Manuscript Bundles into a living scholarly platform. இயற்பியல் சேகரிப்பு முதல் உலகளாவிய திறந்த களஞ்சியம் வரை — 865 சுவடிகளை உயிர்ப்பான கல்வித் தளமாக மாற்றும் ஆறு கட்டங்கள்.

1
Collect
865 palm-leaf and paper manuscripts collected over 15 years from 15 institutions across India and worldwide.
✓ Complete
2
Digitize
High-resolution TIFF images created for all 865 Manuscript Bundles at 600 dpi archival standard. Foundation complete.
✓ Complete
3
Catalogue
Priority 2026–27: Metadata preparation for every manuscript — title, scribe, era, script, folio count, condition.
⟳ In Progress
4
Transcribe
Train HTR models on Tamil palm-leaf scripts. Six critical editions serve as ground-truth training data.
◯ Upcoming
5
Annotate
Scholarly apparatus — variant readings, glossary, cross-references, commentary linked to lexicon entries.
◯ Upcoming
6
Publish
Open, AI-enabled Digital Library: globally accessible, searchable, IIIF-compliant, and interoperable.
◯ Upcoming

2,500+ Years of Tamil தமிழின் 2,500+ ஆண்டுகள்

Drag the scrubber to travel through Tamil literary history — from the Sangam Age to the AI-enabled Digital Library of today. See which works existed at any moment across the ages. தமிழ் இலக்கிய வரலாற்றின் வழியாகப் பயணிக்க காலவரிசை நகர்த்தியை நகர்த்துங்கள் — சங்கக் காலத்திலிருந்து இன்றைய செயற்கை நுண்ணறிவு ஆதரித்த மின்னணு நூலகம் வரை. காலங்களின் ஒவ்வொரு கட்டத்திலும் எந்தெந்த நூல்கள் இருந்தன என்பதைப் பாருங்கள்.

Current Era 2026CE
The Digital Age
CICT has established a fully AI-enabled Digital Library of 865 palm-leaf manuscript bundles, with transformer-based HTR engines, IIIF interoperability, and global scholarly reach.
41 Tamil texts in existence
865 Pothi Bundles
2026 CE
Jump to

Discover by Theme கருப்பொருள் வழியே ஆராய்

Don't know where to start? Tell us what interests you — love poetry, sea voyages, kings and battles, ancient grammar — and a curated gallery of relevant manuscripts will be assembled for you, with a scholarly introduction. எங்கிருந்து தொடங்குவது என்று தெரியவில்லையா? உங்களுக்கு என்ன ஆர்வமூட்டுகிறது என்று சொல்லுங்கள் — காதல் கவிதை, கடல் பயணங்கள், அரசர்களும் போர்களும், பழைய இலக்கணம் — தொடர்புடைய சுவடிகளின் தொகுப்பு கல்வியியல் அறிமுகத்துடன் உருவாக்கப்படும்.

Begin your journey பயணத்தைத் தொடங்கு

Browse the Manuscript Collection சுவடிச் சேகரிப்பில் உலாவு

The complete corpus of Classical Tamil texts in CICT's Pavendhar Library. Filter by literary category or search by title. CICT பாவேந்தர் நூலகத்தில் உள்ள செம்மொழித் தமிழ் நூல்களின் முழுத் தொகுப்பு. இலக்கிய வகையால் வடிகட்டவும் அல்லது தலைப்பால் தேடவும்.

Collection Overview சேகரிப்பு மேற்பார்வை

Source Institutions · Geographic View மூல நிறுவனங்கள் · புவியியல் காட்சி

Manuscripts converged on CICT Chennai from 15 institutions across India and France. Hover any marker or list entry to see details. இந்தியா மற்றும் பிரான்ஸில் உள்ள 15 நிறுவனங்களிலிருந்து CICT சென்னைக்கு சுவடிகள் வந்தன.

15
Institutions
3+1
States · Country
865
Bundles
CICT (host)
Tamil Nadu source
Other / international

Distribution by Category

Collection Profile

Material: Palm Leaf (primary) · Paper (secondary)
Script: Tamil · Tamil-Grantha
Age: 600 AD and earlier
Digitization: TIFF 600 dpi · Complete
Metadata: In preparation 2026–27
Critical Editions: 6 published (ground truth for HTR)
Geographic spread: From 15 source institutions across 3 Indian states + France — Tamil Nadu (12), Andhra Pradesh (1), West Bengal (1), France (1). Chennai and Thanjavur form the primary clusters, with Bibliothèque nationale de France representing the international diaspora.

About CICT CICT பற்றி

47,450
Total volumes in the Pavendhar Library, including 4,800 rare Classical Tamil books.
3,923
Non-book materials, digitized CDs and DVDs in the collection.
50+
Languages into which Classical Tamil works have been translated by CICT.

CICT is an autonomous institution under the Ministry of Education, Government of India. Located at Chemmozhi Salai, Perumbakkam, Chennai — 600 100. The Digital Library of Tamil Palm-Leaf Manuscripts is a flagship programme of CICT and forms a core component of the proposed AI Centre for Classical Tamil (AI-CCT).

Listening...
Speak now — your words will appear here
Press Esc to cancel · Recognition stops automatically after silence