TUSTEP

Protokoll des 30. Kolloquiums über die Anwendung der
Elektronischen Datenverarbeitung in den Geisteswissenschaften
an der Universität Tübingen vom 11. Februar 1984

Peter Schreiner, Renate Söhnen (Seminar für Indologie)

Altindische Purana-Literatur.
Berichte aus einem Tübinger Forschungsprojekt

Summary

This report on the "Tübingen Purana-Project" first introduced the scope of a specialized bibliography on Epics and Puranas. It further summarized the conventions and procedures required by the pecularities of Sanskrit (Samdhi, compounds); the corresponding input allows to automatically generate the conventional transliteration of the text as well as indices and concordances of separate word-forms (including variant readings). Lastly, first results concerning the automatized metrical analysis of Sanskrit texts and their statistical evaluation (by combining TUSTEP and SPSS) were presented.

"Purana" ist die Bezeichnung für eine Textgruppe aus der sog. Anonymen Sanskrit-Literatur, d.h. es handelt sich um Texte, die nicht einem einzelnen, historisch greifbaren Autor zugeschrieben werden können, sondern die zahlreiche Überarbeitungen, Ergänzungen und Umstellungen, Interpolationen und Umformulierungen erfahren haben. Der Umfang dieser Literatur wird auf mehr als eine Million Verse geschätzt; das meiste davon ist metrisch abgefaßt. Diese Texte sind eine fast unerschöpfliche Fundgrube für fast alle Teildisziplinen der Indienkunde; ihre Auswertung setzt jedoch die Erschließung der Texte voraus; die Feststellung von Textschichten und von relativen Chronologien gehört zu den wichtigsten Aufgaben der Purana-Forschung.

Das Tübinger Purana-Projekt besteht seit dem 1. Januar 1982; es wird von der DFG finanziert. Leiter ist Prof. Dr. Heinrich von Stietencron, Mitarbeiter sind Peter Flamm M.A., Dr. Peter Schreiner und Dr. Renate Söhnen.

Die Arbeit umfaßt drei Teilbereiche:

Zu den Originaltexten in Sanskrit werden Textwiedergabe (mit Lesarten), KWIC-Index und rückläufiger Wortformenindex erstellt;
der Inhalt wird in Form detaillierter, auf Englisch abgefaßter und indizierter Inhaltsangaben auch für Nicht-Indologen erschlossen;
eine kommentierte Bibliographie soll einen Überblick über Forschungsstand und -geschichte verschaffen.

Bisher wurden ca. 45.000 Zeilen Text (zumeist in zwei verschiedenen Versionen) eingegeben; von den Puranas ist die Bearbeitung von "Visnupurana" und "Brahmapurana" so gut wie abgeschlossen. Allerdings wurde von allem, was bisher erarbeitet wurde, noch nichts veröffentlicht.

Auf eine Besprechung der Arbeit an den Inhaltsangaben wird im folgenden verzichtet; sie werden mit Hilfe von TUSTEP eingegeben, bearbeitet, korrigiert und indiziert. Hingewiesen sei darauf, daß die Prozeduren für die Indizierung und die Angabe der Referenzen in den Indizes für den Sanskrittext und die Inhaltsangaben aufeinander abgestimmt sind.

I. Bibliographie

Da über Bibliographien in diesem Rahmen schon mehrfach berichtet worden ist, wurde dieser Aspekt der Projektarbeit nur thesenhaft besprochen:

1.
Eine Spezialbibliographie zu Puranas gibt es bisher nicht; sie ist ein Desiderat. Es handelt sich bei unserer Bibliographie um eine kommentierte Bibliographie, die um Register von Namen (Autoren, Herausgeber, Übersetzer, Kommentatoren, Rezensenten), von Stich- und Schlagworten und von besprochenen Textstellen ergänzt wird. Im Rahmen der Projektarbeit werden die Möglichkeiten der automatischen Indizierung und der Erleichterung und Beschleunigung diverser Arbeitsschritte genutzt (andere indologische Bibliographien tun das unseres Wissens bisher nicht). Die Titelaufnahme erfolgt daher in Rubriken (für vereinheitlichten Sachtitel, Autor, Titel, Herausgeber, Erscheinungsnachweis, Erscheinungsjahr, Kommentar, Textstellenangaben, Schlagworte, Rezensionen). Abgesehen von der vereinfachten Korrektur der Eingaben mit dem Texteditor werden Prozeduren zur Überprüfung der formalen Eingabekonventionen und zur Sortierung der Erscheinungsnachweise unselbständiger Veröffentlichungen angewandt. Aus der Eingabedatei wird die "Benutzerdatei" gemäß den Gepflogenheiten konventioneller Bibliographien automatisch erstellt und mit FORMATIERE für den Typenraddrucker bzw. mit dem SATZ-Programm für den Lichtsatz aufbereitet und ausgegeben.

2.
Um bei der absehbar begrenzten Zeit zu einem einigermaßen vollständigen Überblick über vorhandene Veröffentlichungen zu kommen, werden Titel nicht nur nach Autopsie aufgenommen (und dann auch kommentiert), sondern es werden auch Sekundärbibliographien (von Privatpersonen, aus Publikationen, Fußnoten usw.) übernommen. Die Diskrepanz zwischen abweichenden Schreibungen von Namen oder Angaben zu Titeln in verschiedenen Quellen oder verschiedenen Veröffentlichungen eines Autors werden nach Möglichkeit vereinheitlicht, wobei Korrekturen und Ergänzungen der Herausgeber (durch eckige Klammern) markiert werden.

3.
Ein Register von Textstellen, zu denen in einer Veröffentlichung etwas gesagt wird, gibt es in der Indologie bisher nicht; die Indizierung kann den desolaten Zustand indologischer Textedition (keine Standardausgaben, keine Konkordanzen zu verschiedenen Ausgaben) und die uneinheitlichen Gepflogenheiten der Zitation nur widerspiegeln, aber nicht verbessern oder vereinheitlichen.

4.
Das Inhaltsregister wird aus der Titel-, der Kommentar- und der Schlagwortrubrik zusammengestellt. Ein reines Stichwortregister mußte entfallen (Sprachenvielfalt, uneinheitliche Terminologie, unhandlicher Umfang). Als Schlagwortregister wird ein mehrstufiges Register erstellt aus sog. "Umdreheinträgen", d.h. Einträgen aus mehreren Teilen, die an markierten Stellen automatisch umgedreht und kopiert werden, so daß derselbe Eintrag an mehreren Stellen im Register erscheint (z.B. text criticism of: Kamsa story in: Harivamsa ergibt Kamsa story in Harivamsa, text criticism of und Harivamsa, text criticism of Kamsa story in). Dadurch können inhaltliche Schlagwörter auf Texte bezogen werden. Durch regelmäßige Neu-Sortierung der vorläufigen Indizes wird die Vereinheitlichung der Terminologie ermöglicht; durch Übernahme von Stichwörtern (neben Schlagwörtern, speziell bei bisher nicht kommentierten Einträgen), mit Hilfe von Verweisen, und nicht zuletzt dank der Bereitschaft, auch bereits bearbeitetes Material im Lichte von neu hinzugekommenen Einträgen zu revidieren, wird versucht, die Forderung nach objektiver Auflistung und gleichzeitig die nach systematischer Aufschlüsselung des Materials zu erfüllen.

In den ersten zwei Jahren der Projektarbeit wurden knapp 4000 Titel zusammengetragen; davon sind ca. 1650 kommentiert, wovon ca. 1500 Kommentare und die gesamte Schlagwortvergabe und Redaktion von Peter Flamm gemacht wurden.

II. Indizes und Konkordanzen (unter Berücksichtigung von Lesarten)

Das Sanskrit, in dem die Purana-Texte abgefaßt sind, wird in einer Art Silbenschrift geschrieben, mit der 49 Laute darstellbar sind. Sie werden in der wissenschaftlichen indologischen Transkription in Lateinschrift unter Verwendung von diakritischen Zeichen wiedergegeben. Da Wörter, die auf Konsonant enden, in der einheimischen Silbenschrift meist mit dem folgenden Wort zusammengeschrieben werden, ist es zur Erstellung eines Index unbedingt nötig, den Text in der Umschrift einzugeben, um die Wörter isolieren zu können. Dazu gehört auch, daß an Stellen, wo auslautende und anlautende Vokale zweier Wörter miteinander verschmelzen, diese Verschmelzungen rückgängig gemacht und durch Asterisk gekennzeichnet werden. Ebenso werden, um die Bestandteile von Komposita indizieren zu können, Komposita aufgelöst, wobei die Kompositionsfuge mit Pluszeichen markiert wird.

Mit Hilfe von TUSTEP kann nun aus der Eingabeform des Textes einerseits der fortlaufende Text in der traditionellen wissenschaftlichen Transkription wiedergegeben werden (diese "Textform" wird z.B. für metrische Analysen benötigt); andrerseits kann auch von jedem Einzelwort die sog. "Pausa-Form" hergestellt werden, bei der alle Verschmelzungen von Vokalen und alle Assimilationen von Konsonanten am Wortanfang oder Wortende rückgängig gemacht sind, damit die Wortformen für den Index vereinheitlicht und zusammengefaßt werden können.

Die Eingabe der Texte erfolgt mit der Schreibmaschine auf OCR, wobei diakritische Zeichen vor den betreffenden Buchstaben geschrieben werden; für die Textausgabe auf dem Typenraddrucker oder mit dem Satzprogramm können sie leicht in die erforderlichen Kodierungen umgewandelt werden.

Die Referenz, d.h. die Versnummer, die hinter den jeweiligen Vers geschrieben wird, und die (Buch- plus) Kapitelnummer, die nur hinter den ersten Vers eines Kapitels geschrieben, aber durch eine Prozedur für alle Verse des Kapitels automatisch ergänzt wird, wird in die TUSTEP-Seiten- und Zeilennummer umgerechnet, wobei die Teile (Zeilen) des Verses mit Unterscheidungsnummern gezählt werden. Durch die Identität von maschineninterner und textinterner Referenz wird später, u.a. bei der Korrektur, der direkte Aufruf von Textstellen ermöglicht. (Es hat sich bewährt, vor der Umrechnung der Referenzen in Seiten- und Zeilennummern die Referenzen zu prüfen, ob sie aufsteigend sind, da sonst Verse oder gar ganze Kapitel verloren gehen können.)

Da der Text in zwei verschiedenen Versionen eingegeben wird, können dann mit Hilfe eines Textvergleichs die Unterschiede zwischen den beiden Versionen festgestellt werden, die einerseits auf Tippfehlern, andererseits aber auch auf Abweichungen zwischen den beiden gedruckten indischen Vorlagen beruhen können. Die Tippfehler werden korrigiert, die Textvarianten der Lesartenversion (s.u.) einverleibt.

Von den derart transkribierten, korrigierten und um Lesarten ergänzten Texten wird ein KWIC-Index erstellt; außerdem sollen ein rückläufiger Wortformenindex und eine Textwiedergabe vorgelegt werden. Angesichts des Textumfangs ist vorgesehen, die Indizes auf Microfiches herauszubringen; für die Textwiedergabe ist dagegen an die konventionelle Buchform gedacht, nicht zuletzt, um Text und Index nebeneinander legen zu können.

Die eine der beiden gedruckten indischen Ausgaben des "Brahmapurana" warf ein zusätzliches Problem auf: Sie enthält in einem Apparat Lesarten aus bis zu sechs Handschriften. Da diese Varianten nicht verloren gehen sollten, wurde beschlossen, sie mit in die Textdatei aufzunehmen. Das geschieht durch den Bearbeiter am Sichtgerät nach dem zweiten Textvergleich (mit anschließender Korrektur) in einer Kopie der Ausgangsdatei, wobei dann auch die Varianten der anderen gedruckten Ausgabe mit eingetragen werden (s.o.), und zwar mit Hilfe von (runden) Klammerungen, die vor dem Wort (bzw. der Wortfolge), für das eine Variante vorliegt, beginnen, hinter dem Wort (bzw. der Wortfolge) die Variante(n) mit den entsprechenden Sigla enthalten (A-F für die Handschriften, V für die andere Ausgabe, d.h. die Venkatesvara-Edition, und U für im Apparat der indischen Ausgabe nicht identifizierbare Lesarten) und danach schließen. Zusätze in einer Handschrift oder der V-Version werden mit entsprechenden Sigla in einfachen, Auslassungen in doppelten Klammern verzeichnet. - Mit Hilfe von KOPIERE-Prozeduren kann man aus diesem Text den Wortlaut einer jeden Handschrift herstellen; praktisch wird dies nur für die Ausgangsversion und für die V-Version getan, um dann mit Hilfe von Textvergleichen fehlerhafte Abweichungen aufzuspüren und so die Eingabe der Lesarten wenigstens teilweise automatisch zu kontrollieren. Dabei finden sich gelegentlich auch noch Fehler in den Ausgangsdateien, die vorher entweder übersehen wurden oder beim Korrigieren entstanden sind.

Außer den Textvarianten enthält die Lesartendatei auch noch Fußnoten (in eckigen Klammern), in denen Konjekturen des indischen Herausgebers oder auch Bemerkungen zum Text unsererseits verzeichnet werden können.

Für den Satz sollen später die Lesarten aus dem Text herausgezogen und in einem Apparat mit Angabe der Referenzen (= Zeile im Text) wiedergegeben werden, während die Stellen, für die Varianten vorliegen, im Text durch besondere Klammerung markiert werden sollen. Die Fußnoten sollen sich sowohl auf den Text wie auch auf den Apparat beziehen können.

III. Metrische und stilistische Auswertung

1. Zur Metrik

Da die indische Metrik rein quantifizierend ist, d.h. also nur Längen und Kürzen mißt, ohne irgendwelche Akzente zu berücksichtigen, ist es relativ leicht, mit Hilfe des TUSTEP-Bausteins KOPIERE für einen metrischen Text das metrische Schema herzustellen, d.h. lange und kurze Silben mit Hilfe von Symbolen darzustellen.

Das Hauptmetrum der Purana-Texte ist der Sloka, ein Metrum aus vier Versfüßen zu je acht Silben, deren Kadenz für die geraden Füße jambisch, für die ungeraden nicht-jambisch ist; die ersten vier Silben sind in der Abfolge von Längen und Kürzen relativ frei.

Daneben gibt es auch Verse in längeren Metren, die entweder nach der Metrik der klassischen Kunstdichtung (Mitte des 1. Jahrtausends n. Chr.), bei der Regelmäßigkeit und Strenge in der Verteilung von Längen und Kürzen in den vier Versfüßen vorherrscht, oder nach der Metrik der älteren Sanskrit-Texte (ca. 1600-200 v. Chr.) zu bestimmen sind. Für die "anonyme Literatur" der Puranas, deren Teile zu verschiedenen Zeiten entstanden sein können, ergibt sich damit ein Anhaltspunkt zur chronologischen Einordnung.

Besonders beliebt ist in der älteren Metrik die Tristubh, ein elfsilbiges Metrum mit einer Zäsur nach der 4. oder nach der 5. Silbe, das wahrscheinlich urverwandt ist mit der sapphischen Strophe. Die Anfangssilben sind in ihrer Kombination von Längen und Kürzen relativ frei; für den Rest der Zeile sind die beiden Typen mit der Zäsur nach der 4. oder nach der 5. Silbe in ihrer Struktur unterschieden; dem Ergebnis der Abfrage entsprechend kann die Zäsur in das metrische Schema eingetragen und die Bezeichnung des jeweiligen Typs hinter diesem Schema ergänzt werden. Da um die Zeitenwende der Typ mit der Zäsur nach der 4. Silbe von dem anderen Typ verdrängt worden ist, der für die Anfangssilben mehr festgelegt ist und bei dem die Zäsur nicht mehr eingehalten zu werden braucht, kann ein Vorkommen des älteren Typs in Texten wie den Puranas, deren Endredaktion teilweise recht spät erfolgt ist, auf Zitate oder Übernahmen aus einer früheren Epoche hindeuten.

2. Statistik

Der Versuch, unsere Texte metrisch auszuwerten, war durch eine Publikation von Barend A. van Nooten (JOIBaroda 17, 1967-68) angeregt, der eine Darstellung des Metrums (in diesem Fall der Metren mit acht Silben pro Versfuß) mit Hilfe von dezimalen Kennziffern vorgeschlagen hatte: Kurze Silben werden als 1, lange als 0 kodiert; jede Silbe eines Versviertels erhält den numerischen Wert der um jeweils eins erhöhten Potenz von zwei. Es werden nur die kurzen Silben gezählt. Die Quersumme dieser Zahlen ergibt eine für jeweils nur eine Abfolge von kurzen und langen Silben zutreffende Zahl, die als Typenkennzahl fungiert. Für die statistische Auswertung ist die Darstellung mit Hilfe der Typenkennzahl nützlicher als schematische Darstellungen, denn sie entspricht der Konvention, Werte dezimal zu kodieren.

Abgesehen vom Bereich der metrischen Analyse steht die statistische Auswertung von Sanskrittexten noch vor der Ausgangsfrage, was an einem Text stilistisch und schichtenspezifisch relevant ist; Untersuchungen darüber gibt es ebensowenig wie über das, was für puranisches Sanskrit und puranischen Stil als Norm anzusehen sei, mit der Abweichungen verglichen werden könnten. Bisher können wir nur vermuten, daß die Parameter, die wir zählen können, auch stilistische Relevanz haben. Es sind dies, abgesehen von der metrischen Struktur:

Anzahl und Länge (d.h. Zahl der Glieder) von Komposita;
Wörter pro Zeile;
Buchstaben pro Zeile (einzeln und/oder nach Klassen, z.B. Nasale, kurze Vokale usw., gruppiert);
Partikel;
Pronomina (Relativ-, Demonstrativ-, Personal-);
Absolutive.

Da TUSTEP keinen Baustein für statistische Auswertung vorsieht, die Mitarbeiter des Projekts jedoch nicht programmieren können, mußte nach einem benutzerfreundlichen Programmpaket für Statistik gesucht werden. Erprobt wurde die Auswertung der mit TUSTEP aufbereiteten Texte mit Hilfe von SPSS.

(Die Kurzfassung des Referates wurde von den Referenten zur Verf�gung gestellt.)

Zur Übersicht über die bisherigen Kolloquien