Regeln zur Volltextdigitalisierung

Wozu Regeln zur Volltextdigitalisierung?

  (Autorin: Melanie Kleefisch, 06.01.2016)

  

Die Vorteile von volltextdigitalisierten Wörterbüchern wurden bereits in Station 1 genannt. Sie ermöglichen verschiedene Suchmöglichkeiten, benötigen weniger Speicherplatz als imagedigitalisierte Wörterbücher (gedruckte Exemplare werden eingescannt und als Bilder gespeichert), ermöglichen einen automatischen Aufbau von Metadaten oder Indizes und sind zeit- sowie ortsunabhängig zugänglich. Lesen Sie hierzu mehr in Raum 2.

Doch damit diese Vorteile von Texten in digitalisierter Form überhaupt ausgeschöpft werden können, müssen bestimmte Regelungen bei der Umsetzung der Volltextdigitalisierung beachtet werden. Regeln zur Volltextdigitalisierung dienen dazu, einen Standard zu setzen. Es soll also einheitlich vorgegeben werden, wie die Volltextdigitalisierung vonstattengehen sollte. Dadurch kann gewährleistet werden, dass die Daten miteinander vergleichbar und auch austauschbar sind. Es kann zudem eine Weiterverwendung bzw. Weiterverarbeitung durch Dritte oder für Nachfolgeprojekte ermöglicht werden. Die Daten sind verständlich, wenn jeder diesen Standard kennt und anwendet; zudem sind eben diese Daten maschinenlesbar und für die Langzeitarchivierung geeignet.

Welche Standards gibt es?

Als Standard für die Auszeichnung von Texten gilt XML. XML (eXtensible Markup Language) ist eine solche erweiterbare Auszeichnungssprache oder auch Metabezeichnungssprache zur Definition von weiteren Markup-Sprachen. Mithilfe von XML können Texte strukturiert und mit Metadaten versehen werden (vgl. Wegner 2012). Mit der TEI (Text Encoding Initiative) hat sich im Jahre 1987 eine Art Regelwerk bzw. Grammatik für die Verwendung von XML in den Geisteswissenschaften etabliert, die XML als Auszeichnungssprache normiert und beschreibt. Die XML-Auszeichnung kann per Hand in einem einfachen Editor erfolgen, z.B. mit Notepad++  oder Ähnlichem. Gerade für die Auszeichnung mit TEI eignet sich besonders der XML-Editor Oxygen, der dem Nutzer das Rahmenwerk der TEI als eine Art Bibliothek zur Verfügung stellt. Ein Werkzeug, mit dem die Auszeichnung eines Textes mit XML bzw. TEI automatisch erfolgen kann, ist zum Beispiel das Programm TUSTEP.

  

XML als Standard

Die Idee der Auszeichnung umfasst die Anreicherung des Textes mit Metadaten, also zusätzlichen Informationen zum Text, die Nachempfindung der Textstruktur durch Strukturierung im XML-Dokument und außerdem die Trennung von Inhalt und der Darstellung des Inhaltes. So kann die Darstellung der Dokumente auf verschiedene Arten und Weisen visualisiert werden, ohne den Inhalt an sich zu verändern (vgl. Wegner 2012: 4) und anschließend in verschiedene Formate transformiert werden, wie z.B. HTML oder PDF.

Mithilfe von XML können Auszeichnungssprachen entwickelt werden, die hierarchische Strukturen von Dokumenten im Textformat beschreiben und durch zusätzliche Angaben ergänzt werden können. XML lässt sich dabei genau an die Bedürfnisse des Benutzers anpassen und schreibt keine obligatorischen XML-Elemente (im Folgenden Tags genannt) vor, sondern bietet die Möglichkeit, beliebige Tags für den jeweiligen Gebrauch selbst zu definieren. Somit wird also eine Syntax definiert, ohne eine Semantik vorzugeben. Entwickelt wurde XML im Jahre 1998 von der XML Working Group des World Wide Web Consortiums (W3C) mit dem Ziel, die Verwendung der standardisierten, verallgemeinerten Auszeichnungssprache SGML (Standard Generalized Markup Language) zu konkretisieren und durch Regeln festzulegen.

 

 

Wie sieht XML aus?

Wegner (2012) erklärt in seinem Werk Schritt für Schritt den Aufbau eines XML-Dokumentes und stellt ihn schematisch dar.

<!-- Ein XML-Dokument beginnt mit der XML-Deklaration, also dem Hinweis an das Programm, mit dem es verarbeitet wird, dass es sich um ein XML-
Dokument handelt. Zusätzlich können dort Angaben zur XML-Version, Zeichenkodierung oder eventuell zusätzlich zu ladenden Dateien gemacht 
werden. -->

<?xml version="1.0"?>
<!DOCTYPE ...>

  <!-- Anschließend kann die Dokumenttypdeklaration (oder DTD) folgen, die vorgibt, welcher Grammatik der Aufbau des XML-Dokumentes folgt.
  Grundsätzlich bestehen XML-Dokumente außerdem folgende Bestandteile: Elemente, Attribute und Attributwerte. -->

  <rootElement attr="Wert" ...>

    <!-- Als Element gilt dabei die Informationseinheit, die in XML annotiert wird, z.B. firstElement. 
    Das Element wird durch das Attribut ergänzt und hat einen obligatorischen Attributwert. 
    Der Attributwert wird dabei in doppelte Anführungszeichen gesetzt, z.B. "Wert" (vgl. Wegner 2012: 7). -->  

    <firstElement attr="Wert">Inhalt von firstElement</firstElement>

    <!-- Die sogenannten Tags oder Elemente werden in spitzen Klammern <> geschrieben und müssen immer mit dem Ende-Tag </> beendet werden.
    Zwischen den Anfangs- und Ende-Tags befindet sich der zu annotierende Text, 
    z.B. <lastElement attr="Wert">Inhalt von lastElement</lastElement>. --> 
    
   <lastElement attr="Wert">Inhalt von lastElement</lastElement>

  </rootElement>

 

Das nächste Beispiel stellt ein konkretes, in XML annotiertes Beispiel dar, mit dessen Hilfe Angaben zu den Teilnehmern einer Museumsführung koordiniert werden können.

<?xml version="1.0" encoding="ISO-8859-1"?> 
<!-- Beginn mit der XML-Deklaration und einer Angabe zur Kodierung. Das XML-Dokument entspricht also der XML-Version 1.0 und ist in ISO-8859-1 kodiert. -->

<!DOCTYPE TeilnehmerS SYSTEM "teilnehmer0.dtd"> 
<!-- Angaben zur Dokumenttypdeklaration. -->

<TeilnehmerS museumsfuehrung="Stadtmuseum"> 
<!-- Diese Zeile besteht aus dem Element TeilnehmerS und dem Attribut museumsfuehrung mit dem zugehörigen Attributwert "Stadtmuseum". 
Das Element wird weiter untergliedert in verschiedene Teilnehmer, hier erweitert mit dem Attribut nr und zugehörigem Attributwert, 
z.B. "01". Eine weitere Unterteilung macht Angaben zu den Eigenschaften der Teilnehmer (ab Zeile 5), z.B. <name>Müller</name>, 
<vorname>Stefan</vorname> usw. -->

  <Teilnehmer nr="01"> 
    <name>Müller</name> 
    <vorname>Stefan</vorname> 
  </Teilnehmer> 

  <Teilnehmer nr="02"> 
    <name>Meyer</name> 
    <vorname>Hans</vorname> 
  </Teilnehmer> 

</TeilnehmerS>

 

Ein weiteres Beispiel zur Auflistung literarischer Personen in einem Buch wird im Folgenden dargestellt.

 

<?xml version="1.0" encoding="ISO-8859-1"?>
<bücher>
  <buch>
    <titel typ="Buch">Irrungen,Wirrungen</titel>
    <autor geschlecht="m">Theodor Fontane</autor>
    <beschreibung>
      <person geschlecht="w">Effi Briest</person> wird in jungen 
      Jahren mit dem viel  älteren <person geschlecht="m">Baron von
      Innstetten</person> verheiratet. Sie fühlt sich vernachlässigt
      und beginnt eine Affäre.
    </beschreibung>
  </buch>
  <buch>   
    <titel typ="Buch">Irrungen,Wirrungen</titel>
    <autor geschlecht="m">Theodor Fontane</autor>
    <beschreibung>
      Die Schneiderin <person geschlecht="w">Lene</person> und der Baron
      <person geschlecht="m">Botho von Rienäcker</person> verlieben sich 
      ineinander, doch aufgrund ihrer verschiedenen gesellschaftlichen 
      Schichten geben die beiden ihre Liebe auf.
    </beschreibung>   
  </buch> 
</bücher>

Mit den angewandten Tags ist es möglich, Autoren und ihre Werke auszuzeichnen, zu strukturieren und mit weiteren Informationen zu versehen.

Innerhalb des umschließenden Tags <bücher> werden verschiedene Bücher aufgelistet, die mit Metadaten versehen sind. Es wird weiter untergliedert mit dem nächsten Tag <buch>, das die einzelnen Einträge der Liste aufzählt.

Zu den einzelnen Einträgen innerhalb von <buch>, in diesem Beispiel zwei, werden Angaben zum Buchtitel, zum Buchautor und ein Beschreibungstext zu den Personen geliefert. Der Buchtitel wird hier mithilfe des Elements <titel>, des Attributs typ und des Attributwerts "Buch" gekennzeichnet. Zwischen die Anfangs- und Ende-Tags ist dann der Buchtitel selbst notiert: <titel typ="Buch">Effi Briest</titel>.

Ähnlich verhält es sich mit der Angabe zum Autor, über den durch das Attribut zusätzliche Informationen wie das Geschlecht vermerkt werden können. Das Element <autor> enthält demnach das Attribut geschlecht und den Attributwert "m" für männlich: <autor geschlecht="m">Theodor Fontane</autor>.

Zusätzlich folgt unter dem Tag <beschreibung> ein Beschreibungstext. Auch hier können Informationen wie das Geschlecht der Person annotiert werden. Wie oben wird dazu das Attribut geschlecht und der entsprechende Attributwert "m" oder "w" verwendet, der hier dem Element <person> zugeordnet wird: <person geschlecht="w>Effi Briest</person>.

Nach Beendigung der Tags dieses Eintrags wird ein neuer Eintrag der Liste durch das Tag <buch> begonnen.

 

Arbeiten mit XML

Die Beispiele zeigen, dass XML auf die Bedürfnisse der jeweiligen Anwendung zugeschnitten werden kann, indem beispielsweise entsprechende Tags, Attribute und Attributwerte gewählt werden.

Bei der Anwendung von XML auf Texte ist dringend auf die Wohlgeformtheit der XML-Auszeichnung zu achten. Wegner formuliert diese Anforderung folgendermaßen: »XML-Dokumente müssen eindeutige Regeln und Strukturen einhalten, sodass ihre Verarbeitung durch Anwendungsprogramme einfacher und sicherer geschehen kann.« (Wegner 2012: 4). Ein Dokument gilt dann als wohlgeformt, wenn es die von XML vorgegebene Syntax beachtet und die Elemente enthält, die obligatorisch sind (vgl. XML und Wohlgeformtheit). Dazu gehören die XML-Deklaration und die korrekte Verwendung der Elemente: Jedes Start-Tag benötigt ein entsprechendes Ende-Tag, wobei auf eine korrekte Schachtelung ohne Überschneidungen mit anderen Tags zu achten ist. Kann ein Dokument die Anforderungen nicht erfüllen, kann es nicht verarbeitet werden: »Erfüllen Dokumente einige der Grundvoraussetzungen an die Syntaxregeln nicht, so muß ein XML-Parser das Dokument abweisen und eine entsprechende Fehlermeldung produzieren« (Wegner 2012: 4). Das Programm, welches das Dokument liest und verarbeitet (XML-Parser genannt), erkennt ein nicht wohlgeformtes XML-Dokument also als falsch an und signalisiert dies dem Nutzer anhand einer entsprechenden Fehlermeldung.

XML-Dokumente können auf verschiedene Arten und Weisen entstehen. »Sie können die Ausgabe von Anwendungsprogrammen sein, sie können durch spezielle grafische Editoren erzeugt werden oder durch einfache Texteditoren per Hand eingetippt werden« (Wegner 2012, S. 4).

 

Ein XML-Tutorial

 

Was kann XML?

Die Verwendung von XML hat sich mittlerweile als Standard für die Auszeichnung von Texten etabliert. Dies liegt begründet in den vielen Vorteilen, die XML mit sich bringt. Texte können mit Metadaten versehen und strukturiert werden, wodurch ein umfassender Zugriff auf den Text ermöglicht wird. Man kann nicht nur auf den gesamten Text zugreifen, sondern auch nach speziellen Kriterien filtern, indem man z.B. bestimmte ausgezeichnete Textteile aus verschiedenen Wörterbüchern extrahiert. »In einem digitalen Wörterbuch, dessen Datengrundlage im Hinblick auf die unterschiedlichen Informationspositionen wie Stichwort, Wortklasse, Etymologie, Bedeutung, Belege mit Autor- und Werkangabe, mit Referenz und Klassifizierung nach Datierung, Lokalisierung und Textsortenzugehörigkeit ausgezeichnet bzw. kodiert ist, läßt sich gezielt nach allen möglichen Erscheinungen suchen, wie das in einem gedruckten Buch auch bei noch so gründlicher Erschließung durch reichhaltige Register nicht möglich wäre« (Burch/Gärtner 2001). Einige weitere Vorteile führt Wegner (2012: 4) in seiner XML-Einführung an, z.B. die Möglichkeit zur Anpassung der XML-Auszeichnung an die eigenen Bedürfnisse, indem man beispielsweise entsprechende Tags verwendet. Außerdem können die Daten durch die Trennung von Form und Inhalt, die aus der Auszeichnung resultiert, auf verschiedenen Geräten unterschiedlich visualisiert werden. Das heißt, der Inhalt bleibt unverändert, während die Form (z.B. durch unterschiedlichen Zeilenumbruch) an die Bedürfnisse des jeweiligen Geräts angepasst wird. XML-Dokumente sind maschinenlesbar, aber auch von Menschen leicht zu verstehen und zu lesen, da die Auszeichnungen und Strukturierungen selbsterklärend formuliert sein sollen. Vor allen Dingen aber wird ermöglicht, dass die Daten durch die Einhaltung des Standards austauschbar gemacht werden und nicht an bestimmte Hard- oder Software gebunden sind.

 

TEI

In diesem Abschnitt werden Möglichkeiten vorgestellt, Auszeichnungen von Texten, vor allem von Wörterbüchern, in XML zu generieren. Mit der TEI wird eine Grammatik geliefert, welche die XML-Auszeichnung normiert und für gewünschte Zwecke erweiterbar macht. Dazu bietet das Paket Dictionaries der TEI definierte Auszeichungsstrukturen für Wörterbücher.

Die TEI (kurz für Text Encoding Initiative) ist eine Initiative, die 1987 von Philologen ins Leben gerufen wurde und sich zum Ziel gesetzt hat, ein Regelwerk, also eine Art Grammatik für die Auszeichnung von Texten mit SGML bzw. XML zu entwickeln. Ausgerichtet ist diese Grammatik in erster Linie auf die Arbeit von Geisteswissenschaftlern, Sozialwissenschaftlern und Sprachwissenschaftlern und zielt auf die Auszeichnung ganz verschiedener Textsorten, wie z.B. Dramen, Prosa oder historischen Manuskripten ab. Mit den Guidelines der TEI ist ein Format entstanden, das offen, portabel und systemunabhängig anwendbar ist und somit den Austausch von Daten vereinfacht hat. Die Grammatik wird zur Verfügung gestellt als ein erweiterbares, modulares XML-Schema mit zugehöriger Dokumentation und ist unter einer Open-Source-Lizenz (Raum 2, Station 2) verfügbar. Auf der Homepage der TEI sind die Richtlinien einsehbar. Die derzeit aktuelle Version P5 wurde am 2. November 2007 veröffentlicht. Zur automatischen XML-Auszeichnung von Texten werden verschiedene Tools angeboten, u.a. das Programmpaket TUSTEP. Das Tübinger System von Textverarbeitungs-Programmen (TUSTEP) wurde an der Universität Tübingen entwickelt und bietet ein System an verschiedenen Textverarbeitungsprogrammen an.

Überblick über die TEI

Auszeichnung von Wörterbüchern mittels TEI

Speziell für Wörterbücher stellt die TEI ein modulares Paket bereit, das auf die Annotation von Wörterbüchern ausgerichtet ist. Mit TEI Dictionaries wird die Möglichkeit geboten, mittels vorgefertigter Elemente oder auch Tags (engl. für Auszeichner, Etikett) Wörterbücher und deren Strukturen zu beschreiben. Die genauen Richtlinien sind auf der TEI-Homepage zu finden.

Das Besondere an Wörterbüchern ist, dass deren Aufbau stark strukturiert ist und bestimmten Vorgaben und Richtlinien folgt, wodurch trotz der starken Verdichtung von Inhalten ein einfacher und schneller Zugriff ermöglicht wird. »Das lexikalische Wissen, das in Wörterbüchern kodiert ist, wird dem Wörterbuchbenutzer nicht beliebig, willkürlich und unsortiert, sondern in einer vom Wörterbuchhersteller festgelegten Anordnung, die nach formalen und inhaltlichen Kriterien vorgenommen ist, präsentiert« (Kunze/Lemnitzer 2007: 77). Man spricht bei Wörterbücher in diesem Zusammenhang von der sogenannten Makro- und Mikrostruktur. Das TEI Dictionaries-Modul greift diese Strukturen auf und bietet XML-Auszeichungsvorschriften für beide an.

Makrostruktur

Unter der Makrostruktur eines Wörterbuchs verstehen Kunze und Lemnitzer »die geordnete Menge seiner Lemmata. Das Lemma […] vermittelt zwischen Makro- und Mikrostruktur« (Kunze/Lemnitzer 2007: 79). Schlaefer schreibt hierzu, dass »die Makrostruktur als Organisationsprinzip die Reihenfolge der Artikelstichwörter [regelt, U.S.]. Sie beruht daher zu wesentlichen Teilen auf der Art des Lemma-Ansatzes« (Schlaefer 2009: 86). Die Makrostruktur umfasst somit die alphabetische Reihenfolge der Lemmata und ebenso den Lemma-Ansatz, der sich aus Worteinheit und Wortform zusammen setzt, wobei die Worteinheit danach fragt, welche Wörter in das Wörterbuch mit aufgenommen werden und die Wortform in der Regel die Normalform eines Wortes beinhaltet, so z.B. bei Verben die Infinitivform.

Für die Makrostruktur eines Wörterbuchartikels bietet die TEI unter anderem folgende beispielhafte Tags an:

<?xml version="1.0" encoding="UTF-8"?>
<TEI xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
    xsi:schemaLocation="http://www.tei-c.org/ns/1.0 http://www.tei-c.org/release/xml/tei/custom/schema/xsd/tei_all.xsd"
    xmlns="http://www.tei-c.org/ns/1.0">

<!-- Beschreibungen und Erklärungen, die eine elektronische Titelseite für ein TEI-konformes Dokument ergeben: -->
    <teiHeader>
        <fileDesc>
            <titleStmt>
                <title>
            <!-- Bibliographische Beschreibung der elektronischen Datei -->
                </title>
            </titleStmt>
            <publicationStmt>
                <p>
             <!-- Angaben zur Veröffentlichung oder zum Vertrieb eines Textes -->
                </p>
            </publicationStmt>
            <sourceDesc>
                <p>
             <!-- Informationen über die Quelltexte, auf die der elektronische Text zurückgeht-->
                </p>
            </sourceDesc>
        </fileDesc>
    </teiHeader>

<!-- Makrostruktur: -->
    <text>
        <body>
            <div type="section">
                <head>K</head>
                <entry type="main" sortKey="Kartoffel" xml:id="K001">
                                 <form type="lemma"><hi rend="bold">KARTOFFEL</hi></form>
                                        <!-- Hier stehen die ausgezeichneten Inhalte der der Mikrostruktur* (siehe unten). -->
           
              </entry>
           </div>
        </body>
    </text>
</TEI>

Innerhalb des Tags <text></text> steht ein eigenständiger Text, z.B. ein Wörterbuch. Der <body></body> umfasst den Kerntext ohne Vor- und Nachspann. <div type=“section“ n=“1“></div> steht für eine einzelne Sektion des Wörterbuchs, wobei in diesem Beispiel die Sektion die Buchstabenstrecke K umfasst und deren einzelne Artikel, verdeutlicht durch <head>K</head>. <form type=“lemma“> beinhaltet das Lemma (hier: Kartoffel).

Mikrostruktur

»Die Mikrostruktur bezeichnet die hierarchische Binnengliederung eines Wörterbucheintrages zu einem gegebenen Lexikonstichwort oder Lemmazeichen als konkrete Analyse eines gegebenen lexikalischen Eintrags, aber auch als Abstraktion über Typen lexikalischer Einträge (abstrakte Mikrostruktur)« (Kunze/Lemnitzer 2007: 80). Im Mittelpunkt eines Eintrages steht das Lemma (Artikelstichwort, dass in der Regel meist in seiner Grundform realisiert wird). Die Mikrostruktur des Eintrages besteht dann aus Angaben, die zu diesem Lemma gemacht werden und die seine Verwendung beschreiben. Es können dabei Angaben über die »Schreibung, Lautung, morphosyntaktische[n] oder andere[n] grammatische[n] Charakteristika oder über die Bedeutung und/oder Verwendung eines bestimmten lexikalischen Zeichens« (Kunze/Lemnitzer 2007: 81) erfolgen. Die Mikrostruktur soll die Informationen zu einem Wörterbucheintrag ordnen. So werden oftmals zuerst grammatikalische Angaben gemacht, danach folgen Belege und Quellen. Auch typographische Merkmale gehören zur Mikrostruktur, wie Fettdruck, Kursivierungen oder verschiedene Schriftarten zur Kennzeichnung bestimmter Elemente, die dem Wörterbuchbenutzer als Navigationselemente dienen und ihn durch einen Artikel führen sollen. Die Mikrostruktur eines jeden Wörterbuchartikels kann jedoch wesentlich umfangreicher sein. Zur weiteren und tiefer gehenden Information empfiehlt sich hier unter anderem das Werk »Lexikologie und Lexikographie« von Schlaefer (2009), das Sie auch in der Bibliographie am Ende dieser Station finden.

Auch zur Auszeichnung der Mikrostruktur bietet die TEI einen Fundus an Tags, die hier ebenfalls wieder nur beispielhaft erläutert werden.

<!-- Mikrostruktur*: -->
<gramGrp>
  <gen><hi rend="italic"><choice>
     <abbr>f.</abbr>
     <expan>Femininum</expan>
   </choice></hi></gen>
</gramGrp>           
<sense level="1" n="1"><num><hi rend="bold">1</hi></num>
   <hi rend="italic">Eine essbare Knolle von der gleichnamigen Pflanze</hi>
      <cit>
         <bibl><date when="2015"><hi rend="sans-serif">2015</hi></date></bibl>
         <quote>Kartoffel dienen oft als Sättigungsbeilage zu Fleischgerichten.</quote>
      </cit>
</sense>                    
<sense level="2" n="2"><num><hi rend="bold">2</hi></num>
   <hi rend="italic">Eine Nutzpflanze mit weiß-bläulichen Blüten und grünen Beeren</hi>
      <cit>
         <bibl><date when="2015"><hi rend="sans-serif">2015</hi></date></bibl>
         <quote>Die Kartoffel ist eine Nutzplanze aus der Familie der Nachschattengewächse.</quote>
      </cit>
</sense>

<gramGrp></gramGrp> enthält grammatikalische Informationen. Hier die Information, dass das Lemma Kartoffel ein weibliches Genus (<gen></gen>) besitzt. Das Genus wird im Originaltext abgekürzt. Diese Abkürzung wird mit <abbr></abbr> markiert. In der digitalen Repräsentation kann die abgekürzte Form durch <expan></expan> aufgelöst werden. Das <abbr> und <expan> umschließende Tag <choice></choice> bedeutet, dass für die Online-Darstellung das Genus wahlweise in abgekürzter oder in ausgeschriebener Form realisiert werden kann. Mit <sense></sense> werden Informationen über die semantische Verwendung eines Lemmas geklammert (hier: Kartoffel als Nahrungsmittel bzw. als Nutzpflanze). Zitate oder Belege werden mit <cit></cit> geklammert. Das Tagpaar <bibl></bibl> umfasst die bibliographische Angabe des Zitats/ Belegs. Hier wurde z.B. nur das Datum genannt. <quote></quote> enthält ein Verwendungsbeispiel bzw. eine Belegstelle (hier: »Kartoffeln dienen oft als Sättigungsbeilage zu Fleischgerichten.« »Die Kartoffel ist eine Nutzpflanze aus der Familie der Nachschattengewächse.«).

 

Vor- und Nachteile

Die Vorteile einer in XML-kodierten, strukturierten Form eines digitalen Wörterbuchs sind für Burch und Gärtner (2001) folgende: Zum einen liegt das Wörterbuch nicht nur als einfacher Volltext vor, sondern ist in funktionale Blöcke eingeteilt, um die Struktur des Wörterbuchs wiederzugeben. XML ist plattformunabhängig verwendbar, standardisiert und dokumentiert, wodurch eine langfristige Datennutzung gewährleistet werden kann. Zudem kann ein mit XML kodiertes Dokument auf verschiedene Arten und Weisen publiziert werden und als Grundlage für Printausgaben, Ausgaben auf CD-ROM oder Online-Publikationen dienen. Nicht zuletzt ermöglicht ein in XML kodiertes Wörterbuch aber vor allem den Zugriff auf bestimmte Informationseinheiten, wie z.B. die »Suche nur in den markierten Belegen des Wörterbuches« (Burch/Gärtner 2001). Die TEI als Standard ermöglicht eine soft- und hardwareunabhängige, standardisierte und dokumentierte Kodierung, die von vielen genutzt wird und somit weit verbreitet ist. Die Standardisierung kann gewährleisten, dass die Daten langfristig nutzbar sind, wo doch das Thema Langzeitarchivierung gerade in der Welt der Digital Humanities viel diskutiert wird. Die Vorgaben, wie die TEI gebraucht werden soll, sorgen für eine einheitliche Verwendung. Zudem kann diese Verwendung individuell auf die Bedürfnisse angepasst werden, z.B. durch entsprechend zu wählende Tags für die Auszeichnung. Diese Erweiterbarkeit sorgt jedoch im Umkehrschluss auch wieder für eine Uneinheitlichkeit, wenn die Vorgaben individuell auf die Bedürfnisse angepasst werden können. Ein weiterer Nachteil bei der Verwendung von TEI ist, dass das Einarbeiten in dessen Verwendung durch die Komplexität und den Umfang der Richtlinien, die aus etwa 1000 Seiten bestehen, viel Zeit und Geduld erfordert. Zudem kann die TEI nicht für alle Arten von Texten bereits vorgefertigte Lösungen anbieten, weshalb in bestimmten Fällen eine manuelle Nachbearbeitung von Nöten ist. Ein genereller Kritikpunkt an einer Standardisierung ist, dass möglichen Innovationspotentialen von Anfang an keine Chance gegeben wird. Die vorgegebenen Regeln geben einen klar definierten Weg vor, der keine Abweichungen und auch keine neuen Ideen zulässt.

Akademie der Wissenschaften zu Göttingen, Arbeitsstelle Göttingen, Neubearbeitung Deutsches Wörterbuch von Jacob Grimm und Wilhelm Grimm, Übersicht Artikelaufbau, online: http://www.uni-goettingen.de/de/artikelbeispiel-pdf-download/132238.html [14.07.2015].

Apsel, Matthias, XML/ Regeln/ Baumstrukturen, in: <!selfhatml.wiki/>, online: http://wiki.selfhtml.org/wiki/XML/Regeln/Baumstruktur [14.07.2015].

Burch, Thomas; Fournier, Johannes, Zur Anwendung der TEI-Richtlinien bei der Retrodigitalisierung mittelhochdeutscher Wörterbücher, in: Chancen und Perspektiven computergestützter Lexikographie. Lexicographica, Series Maior, 107, 2001, hrsg. von Lemberg, Ingrid; Schröder, Bernhard; Storrer, Angelika, Tübingen 2001, S. 133-154.

Burch, Thomas; Gärtner, Kurt, Standards der Volltextdigitalisierung am Beispiel der Mittelhochdeutschen Wörterbücher auf CD-ROM und im Internet, online: http://www.muenchener-digitalisierungszentrum.de/content/veranstaltung/2000-11-28/burch.html [14.07.2015].

Kunze, Claudia; Lemnitzer, Lothar, Computerlexikographie. Eine Einführung, Tübingen 2007.

Quin, Liam, Extensible Markup Language, 2013-2015, http://www.w3.org/XML/ [09.07.2015].

Schlaefer, Michael, Lexikologie und Lexikographie. Eine Einführung am Beispiel deutscher Wörterbücher, Grundlagen der Germanistik, 40,  2. durchges. Aufl., Berlin 2009.

Text Encoding Initiative Consortium, TEI: Text Encoding Initiative, 2012, online: http://www.tei-c.org [15.07.15].

Text Encoding Initiative Consortium, TEI: Text Encoding Initiative, 2012, online: http://www.tei-c.org/Guidelines/P5/ [15.07.15].

Text Encoding Initiative Consortium, TEI: Text Encoding Initiative, 2012, online: http://www.tei-c.org/release/doc/tei-p5-doc/de/html/DI.html [28.08.2015].

Text Encoding Initiative Consortium, TEI P5: Guidelines for Electronic Text Encoding and Interchange, 2012, online: http://www.tei-c.org/release/doc/tei-p5-doc/en/Guidelines.pdf [15.07.15].

Wegner, Lutz, Einführung in XML. Skriptum zur gleichnamigen Vorlesung an der Universität Kassel. Kassel 2012.

Connolly, Dan, Overview of SGML Resources, 2013-2015, online: http://www.w3.org/MarkUp/SGML/ [15.07.15].

Institut für Dokumentologie und Editorik, XML: Kurzreferenz für Einsteiger, online: http://www.i-d-e.de/wp-content/uploads/2015/02/ide-xml-kurzreferenz.pdf [09.07.2015].

Kompetenzzentrum für elektronische Erschließungs- und Publikations­ver­fahren in den Geistes­wissenschaften Universität Trier, Auszeichnung in XML, 2015, online: http://dwb.uni-trier.de/de/die-digitale-version/standardisierte-auszeichnung/ [14.07.15].

Montero Pineda, Manuel, Gültige Dokumente = korrekte Dokumente?, online: http://www.data2type.de/Vortraege/Qualitaetssicherung/Qualitaetssicherung.pdf [09.07.2015].

Schneider-Lastin, Dr. Wolfram, International Tustep User Group, online: http://www.itug.de/ [15.07.15].

Universität Tübungen, Tübunger System von Textverarbeitungs-Programmen, TUSTEP, 2015, online:

Universitätsrechenzentrum der Universität Leipzig, Was ist TUSTEP und wofür kann man es benutzen?, online: http://www.tustep.uni-tuebingen.de/ [15.07.15].

W3 Schools, XML Tutorial, 2013-2015, online: http://www.w3schools.com/xml/ [09.07.15].