Station 1

Überblick:
Entstehung von Print- und Onlinewörterbüchern?

Digitale Wörterbücher können hinsichtlich ihres Datenbestandes in retrodigitalisierte und digital born-Wörterbücher unterschieden werden. Retrodigitalisierte Wörterbücher basieren auf Printwörterbüchern. Digital born-Wörterbücher sind dagegen schon von Beginn des lexikographischen Prozesses an als digitale Publikation geplant. Was aber bedeutet das für die Erstellung dieser Wörterbücher? Wie sehen die Arbeitsprozesse aus? In Printwörterbüchern gibt es einen klar gegliederten Arbeitsprozess, der in fünf Stufen erfolgt, wobei diese nacheinander durchlaufen werden:

(Autorin: Ursula Schultze, 30.09.2015)

In der Vorbereitungsphase wird das Wörterbuch konzipiert. Danach erfolgen die Materialbeschaffung und -aufbereitung. Nach der Auswertung des Materials werden Satz und Druck vorbereitet (Wiegand 1998: 692b ff.). Bei Printwörterbüchern werden Artikel und Belege in der Regel mit Hilfe von Zettelkästen gesammelt und erstellt. Auch wenn dies auf den ersten Blick ›altmodisch‹ anmuten mag, ist es noch immer gängige Praxis. Man könnte die Inhalte der Zettelkästen zwar digitalisieren, jedoch reicht hier nicht einfach ein Bilddigitalisat eines jeden Zettels aus, die Daten müssten digital so aufbereitet werden, dass sie weiter verarbeitet werden können. Dieser Arbeitsaufwand ist in laufenden und zum Teil Jahrzehnte dauernden Projekten schwierig zu realisieren.

    

Das nachfolgende Bild zeigt das Belegarchiv der Erstbearbeitung des Deutschen Wörterbuchs. In diesem Archiv sind in Kästen alle Buchstabenstrecken, deren Lemmata und Belege zusammen getragen worden. Insgeammt befinden sich in den Kästen über 4 Millionen Belegzettel für die gesamte Alphabetstrecke (vgl. Grötschel 2015).

In solchen Kästen werden die Belegzettel mit Zitaten z.B. aus Briefen, Urkunden oder Romanen für die Lemmata gesammelt. Dazu wird ein Zettel für jedes Lemma geschrieben und dahinter die Belegzettel einsortiert. Für die Belegsammlungen wurden über 4000 Quellen aus dem 15. bis 20. Jahrhundert zu Rate gezogen und exzerpiert (vgl. Grötschel 2015).

Belegkästen_DWB

Inhalt eines Belegkastens der Arbeitsstelle DWB Berlin-Brandenburg.

   

Bei digitalen Wörterbüchern gestaltet sich der Arbeitsprozess anders. Bei digital born-Wörterbüchern werden zwar die gleichen Phasen wie bei der traditionellen Wörterbuchherstellung durchlaufen, nur müssen diese nicht strikt nacheinander folgen, denn die Druckphase entfällt. Somit können Inhalte immer noch verändert werden, auch wenn sie schon online publiziert worden sind. Digital born-Wörterbücher werden, wie der Name schon vermuten lässt, digital erarbeitet. Dafür wird ein Redaktionssystem eingesetzt, welches alle Phasen der Wörterbucharbeit unterstützt. Darunter fallen die Erhebung und Lemmatisierung von Belegen zu einem Stichwort mithilfe von Korpora, die schrittweise Strukturierung, Bearbeitung und Kommentierung der Belege zu einem ausgearbeiteten Artikel sowie die Publikation eines Wörterbuchs und seiner Materialien in verschiedenen Medien. Der Einsatz von maschinenlesbaren Korpora zur Auswahl einzelner Lemmata und zugehörigen Belegen ermöglicht zudem das Vorhandensein und die Verwaltung eines digitalen Belegarchivs.

Für die Ausarbeitung der Artikel wird ein Editor verwendet. Dieser ermöglicht, dass Artikel strukturiert aufgebaut werden können. Er beinhaltet Funktionen zum Ordnen, Kommentieren und Bearbeiten von Belegen. Mit dem Editor ist zudem eine Verweisverwaltung möglich, die der Sicherung der Konsistenz von artikelinternen und artikelexternen Verweisen dient. Auch werden die Belege an die elektronischen Volltexte gebunden, sofern diese vorhanden sind. Weiterhin wird, wenn erforderlich, eine hierarchische Gliederung des Artikels mit automatischer Nummerierung von Gliederungspunkten vorgenommen. Man kann in bereits vorhandenen Artikeln suchen und durch die Anbindung an ein Satzprogramm einen Artikel gleich in Wörterbuchspalten setzen. Es gibt zudem oft eine Exportmöglichkeit zur HTML-basierten Darstellung der Artikel, das heißt, dass man den Artikel auch im World Wide Web darstellen kann. Ebenso liegt bei digital born-Wörterbüchern nicht nur ein digitales Belegarchiv, sondern in der Regel auch ein digitales Quellenverzeichnis vor.

   

Digital born- und hybride Wörterbücher

(Autorin: Ute Recker-Hamm, Ursula Schultze, 30.09.2015)

Ein digital born-Wörterbuch ist ein Wörterbuch, das in seinem Entstehungs- und Bearbeitungsprozess durch elektronische Verfahren unterstützt wird. Es wird gleich für ein oder mehrere elektronische Medien konzipiert, so zum Beispiel als Wörterbuch, das über das Internet abrufbar ist oder als Wörterbuch, das auf CD erhältlich ist und mit einer Online-Version verknüpft sein kann. Ein hybrides Wörterbuch dagegen existiert in Druckform und erhält zudem digitale Versionen, die es erweitern oder ergänzen.

Die Abgrenzung, ob ein Wörterbuch digital born oder hybrid ist, lässt sich nicht immer genau treffen. Es gibt Wörterbücher, für die beide Kategorien zutreffend sind: So zum Beispiel das Mittelhochdeutsche Wörterbuch (im Folgenden: MWB). Dieses Wörterbuch kann als digital born, hybrid und zum Teil retrodigitalisiert gelten, da es elektronische Verfahren nutzt, um die Arbeitsschritte der Lexikographen zu unterstützen und in einer gedruckten Fassung vorliegt. Es gibt auch eine Online-Version, die eine Ergänzung und Erweiterung der Printausgabe darstellt. Zudem liegt es auf CD vor. Die PDF-Fassung des Wörterbuchs in der CD-Fassung ist identisch mit dem Printwörterbuch, enthält aber zusätzliche interne Links und ist mit der Online-Ausgabe vernetzt.

Das MWB ist ein Sprachstadienwörterbuch des hochmittelalterlichen Deutsch im Zeitraum von 1050 bis 1350. Es umfasst den Wortschatz und den Wortgebrauch, der aus dem gesamten Spektrum der aus dieser Zeit überlieferten Texte extrahiert wird. Das MWB ist ein wissenschaftliches Wörterbuch und richtet sich an alle Forscher, die sich mit historischen Wissenschaften beschäftigen. So spricht das MWB eine Vielzahl von Forschern an, zum Beispiel Urkundenforscher, Germanisten, die sich mit historischer Literatur- und Sprachwissenschaft beschäftigen, Medizin- und Rechtsgeschichtler, aber auch Naturwissenschaftler, deren Forschung historisch orientiert ist.

»Das MWB [selbst] wird unter der Verantwortung und Trägerschaft der Akademie der Wissenschaften und der Literatur Mainz und der Akademie der Wissenschaften zu Göttingen in drei Arbeitsstellen an den Universitäten Trier und Mainz (Mainzer Akademie) und in Göttingen (Göttinger Akademie) ausgearbeitet. Parallel zur Druckausgabe wird von der Arbeitsstelle der Mainzer Akademie in Trier zusätzlich MWB Online bereitgestellt, eine Internetpublikation des Wörterbuchs, die auch die Stichwortliste, das elektronische Belegarchiv und die zugrundeliegende Textsammlung enthält und mit dem Verbund der retrodigitalisierten Vorgängerwörterbücher im Internet vernetzt ist« (Plate 2015: 1). Lesen Sie hier mehr über dieses Projekt.

Doch wie läuft der lexikographische Arbeitsprozess nun ab? Das MWB ist ein Sprachstadienwörterbuch und in erster Linie dient es wissenschaftlichen Zwecken; da der Gebrauch eines Wortes von Interesse ist, sind die Belege das zentrale Element der einzelnen Artikel. Aufgrund dessen wurde zu Beginn ein Textkorpus angelegt, in dem sich zahlreiche Volltexte der Zeitperiode befinden und das lemmatisiert wurde. Lemmatisierung bedeutet, dass die Flexionsform eines Wortes auf deren Grundform, das sogenannte Lemma, zurückgeführt wird, zum Beispiel ging wird auf gehen zurückgeführt. Neben diesem Belegarchiv wurde ein Redaktionssystem entwickelt, das die lexikographische Arbeit (Ordnen, Gliedern, Kommentieren, Auswählen usw.) erleichtert. Das Redaktionssystem nennt sich TAReS (Trierer ArtikelRedaktionsSystem). Es verfügt neben dem Artikeleditor über drei weitere Kernkomponenten: das Belegarchiv, das Quellenverzeichnis und die Artikelstrecke. TAReS wurde im Rahmen des von der Deutschen Forschungsgesellschaft geförderten Projekts »Internetbasiertes Artikelredaktionssystem für die Produktion und Publikation von Wörterbüchern in dezentralen Arbeitsstellen« von der Arbeitsstelle des Mittelhochdeutschen Wörterbuchs an der Universität Trier (Arbeitsstelle der Mainzer Akademie der Wissenschaft und Literatur) in Zusammenarbeit mit dem Kompetenzzentrums für elektronische Erschließungs- und Publikationsverfahren in den Geisteswissenschaften entwickelt.

 

Das Belegarchiv ermöglicht die Suche nach Belegen zu einem Stichwort. Die Ergebnisse werden als KWIC-Konkordanz (KWIC = Keywords in Context) angezeigt. Das bedeutet, dass eine geordnete Auflistung der Treffer erfolgt, wobei die Kontextwörter mit angezeigt werden.

Tares_Belegarchiv

Das TaReS Belegarchiv (Screenshot: Ursula Schultze, CC BY-SA 4.0).

Mit diesem Editor arbeiten die Lexikographen die Artikel aus. Auf der linken Seite sieht man eine erste Strukturierung des Artikels »abe_gewinnen«. Im weiß hinterlegten Feld befindet sich der eigentliche Arbeitsbereich. Die Artikel werden in XML ausgezeichnet.

Tares_Artikeleditor

Der TaReS Artikeleditor (Screenshot: Ursula Schultze, CC BY-SA 4.0).

 

Der lexikographische Arbeitsprozess gestaltet sich folgendermaßen: Zuerst werden bereits vorhandene Wörterbücher hinsichtlich ihrer Belege ausgewertet. Danach wird das Volltextarchiv herangezogen und analysiert. Im Anschluss werden die für das jeweilige Lemma in Frage kommenden Belege geordnet und gegliedert, woraus sich wiederum der endgültige Artikel ergibt. Dieses Ordnen und Gliedern kann nach syntaktischen oder semantischen Kriterien erfolgen.

 

MWB_sinnstark

Artikel »avê« aus dem MDWB (Screenshot: Ursula Schultze, CC BY-SA 4.0).

Das Bild zeigt einen Screenshot des Artikels »avê« aus der Online-Version des Mittehochdeutschen Wörterbuchs. Auf das Wörterbuch kann unter folgendem Link zugegriffen werden.

Hier soll gezeigt werden, wie ein Artikel aufgebaut werden kann.

Im Artikel »avê« (rot hinterlegt) wird unterschieden (grün unterstrichen), wie das Lemma in verschiedenen Sinnzusammenhängen verwendet wurde: Als formelhafte Anrede, als Gebet oder als Umkehrung des Namens Eva.

Suchen wir im MWB nach unserem ersten Beispiel Kartoffel, bekommen wir keine Ergebnisse, da das Wort Kartoffel sowie der Gegenstand selbst in der Zeit zwischen 1050 und 1350 noch gar nicht bekannt war. Ein Blick in das Belegarchiv des MWB zeigt, dass die vorhandenen Belege aus den Anfängen des 18. Jahrhunderts stammen, was die Etymologie des Wortes Kartoffel bestätigt, nämlich, dass es erst um das 18. Jahrhundert in der deutschen Sprache verwendet wurde. Schlägt man das Wort Kartoffel im Mittelhochdeutschen Handwörterbuch von Matthias Lexer nach, zeigt sich selbiges, wenn man die Quellen der Belege anschaut.

Retrodigitalisierte Wörterbücher

Als retrodigitalisiert werden Wörterbücher dann bezeichnet, wenn sie vor dem Digitalisierungsprozess gedruckt vorliegen. Durch die Digitalisierung solcher Wörterbücher sollte im Idealfall ein Zugriff auch online ermöglicht werden. Ziel dabei ist die Beibehaltung der im Druck enthaltenen Informationen und deren Anreicherung durch weitere Verlinkungen oder zum Beispiel mit zusätzlichen Belegstellen. Bei retrodigitalisierten Wörterbüchern entfallen die Arbeitsschritte der Belegsammlung und Artikelerstellung. Hier geht es vordergründig darum, dass das, was auf dem Papier steht, in maschinenlesbare Daten umgewandelt werden soll. Zuerst muss der Text in eine digitale Form überführt werden, dazu verwendet man Verfahren und Methoden der Volltextdigitalisierung. Dies kann entweder durch manuelles Abschreiben (Double Keying) und/oder mithilfe einer Software geschehen, die Schriften erkennen kann (Station 2). Danach werden die Fehler korrigiert, die bei der Erfassung der Daten entstanden sind. Im Anschluss werden die Wörterbuchdaten so aufbereitet, dass man sie auf einer Internetseite publizieren und dem Nutzer zur Verfügung stellen kann. Lesen Sie mehr zur Volltextdigitalisierung in Station 2.

Bank, Christina, Die Usability von Online-Wörterbüchern und elektronischen Sprachportalen, in: Information - Wissenschaft & Praxis (Bd. 63, Heft 6), 2012, S. 345 - 360.

Grötschel, Martin, Archiv des DWB - abgeschlossen, Archivbeschreibung, online: http://dwb.bbaw.de/arbeitsstelle/archiv [19.11.2015].

Klein, Wolfgang, Vom Wörterbuch zum Digitalen Lexikalischen System, in: Zeitschrift für Literaturwissenschaft und Linguistik Nr. 136/ 2004, S. 10-55.

Mittelhochdeutsches Wörterbuch. Band 1. a - êvrouwe. Im Auftrag der Akademie der Wissenschaften und der Literatur Mainz und der Akademie der Wissenschaften zu Göttingen hrsg. von Kurt Gärtner, Klaus Grubmüller und Karl Stackmann. Hirzel: 2013.

Plate, Ralf, Mittelhochdeutsches Wörterbuch (MWB), Projektbeschreibung, online: https://www.uni-trier.de/index.php?id=6910 [06.08.2015].

Wiegand, Herbert Ernst: Historische Lexikographie, in: Sprachgeschichte. Ein Handbuch zur Geschichte der deutschen Sprache und ihrer Erforschung (Handbücher zur Sprach- und Kommunikationswissenschaft 2.1), hrsg. v. Besch, Werner; Betten, Anne; Reichmann, Oskar; Sonderegger, Stefan, 2. vollst. neu bearb. und erw. Auflage, Berlin 1998, S. 643-715.

 

Gärtner, Kurt; Hildenbrandt, Vera, Digitization and Publication of the Goethe-Dictionary on the Internet, in: Digital Humanities 2007. The 19th Joint International Conference of the Association for Computers and the Humanities and the Association for Literary and Linguistic Computing, hrsg. v. The Association for Computers and the Humanities, The Association for Literary and Linguistik Computing, Illinois 2007, S. 70f.

Mann, Michael, Internet-Wörterbücher am Ende der »Nullerjahre«: Der Stand der Dinge, in: Lexicographica. Internationales Jahrbuch für Lexikographie, Jg. 26/ 2010, S. 19-46.

Mann, Michael, Review, in: Digitale Lexikographie. Ein- und mehrsprachige elektronische Wörterbücher mit Deutsch: aktuelle Entwicklungen und Analysen, hrsg. v. Mann, Michael (Germanistische Linguistik, 223/224), 2014, S. 1-8.

Mittelhochdeutsches Wörterbuch. Band 1. a - êvrouwe. Im Auftrag der Akademie der Wissenschaften und der Literatur Mainz und der Akademie der Wissenschaften zu Göttingen hrsg. von Kurt Gärtner, Klaus Grubmüller und Karl Stackmann, online: http://www.mhdwb-online.de/index.html [07.08.2015].

Plate, Ralf, Universität Trier. Mittelhochdeutsche Wörterbuch. Arbeitsstelle der Akademie der Wissenschaften und Literatur. Mainz, online: https://www.uni-trier.de/index.php?id=6910 [07.08.2015].

Queens, Frank; Recker-Hamm, Ute, DFG-gefördertes Projekt „Internetbasiertes Artikelredaktionssystem für die Produktion und Publikation von Wörterbüchern in dezentralen Arbeitsstellen“, online: http://www.mhdwb.uni-trier.de/TAReS/index.html [07.08.2015].

Schall, Natalia, Was können elektronische Wörterbücher leisten? Ein Evaluationsverfahren und seine Erprobung an englischen und deutschen einsprachigen Wörterbüchern auf CD-ROM, Nürnberg 2007.

Spree, Ulrike, Besonderheiten von Online-Wörterbüchern im Vergleich zu Printwörterbüchern, online: http://www.bui.haw-hamburg.de/pers/ulrike.spree/So02_onwbstruk.html [16.07.2015].

Storrer, Angelika, Digitale Wörterbücher als Hypertexte: Zur Nutzung des Hypertextkonzepts in der Lexikographie, in: Chancen und Perspektiven computergestützter Lexikographie: Hypertext, Internet und SGML/XML für die Produktion und Publikation digitaler Wörterbücher, hrsg. v. Lemberg, Ingrid; Schröder, Bernhard; Storrer, Angelika, Tübingen 2001, S. 87-104.

Storrer Angelika, Deutsche Internet-Wörterbücher: Ein Überblick, in: Lexicographica. Internationales Jahrbuch für Lexikographie. Jg. 27 (2010), S. 155-164.