Station 2

Bildbasierte Bildsuche

(Autor: Nicolas Schenk, 06.05.2016)

Die bildbasierte Bildsuche ermöglicht es, visuelle Merkmale in den Bildern bei der Ermittlung heranzuziehen. Dieses Gebiet wird Content-Based Image Retrieval (CBIR) genannt, bei dem mithilfe automatischer Bildverarbeitung die Merkmale eines Bildes analysiert werden (Wang 2001: 3). Voraussetzung für diese Art von Ermittlung ist, dass die visuellen Informationen der in der Datenbank hinterlegten Bilder analysiert und aufbereitet wurden, sodass diese sich mit anderen Bildern vergleichen lassen. Hier gibt es vier verschiedene Möglichkeiten, die Suchanfrage zu formulieren. Im ersten Fall lädt der Nutzer ein Bild in einem dafür vorgesehenen Suchportal hoch und der Computer durchsucht die Datenbank nach Bildern, die dem ausgewählten Bild ähnlich sind (Volmer 2007: 29). Für eine solche Bildähnlichkeitssuche bildet nicht die hinter den Bildern liegende Semantik die Basis; vielmehr werden Algorithmen angewendet, welche die Formen zweier Bilder miteinander vergleichen (Kohle 2013: 55). Ein Ansatz zur Ermittlung solcher Ähnlichkeiten ist der Einsatz von Farbhistogrammen.

Nicht immer hat der Nutzer einer solchen Suchmaske ein geeignetes Musterbild zur Hand. In dem Fall gibt es das theoretische Modell, eine Skizze zu malen, in der der Benutzer beispielsweise die Farbverteilung durch seine Zeichnung grob darstellen kann. Wie gut dieses System funktioniert, hängt letztendlich davon ab, wie künstlerisch begabt der Nutzer ist und inwieweit er seine Vorstellung des Gesuchten durch seine Skizze ausdrücken kann (Volmer 2007: 30). Des Weiteren spielt es eine Rolle, welche Möglichkeiten die grafische Benutzeroberfläche dem Zeichnenden bietet, in welchem Ausmaß er folglich seine Skizze anlegen kann.

Das dritte Modell ist die ikonographische Anfrage. Hier verwendet der Nutzer ikonische Zeichen, die in ihrem Aussehen eine Ähnlichkeit zu dem besitzen, was sie ausdrücken. Stephan Volmer vergleicht diese Suchanfrage mit einem »Fragesatz in einer visuellen Sprache« (2007: 30). Das Pfeilzeichen drückt beispielsweise explizit eine Richtung aus und ist möglicherweise für eine Richtungsangabe in der Anfrage geeignet. Das Projekt Welscher Gast digital  stellt eine umfassende digitale Text-Bild-Ausgabe zum Welchen Gast, einer Handschrift aus dem 13. Jahrhundert her. Die Handschrift beinhaltet auch Abbildungen, bei denen in vielen Fällen feste Motive erkennbar sind. Fährt man mit der Maus über eine Abbildung, werden die typischen Darstellungsmerkmale des Motivs farblich hervorgehoben und den Merkmalen aus weiteren Abbildungen des Welchen Gastes gegenübergestellt. Dabei erkennt man große Ähnlichkeiten bei der Darstellung eines Motivs in verschiedenen Abbildungen.

Das letzte Modell richtet sich an Experten, denn der Nutzer muss die von ihm gesuchten Merkmale – beispielsweise die Grauwerte von Bildern – explizit in einer Suchmaske angeben. Dazu muss eine graphische Benutzerschnittstelle zur Verfügung stehen, in welche der Nutzer diese Merkmale eintragen kann (Volmer 2007: 30). Hier spielt auch das Digitalisat, der Digitalisierungsprozess und die Frage nach der Verlässlichkeit der Farbwerte der digitalen Reproduktion eine wichtige Rolle.

Die bisher vorgestellten Möglichkeiten werden angewandt, wenn man nach Bildern sucht, die bestimmte Kriterien erfüllen sollen. Sie sind weniger geeignet, wenn man ein ganz bestimmtes Bild finden möchte. Welche Möglichkeiten es hierfür gibt, wird im nächsten Kapitel aufgezeigt.

Textbasierte Bildsuche

Die auf Texteingabe basierte Recherche stellt eine weitere Möglichkeit für die Nachforschung von digitalen Bildern dar. Damit ein Bild nach Kriterien wie Maler, Titel des Bildes, Entstehungsort und -zeit gefunden werden kann, müssen bei jedem digitalisierten Bild Metadaten vorhanden sein, die ebendiese Informationen speichern (Kohle 2013: 23). Dabei ist es sinnvoll, dass möglichst viele als Metadaten erhobene Informationen vorhanden sind. Wenn ein Nutzer beispielsweise nur noch die Epoche kennt, in der das gesuchte Bild gemalt wurde, jedoch sonst keine Informationen darüber besitzt und es keine Metadaten über die Epochen in der Datenbank gibt, dann wird der Nutzer das gesuchte Bild nicht angezeigt bekommen, obwohl es möglicherweise in der Datenbank vorliegt (Kohle 2013: 16). Kohle hat einen natürlichsprachigen Text mit den vier eben genannten Kriterien zu vier verschiedenen Bildern wie folgt formuliert:

Die von Vincent van Gogh gemalten Sonnenblumen sind 1888 entstanden und werden heute in der Münchener Neuen Pinakothek aufbewahrt, Jacques Louis Davids Schwur der Horatier ist mehr als ein Jahrhundert älter, 1784 zu datieren und befindet sich im Pariser Louvre, Adolph Menzel hat die Piazza delle erbe in Verona 1884 gemalt, das Bild befindet sich heute in Dresdens Staatlichen Kunstsammlungen (Galerie Neue Meister) und Arnold Böcklins Pan im Schilf wurde 1859 produziert und hängt heute ebenfalls in der Münchener Neuen Pinakothek. (Kohle 2013: 24)

Selbst bei einer solchen für den Menschen sehr gut verständlichen Beschreibung der Bilder kann das Datenbanksystem nicht ohne Weiteres die Informationen den Bildern passend zuordnen, weil die semantische Abgrenzung nicht explizit codiert ist. Es könnte zum Beispiel den Schwur der Horatier aufgrund der Nähe im Text mit der Neuen Pinakothek verbinden und diese Informationen zusammen abspeichern, obwohl das Bild nicht in der Neuen Pinakothek, sondern im Louvre hängt (Kohle 2013: 24). Die Verwaltung der zu den Bildern gehörenden Informationen in ausformulierten Texten ist also nicht zielführend, da das System dazu die Grammatikregeln der jeweiligen Sprache kennen müsste.

Eine andere Möglichkeit bietet die Beschreibung der Bildinhalte durch Schlagwörter. Der Vorteil gegenüber einem ausformulierten Text ist, dass bei Schlagwörtern nicht auf Syntax geachtet werden muss (Volmer 2007: 19). Ein Problem stellt die potenziell unendliche Größe des Vokabulars dar, das für die Verschlagwortung bereitsteht. Das macht es für den Suchenden schwer, mit genau den Schlagwörtern zu suchen, welche der Experte vergeben hat. Eine Standardisierung der Schlagworte ist sinnvoll, um Normierung und intersubjektive Verständigung zu forcieren. Deshalb besitzen manche Datenbanken Schlagwortkataloge, aus denen der Experte schöpfen kann und die das Vokabular deutlich eingrenzen (Volmer 2007: 19). Dazu wird der Schlagwortkatalog mit Wörtern versehen, die zum Themengebiet der Bilddatenbank passen. Der Experte, der die Schlagwörter vergibt und der Suchende bedienen sich also aus dem gleichen, im Vorhinein festgelegten Vokabular. Dieses Vorgehen hat allerdings auch einen leicht ersichtlichen Nachteil, nämlich den, dass ein Schlagwortkatalog natürlich auch einschränkt und eventuell Wörter, die optimal zur Beschreibung des Bildinhalts passen würden, nicht vergeben werden können, da sie nicht im Katalog enthalten sind (Volmer 2007: 19).

Die Verschlagwortung ist zeit- und kostenaufwendig. Bei der Menge an Bildern, die mittlerweile in Bilddatenbanken Platz findet, lässt sich leicht antizipieren, wie aufwendig eine Verschlagwortung eines jeden Bildes durch Experten ist (Raghavan 2003: 68). In der nächsten Station wird ein genereller Lösungsansatz für solch aufwendige Arbeitsschritte vorgestellt, bevor in der darauffolgenden Station eine Möglichkeit aufgezeigt wird, wie die Verschlagwortung in einem konkreten Fall gelöst wird.

Kohle, Hubertus, Digitale Bildwissenschaft, Glückstadt 2013. Auch online verfügbar: urn:nbn:de:bsz:16-artdok-21857.

Raghavan, Manmatha, Bildsuche – Image Retrieval, in: Suchbilder. Visuelle Kulturen zwischen Algorithmen und Archiven. hrsg. v. Ernst, Wolfgang; Heidenreich Stefan; Holl, Ute, Berlin 2003.

Volmer, Stephan, Inhaltsbasierte Bildsuche mittels visueller Merkmale: eine Alternative zur Erschließung digitaler Bildinformationen, Saarbrücken 2007.

Wang, James Z., Integrated region based image retrieval, Boston 2001.

Eine computerbasierte Ermittlung und Analyse von mittelalterlichen Gesten nimmt das Heidelberg Collaboratory for Image Processing (HCI) vor (http://hciweb.iwr.uni-heidelberg.de/compvis/research/gestures/).

Für eine Einführung in die Ikonographie: http://www.uni-kassel.de/~whansman/Texte/Panofsky.htm

Iconclass (http://www.iconclass.org/) ist ein Klassifizierungskonzept zur Erfassung und inhaltlichen Erschließung von Bildinhalten und wurde für die wissenschaftliche Arbeit in den Bereichen Kunstgeschichte und Ikonographie entwickelt.