14.02.2024 | Blog Einfaches Recherchieren im Digitalen Lesesaal
Der Digitale Lesesaal des Bundesarchivs wurde kürzlich in seiner ersten Ausbaustufe live geschaltet. Dieser Meilenstein bietet die perfekte Gelegenheit, um über die Nutzung von Suchmaschinentechnologie im Kontext von Archivgut nachzudenken. Als Historiker liegt mir dieses Projekt des Bundesarchivs besonders am Herzen, und es freut mich zu sehen, dass die Nutzerzahlen kontinuierlich steigen.
Was genau ist ein Digitaler Lesesaal?
Im Allgemeinen umfasst der Digitale Lesesaal die Bereitstellung frei zugänglicher sogenannter Digitalisate von Archivgut im Internet oder die Vorlage von Archivalien in digitaler Form für eine bestimmte Nutzerin oder einen bestimmten Nutzer im Archivgebäude. Kurz gesagt, es geht um die Bereitstellung einer webbasierten Recherchemöglichkeit im Archiv.
Die Recherche in historischen Daten ist komplex
Die Recherche in historischen Daten kann äußerst komplex sein und erfordert mehr als nur eine reine Volltextsuche. Schließlich handelt es sich hier um äußerst heterogene Datenbestände wie Akten, Karten, Bilder, Plakate, Filme und Tonaufzeichnungen. Das Bundesarchiv war sich dieser Herausforderung bewusst und wählte die Suchtechnologie nach Vergleichstests entsprechend aus. Wirklich entscheidend waren die 25 Prozent mehr relevante Treffer in der Trefferliste der Suchsoftware iFinder im Vergleich zum aktuellen System.
Was macht den Suchprozess so anspruchsvoll?
Die deutsche Sprache ist linguistisch gesehen deutlich komplexer als Englisch. Suchmaschinen bauen in der Regel einen Volltextindex auf und setzen sogenannte Stemmer ein, um Plural- und Singular-Formen besser zu finden. Dieses Verfahren hilft jedoch nicht immer, insbesondere bei unregelmäßigen Flektierungen und der Verwendung von Mehrwortbegriffen. Hier werden zusätzliche linguistische Verfahren notwendig, wie Lemmatisierung und Kompositazerlegungen und zudem kommen erweiterte Lexika oder sogenannte KI-basierte Word Embeddings ins Spiel, um semantische Ähnlichkeiten abzubilden.
Der iFinder findet passende Treffer, ohne dass sich der Suchende Gedanken um historische Bedeutungen spezifischer Begrifflichkeiten machen muss. So ermöglicht es die linguistische Vorverarbeitung beispielsweise bei der Suche nach den „Pariser Verträgen“ auch die Wochenschauberichte aus der Zeit des Nationalsozialismus zu finden, in denen die Nazipropaganda von den „Pariser Schandverträgen“ oder den „Pariser Kriegsverträgen“ spricht.
Benutzerfreundlichkeit ist das A&O – insbesondere bei komplexen Daten
Die richtige Strategie beim Aufbau des Suchindex und zum Zeitpunkt der Suchanfrage ist also entscheidend für eine gute Trefferliste. Treffer sollten vollständig und nachvollziehbar sein, ohne dass die Trefferliste zu unscharf wird. All diese Fähigkeiten bringt der iFinder bereits mit: Es ist ein komplettes Produkt mit einem funktional vollständigen Frontend, das barrierefrei und responsiv ist.
Denn die Darstellung oder User Experience ist ein weiterer entscheidender Punkt des Digitalen Lesesaals. Nur wenn ich etwas gerne benutze, werde ich es wieder verwenden. Was so einfach klingt, wird dann anspruchsvoll, wenn die Datenbestände so groß, komplex und extrem heterogen sind wie Daten zu Archivgut.
Heterogene Datenbestände? Intelligente Suche in Metadaten liefert passende Treffer
Eine historische Akte besitzt beispielsweise völlig andere Metadaten als ein historisches Filmplakat. Trotzdem möchte ich bei einer Recherche zu „Fritz Lang“, dem Regisseur des legendären Films „Metropolis“, sowohl Briefe und andere Korrespondenz, Akten, Filmplakate, seine Filme als auch Fotos in einer Trefferliste, an einer Stelle zusammengefasst finden.
Verwende ich zur weiteren Eingrenzung der Treffer dann einen Suchfilter wie „Datum“, wird es schon schwierig. Welches Datum soll denn in den unterschiedlichen Archivguttypen überhaupt zur Anwendung kommen? Was mache ich, wenn ich kein Datum, sondern - wie bei Filmwerken oft der Fall - Zeiträume habe? Ohne eine intelligente Filterebene ist die Nutzung des Digitalen Lesesaals nicht zielführend. Zum Einsatz kommt beispielweise bei der erweiterten Suche ein von mir immer wieder gerne empfohlener Baustein des iFinder, die sogenannten „Wissenslandkarten“. Mittels Suchen in den vielen unterschiedlichen Metadaten können Nutzer sehr gezielt durch den Datenbestand navigieren.
Wenn man heute eine KI wie Perplexity oder ChatGPT fragt, was bei der Umsetzung eines Digitalen Lesesaal-Projekts zu beachten ist, erhält man umgehend die Antwort:
"Zugänglichkeit und Benutzererfahrung: Der Digitale Lesesaal sollte benutzerfreundlich gestaltet sein, um einen einfachen und intuitiven Zugang zu den digitalen Inhalten zu ermöglichen. Dies beinhaltet Aspekte wie Suchfunktionen, Navigation und die Präsentation der digitalen Materialien."
Es geht beim Digitalen Lesesaal also auch um die Zentralisierung des Wissens eines Archivs mit besonderem Fokus auf die Präsentation von Digitalisaten. Im Falle des Bundarchivs handelt es sich dabei um sehr viele Informationen, die zudem sehr komplexen Berechtigungen unterliegen, die alle im Bundesarchivgesetz (BArchG) definiert sind.
Mit dem Livegang der ersten Stufe des Digitalen Lesesaals des Bundesarchivs ist mein absolutes Herzensprojekt erfolgreich umgesetzt worden. Ich freue mich auf die anspruchsvollen Aufgaben der nächsten Ausbaustufen mit der Integration weiterer Archivguttypen, die wir in Zusammenarbeit mit dem Bundesarchiv umsetzen dürfen.
Fazit
Insgesamt zeigt sich, dass die Nutzung von Suchmaschinentechnologie im Kontext von Archivgut eine komplexe Herausforderung darstellt, die jedoch mit der richtigen Strategie und Technologie gemeistert werden kann. Der Digitale Lesesaal des Bundesarchivs ist ein wichtiger Schritt in diese Richtung und wird sicherlich dazu beitragen, historische Daten für Forscher und Interessierte zugänglicher zu machen.
Probieren Sie den neuen Digitalen Lesesaal gerne einfach einmal selbst aus.
https://digitaler-lesesaal.bundesarchiv.de
Achten Sie auf die hier angebotenen Digitalisate historischer Filmwerke, die Sie ganz einfach über den Filter auf der linken Seite anwählen können.
Ein Blick in die Zukunft - vom Digitalen Lesesaal zum Virtuellen Lesesaal
Unser gesammeltes Wissen um die speziellen Anforderungen von Archiven bringen wir gern in weitere Projekte ein. Extrem spannend ist für mich auch die begonnene Kooperation zwischen dem Labor für Bildungsmedien der Bundeswehr Universität München und IntraFind, bei der wir die Idee des Digitalen Lesesaals weiterentwickeln und uns gemeinsam darüber Gedanken machen, wie wohl ein Virtueller Lesesaal mittels Virtual Reality (VR)-Technologie aussehen wird.