Über die Vorteile einer wissensbasierten Suche

Eine mittlerweile viel zitierte Studie besagt, dass 80% unseres Wissens in unstrukturierten Daten vorliegt, also in Word-, PDF-, PowerPoint- oder anderen Dateien, die täglich massenhaft in Firmen entstehen. Eine mächtige Suchmaschine, die Daten aus dieser Masse wiederauffindbar macht, ist die Lösung in vielen Fällen, um so festgehaltenes Wissen nicht verloren gehen zu lassen.

Aktuelle Studien besagen, dass 80% unseres Wissens in unstrukturierten Daten vorliegt, also in Form von Word-, PDF-, PowerPoint- oder anderen Dateien, die täglich massenhaft in Unternehmen entstehen. Eine leistungsfähige Suchmaschine, die Daten aus dieser Masse wieder auffindbar macht, ist die Lösung in vielen Fällen, um so festgehaltenes Wissen nicht verloren gehen zu lassen.

Viele Suchmaschinen auf dem Markt bedienen sich verschiedenartiger Technologien, um den Suchenden in seiner Recherche zu unterstützen. Zu nennen ist hier beispielsweise eine linguistische Aufbereitung der Textdaten, um von den Varietäten der natürlichen Sprache (Flexionen, Kompositionen) abstrahieren zu können. Manche Suchmaschinen können Suchanfragen in andere Sprachen übersetzen (crosslinguale Suche), Synonyme in Betracht ziehen (zum Beispiel "Orange" = "Apfelsine") oder semantische Informationen erkennen und verwerten ("Max Müller" ist eine Person). Was ist nun aber, wenn diese Funktionalitäten nicht ausreichen, um die Suchbedürfnisse zu befriedigen?

Was ist, wenn man bereits über fachliches Wissen verfügen muss, um an die notwendige Information zu gelangen?

Hier kommt nun Wissen ins Spiel, welches in den Köpfen der Mitarbeiter von Unternehmen und Organisationen steckt, und welches für unternehmens- und fachfremde Suchende in der Regel nicht zugänglich ist. Wie kann man hier helfen, um eine Recherche zum Erfolg zu führen?

Betrachten wir zwei Beispiele, um die Vorteile einer wissensbasierten Suche zu verdeutlichen:

Produktsuche im Internet

Eines der vielen Anwendungsbeispiele einer wissensbasierten Suche ist die Recherche nach Kochrezepten und Lebensmitteln im Internet. Hat man etwa ein Gericht mit Fisch für den Abend geplant, so würde man bei der Suche nach „Fisch“ auf den einschlägigen Portalen von großen, namhaften Lebensmittelhändlern Rezepte und Produkte finden, die das Wort "Fisch" beinhalten (zum Beispiel „Mandel-Fisch mit Erbsen und Kartoffelpüree“).

Man findet jedoch weder das aktuelle Frischfischangebot „Schottischer Lachs“ noch das Tiefkühlprodukt „Seelachsfilet, tiefgefroren“. Der Grund hierfür ist einfach: Weder beinhaltet der Produktname das Wort „Fisch“ noch besitzt die Suchmaschine das Wissen, dass Lachs oder Seelachs Fischarten sind. Stellt man jedoch dieses Wissen zur Verfügung, so kann der Suchende schnell und einfach über das Produktportal auch alle Fischangebote des Händlers finden – ein klarer, monetär messbarer Benefit, wenn man die Suche mit Wissen verbindet.

Suchen in Unternehmen und Organisationen

Betrachten wir ein weiteres Anwendungsbeispiel, diesmal in einem agileren und komplexeren Umfeld, nämlich der Welt der Unternehmen und Organisationen. Nehmen wir an, dass der Suchende auf einer Messe von einem interessanten Produkt einer Firma gehört hat und nun die entsprechende Ansprechperson des Herstellers sucht. Über die Firmenseite findet er zwar Informationen über das Produkt, jedoch keine Kontaktdaten einer Ansprechperson. Anscheinend weiß die Suchmaschine nichts über den Zusammenhang zwischen Produkten und Mitarbeitern und auch nichts darüber, wem das Produkt im Unternehmen zugeordnet ist.

Die Darstellung des Zusammenhangs zwischen den einzelnen Abteilungen eines Unternehmens hilft hier weiter. Nun kann man aus dem Wissen, das der Suchmaschine zur Verfügung gestellt wird, schließen, dass der Produktverantwortliche für das Produkt Herr Müller aus der Abteilung XY ist, die zuständige Kontaktperson hingegen Herr Petersen aus dem Vertrieb. Der Interessent kann nun in Verbindung mit dieser Person treten und gleichzeitig alle relevanten Dokumente finden, die über das Produkt sowie verwandte und möglicherweise ebenfalls interessante Produkte zur Verfügung stehen – ein echter Vorteil also, wenn eine Firmen- und Produktstruktur nach außen hin implizit über eine Suchmaschine zugänglich gemacht wird.

Durch Wissensmodellierung zu semantischen Netzen

Aus diesen beiden Beispielen lässt sich sicherlich eine Vielzahl weiterer Anwendungsmöglichkeiten ableiten, bei denen die Kombination aus Wissen und Suche einen Vorteil für die Informationsgewinnung bringt. Dieses Wissen ergibt sich in der Regel nicht von selbst, sondern muss von Experten erstellt bzw. abgebildet werden. Dieser Vorgang nennt sich Wissensmodellierung, das Produkt hiervon ist ein sogenanntes semantisches Netz.

Was ist ein Wissensnetz, bzw. ein semantisches Netz?

Wissensnetze oder semantische Netze dienen der Abbildung von Beziehungen (Relationen) zwischen Objekten.

Im Vergleich zu Wissensnetzen, die oftmals manuell aufgebaut werden und über eine graphische Oberfläche Zugang zur Information bereitstellen, bietet IntraFind das iFinder Erweiterungsmodul Semantisch-Assoziative Suche, das auf statistischen Berechnungen beruht und eine assoziative Suche ermöglicht. Es ermittelt Begriffe, die häufig im Kontext des eingegebenen Suchbegriffes vorkommen und bietet dem Suchenden somit eine wichtige Hilfestellung.

Dank einfach zu bedienender Werkzeuge ist die Erstellung von semantischen Netzen ein simpler Vorgang. Mit dem Semantic Modeller der Firma IntraFind beispielsweise lassen sich Objekte grafisch einfach erstellen, mit Eigenschaften versehen und per Drag & Drop Verknüpfungen zwischen diesen Objekte herstellen. Es wird die Konsistenz bei der Modellierung überprüft und es wird protokolliert, welche Modellierungsschritte durchgeführt wurden. Mehrere Modellierer können gleichzeitig arbeiten, was den Semantic Modeller zu einem leistungsstarken, kollaborativen Werkzeug macht. Der Semantic Modeller ist in die Produktwelt von IntraFind integriert und lässt sich nahtlos mit der Suchmaschine iFinder kombinieren.

Die Frage stellt sich sofort: Hat man mit der Erstellung eines semantischen Netzes nicht einen unermesslichen Aufwand? Muss man denn alles von der Basis aus und manuell modellieren? Die Antwort lautet: Nein! Sicherlich kann ein qualitativ hochwertiges semantisches Netz nicht komplett automatisch erstellt werden, und es lebt gerade davon, dass es von Fachleuten kontrolliert erstellt wurde.

Es gibt jedoch Strategien, die das Modellieren unterstützen können:

In vielen Fällen liegt in einer Organisation oder in einem Unternehmen bereits strukturiertes Wissen vor, beispielsweise in Form von Excel-Tabellen, von LDAP-Servern für die Nutzerverwaltung oder von Organigrammen zur Abbildung der Unternehmensstruktur. Dieses Wissen lässt sich importieren und so zügig in einem semantischen Netz nutzbar machen.

Doch ist man damit vollständig? Hat man alle vorhandenen und relevanten Informationen erfasst? Wenn wir auf die eingangs erwähnte Aussage zurückgreifen, dass 80% des Wissens in unstrukturierter, textueller Form vorliegt, dann müssen wir diese Frage wohl verneinen. Glücklicherweise gibt es jedoch automatische Verfahren, mit denen man wichtige Begriffe und Konzepte aus Texten extrahieren kann (zum Beispiel Named Entity Recognition oder Verschlagwortung).

Der Tagging Service der Firma IntraFind ist eine solche Software, die aus unstrukturierten Unternehmensdaten Objekte (Personenamen, Firmennamen, Namen von Bauteilen und Produkten etc.) erkennt, extrahiert und beispielsweise für die Nutzung in einem semantischen Netz bereitstellt. So wird das manuelle Erstellen eines Wissensnetzes zu einem halbautomatischen Verfahren.

In Zukunft könnte es auch denkbar sein, zusätzlich Zusammenhänge zwischen Objekten aus Texten zu erkennen (beispielsweise dass es im Vertriebsteam einen neuen Mitarbeiter namens Thorsten Müller gibt) und ins semantische Netz zu übernehmen. Das Erstellen eines Wissensnetzes zur Unterstützung der Suche wird somit also fast zu einem Kinderspiel.

Die 80-20-Regel (auch Pareto-Prinzip) ist auch hier zu beobachten: 20% Aufwand durch die Installation und Konfiguration einer leistungsfähigen Suchmaschine führen in 80% der Suchanfragen zu einem erfolgreichen Ergebnis. Für die Erfüllung der restlichen 20% muss eine fachkundige Person verstanden und modelliert haben, worin nun tatsächlich die Zusammenhänge zwischen den Informationen bestehen. Dieser Aufwand lässt sich zwar über automatische Verfahren unterstützen, doch ist sicherlich manuelle Arbeit und Kontrolle notwendig, um die Erfolgsquote bei Suchen zu erhöhen.

Der Autor

Michael Poprat

Michael Poprat studierte Germanistik und Informatik an der Universität Freiburg im Breisgau. Er interessierte sich vor allem für die Schnittmenge der beiden Disziplinen, die Computerlinguistik. Die Verbindung von Sprache und Wissen hat es ihm angetan. Von 2013 bis 2016 arbeitete Michael als Projektmanager bei IntraFind und war maßgeblich für das Produkt Semantic Modeller verantwortlich.