
7 Tipps für Ihr KI-Projekt mit Enterprise Search & Chatbot
In diesem Blogbeitrag finden Sie praxisnahe Tipps, wie Sie Ihr KI-Projekt Schritt für Schritt erfolgreich umsetzen.
Seit fast 25 Jahren arbeite ich bei IntraFind und es war und ist immer noch das Abenteuer meines Lebens. Kurz nachdem Franz Kögl und Bernhard Messer das Unternehmen gründeten, lernte ich die beiden kennen. Am Anfang bestand die Firma nur aus Franz, Bernhard, Andreas und mir. Andreas – heute technischer Leiter unseres Professional Services-Teams – war damals noch Praktikant, während Bernhard und ich uns auf Beratungsprojekte für verschiedene Unternehmen konzentrierten. Ich bin mir ziemlich sicher, dass der Name IntraFind sowie der Name unseres Flaggschiffprodukts iFinder vollständig von Franz stammen – und das lange bevor das iPhone das Präfix „i-“ berühmt machte. Diese Tradition der Namensgebung setzt sich heute mit Produkten wie iAssistant und iHub fort.
Von Anfang an lag der Schwerpunkt des Unternehmens auf Enterprise Search – rückblickend eine wirklich visionäre Entscheidung. Während Google die Welt mit der Internetsuche vertraut machte, stellten wir Unternehmen leistungsstarke Tools zur Suche nach ihren internen Inhalten zur Verfügung. Die Kernaufgabe des iFinder war schon immer die Steigerung der Mitarbeiterproduktivität.
Eine weitere brillante Entscheidung – diesmal von Bernhard – war es, unsere Produkte auf der Open-Source-Library Lucene (und später Elasticsearch / OpenSearch) aufzubauen. Das bedeutete, dass wir unsere eigene Suchtechnologie nicht von Grund auf neu entwickeln mussten, sondern auf der Stärke einer aktiven Community aufbauen konnten. Sowohl Bernhard als auch ich wurden Lucene-Committer, was nicht nur ein Privileg war, sondern auch viel Spaß machte. In diesen Jahren stand ich in engem Kontakt mit Doug Cutting, dem Schöpfer von Lucene und Hadoop. Was die Einführung von Open-Source-Software angeht, waren wir echte Pioniere – zumindest in Deutschland. Zu dieser Zeit standen viele große deutsche Unternehmen Open Source noch skeptisch gegenüber. Tatsächlich haben wir in den Anfangsjahren nicht aktiv damit geworben, dass unsere Produkte auf Lucene und Open-Source-Grundlagen basierten.
Ich habe in KI promoviert und sehe mich gerne als Pionier des Deep Learning – vielleicht war ich meiner Zeit einfach ein bisschen voraus. Von Anfang an war es meine Aufgabe bei IntraFind, KI einzusetzen, um die Qualität der Suche zu verbessern. Die frühen 2000er Jahre fielen jedoch in den sogenannten „KI-Winter“ (nicht der erste und vielleicht auch nicht der letzte). Damals war es fast tabu, KI überhaupt zu erwähnen. In Deutschland gab es außerhalb der öffentlich finanzierten universitären Forschung kaum Möglichkeiten, im Bereich KI zu arbeiten. Nur sehr wenige meiner Doktoranden-Kollegen schafften es, eine Karriere in der KI aufzubauen. Die meisten landeten in wenig inspirierenden Positionen in der Industrie, während einige wenige Glückliche, wie Sepp Hochreiter, zu renommierten Professoren wurden.
Als ich die erste Version unseres Topic Finders für die Textklassifizierung entwickelte, galten neuronale Netze noch nicht als zuverlässig genug für den produktiven Einsatz. Um Kunden nicht abzuschrecken, bezeichneten wir unsere Arbeit als „Optimierungsmethoden” oder „Support-Vektor-Maschinen (SVMs)” und nicht als neuronale Netze. Streng genommen ist eine SVM im einfachsten Fall identisch mit einem neuronalen Netzwerk – es war also nicht falsch. Selbst in diesen für die KI schwierigen Zeiten investierte IntraFind weiter in die Technologie und implementierte erfolgreich KI-gesteuerte Lösungen. In diesem Sinne waren wir echte KI-Pioniere in der deutschen Industrie.
In den letzten 25 Jahren haben wir unzählige technologische Veränderungen erlebt – viele davon wurden von großen Hypes angetrieben. Manchmal schienen diese Trends sogar unser Geschäftsmodell zu bedrohen: Wenn Kunden den Hype-Technologien hinterherjagten, blieb natürlich weniger Budget für unsere Produkte übrig.
Eines der auffälligsten Beispiele war der Aufstieg von Big Data und NoSQL-Datenbanken. Jahrzehntelang waren SQL-Datenbanken der unangefochtene Standard gewesen. Dann wandten sich plötzlich alle NoSQL zu - voller großer Versprechungen und noch größerer Erwartungen. Aber: Suchmaschinen waren die ersten NoSQL-Datenbanken. Sie hatten schon immer neben SQL-Systemen existiert und waren von Anfang an für die Verarbeitung von „Big Data“ ausgelegt. In diesem Sinne war IntraFind bereits ein NoSQL-Pionier – lange bevor der Hype überhaupt begann.
Ich erinnere mich noch lebhaft an eine lustige Episode aus der Hochphase des Big-Data-Hypes. Damals investierten große Unternehmen viel Geld in riesige Hadoop-Cluster. Alle redeten über MapReduce – und suchten dann verzweifelt nach konkreten Anwendungsfällen. Ein Forschungsteam eines großen Unternehmens präsentierte stolz seine Errungenschaft: Es verfügte über rund 700.000 Dokumente – eine Datenbank mit Supportfällen, was ein klassischer Anwendungsfall für IntraFind ist. Mit seinem riesigen Hadoop-Cluster und MapReduce gelang es dem Team, die Ähnlichkeit zwischen allen Dokumenten in wenigen Stunden vorab zu berechnen. Wir zeigten ihnen dann den iFinder, der auf einer veralteten Hardware lief. Er konnte sofort die ähnlichsten Supportfälle für einen bestimmten Fall liefern – in weniger als einer Sekunde. Und das war genau der Anwendungsfall, den sie brauchten, und nicht die Vorabberechnung jeder möglichen Ähnlichkeit. Es war ein perfektes Beispiel für das Sprichwort: "Wenn man nur einen Hammer hat, sieht alles wie ein Nagel aus."
Weitere Beispiele für solche Hypes sind Blockchain und agile Softwareentwicklung (wie Scrum) als Organisationsmodell. Bei IntraFind haben wir nie den traditionellen Wasserfallansatz verfolgt, sondern von Anfang an agil gearbeitet – hauptsächlich geleitet vom gesunden Menschenverstand. Eine Zeit lang haben wir Scrum streng „nach Vorschrift“ angewendet, aber im Laufe der Zeit haben wir Elemente von Kanban übernommen, einen Großteil von Scrum fallen gelassen und eine Arbeitsweise gefunden, die wirklich unseren Bedürfnissen entspricht.
Im Bereich der KI war das Semantic Web eine Herausforderung, die mich viele Jahre lang beschäftigte. Da ich eher ein Fan von neuronalen Netzen bin, konnte ich mich nie ganz dafür begeistern. Ehrlich gesagt waren alle Semantic-Web-Projekte, an denen ich beteiligt war – meist Forschungsinitiativen –, völlige Fehlschläge. Ontologien und Wissensgraphen konnten nur kleine Demo-Fälle bewältigen; es war einfach unmöglich, das erforderliche Wissen manuell aufzubauen. Mit den jüngsten Fortschritten in der generativen KI hat sich die Situation jedoch dramatisch verändert. Das allgemeine Wissen, das das Semantic Web versprochen hat, ist nun über die APIs von Tools wie Perplexity und ChatGPT zugänglich – wir müssen es nur noch nutzen.
Die Veröffentlichung von ChatGPT durch OpenAI im Dezember 2022 markierte einen wichtigen Durchbruch. Generative Sprachmodelle gab es zwar schon seit einiger Zeit, aber Fortschritte wie Instruction Tuning und Reinforcement Learning machten sie wirklich praktisch einsetzbar. ChatGPT führt nicht nur Gespräche, sondern kann auch eine Vielzahl von Fragen beantworten, indem es auf umfangreiches Allgemeinwissen aus seinen Trainingsdaten zurückgreift. Ich sehe dies nicht nur als einen weiteren Tech-Hype. Generative Modelle öffnen die Tür zu KI-Anwendungen, die noch vor wenigen Jahren unerreichbar schienen. Allerdings gibt es auch Aspekte, die mit einem Hype einhergehen – die Erwartungen sind extrem hoch, sodass eine gewisse Enttäuschung unvermeidlich ist. Dennoch rechne ich nicht mit einem weiteren KI-Winter, zumindest nicht in naher Zukunft.
In den letzten 25 Jahren haben unsere Produkte drei große technologische Veränderungen durchlaufen. Der erste iFinder basierte direkt auf der Lucene-Bibliothek und bestand im Wesentlichen aus einer Reihe von Java-Anwendungen. Wir implementierten zwar eine Form der verteilten Suche, diese konnte jedoch nur moderate Datensätze von bis zu etwa 50 Millionen Dokumenten verarbeiten.
Die Landschaft veränderte sich mit dem Aufkommen von Open-Source-Lösungen für horizontal skalierbare verteilte Suche: Solr im Jahr 2006 und Elasticsearch im Jahr 2010, beide basierend auf Lucene. Die Suchtechnologie wurde immens populär, die Lucene-Community wuchs erheblich und der Wettbewerb nahm zu. Wir passten uns an und gingen gestärkt daraus hervor, indem wir unsere Produkte auf Elasticsearch (jetzt OpenSearch) neu implementierten. Bis 2012 waren wir in der Lage, Terabytes an Daten zu verarbeiten, was uns ermöglichte, umfangreiche Enterprise-Search-Projekte für einige der größten Unternehmen Deutschlands durchzuführen.
Wir sind nun in der dritten Generation unserer Produkte. Angesichts der jüngsten Durchbrüche im Bereich der KI (generative Modelle von OpenAI und mittlerweile auch aus Europa und China) dachten viele, dass generative Modelle Suchmaschinen vollständig ersetzen könnten. In Wirklichkeit ergänzen sie sich jedoch perfekt. Suchmaschinen liefern sachliche, aktuelle Informationen, während generative Modelle auf der Grundlage dieses Wissens Antworten formulieren können – eine Kombination, die als Retrieval-Augmented Generation (RAG) bekannt ist. Wir haben diesen Ansatz über eine RAG-Komponente namens iAssistant in den iFinder integriert. Reasoning-Modelle (Agentic AI), die selbst entscheiden, welche Anfragen für eine bestimmte Benutzeranforderung an welche Suchmaschine oder welchen Dienst gesendet werden, sind ein Thema, an dem wir derzeit arbeiten.
Unser iHub erweitert diese Funktionen um Anwendungen wie Textgenerierung, Übersetzung, Zusammenfassung und Dateianalyse, die alle über benutzerfreundliche Mikro-Apps in einer sicheren, datenschutzkonformen Umgebung ausgeführt werden. Darüber hinaus könnte durch die Nutzung von Modellen (oder sogar APIs, z. B. von OpenAI oder Perplexity mit Suchmaschinenzugriff auf allgemeines Weltwissen) als Wissensdatenbanken die langjährige Vision des semantischen Webs endlich verwirklicht werden.
Diese neuen Funktionen werden IntraFind einen weiteren Wachstumsschub verleihen und spannende Möglichkeiten eröffnen. Schließlich sind wir neben der Bereitstellung zuverlässiger Enterprise-Search-Software von Anfang an ein KI-Unternehmen gewesen.
Der Blogbeitrag wurde im Original auf Englisch verfasst.