Die wichtigsten Begriffe rund ums Thema Enterprise Search und KI

Was sind Agenten (oder KI-Agenten)?

Autonome Softwareprogramme, die in der Lage sind, komplexe Aufgaben selbstständig zu planen, auszuführen und zu überwachen. In Enterprise Search können KI-Agenten zum Beispiel Informationen proaktiv sammeln, Anfragen interpretieren, die Suche optimieren oder proaktive Empfehlungen geben. Der Begriff Agentic beschreibt Systeme oder Architekturen, die auf der Koordination mehrerer solcher Agenten basieren.

Was ist ein Algorithmus?

Klar definierte Formel, welche die Reihenfolge der Treffer innerhalb der Trefferliste festlegt.

Was ist ein Crawler?

Eine Software-Komponente, die Inhalte aus angebundenen Datenquellen automatisiert sammelt, dabei relevante Metadaten und (falls vorhanden) Berechtigungen erfasst und diese Daten für die anschließende Indexierung bereitstellt.

Was sind Embeddings?

Numerische Darstellungen von Texten, Wörtern oder anderen Daten, die deren semantische Bedeutung erfassen. Sie ermöglichen es KI-Modellen, Beziehungen zwischen Datenpunkten zu verstehen und Ähnlichkeitssuchen durchzuführen.

Was ist Enrichment?

Der Prozess der Aufwertung oder Anreicherung von Daten und Dokumenten durch das Hinzufügen zusätzlicher Informationen oder Metadaten. Dies kann die automatische Klassifizierung, Extraktion von Entitäten (Personen, Orte) oder die Verknüpfung mit externen Daten umfassen, um die Suchqualität zu verbessern.

Was ist Enterprise Search?

Eine Technologie, die es Unternehmen ermöglicht, interne und gegebenenfalls externe Daten aus heterogenen Quellen umfassend durchsuchbar zu machen. Ziel ist es, Mitarbeitenden schnellen und relevanten Zugriff auf alle benötigten Informationen zu ermöglichen und damit eine Effizienzsteigerung zu erreichen.

Was ist generative KI?

Eine Art von Künstlicher Intelligenz, die in der Lage ist, auf Basis gelernter Muster und bereitgestellten Kontexts neue Inhalte (z.B. Texte, Zusammenfassungen, Antworten) zu erstellen.

Was sind Halluzinationen?

Der Begriff beschreibt die Tendenz von generativen KI-Modellen, plausibel klingende, aber faktisch falsche, erfundene oder irrelevante Informationen zu generieren. RAG ist eine Methode, um Halluzinationen in Enterprise Search zu minimieren.

Was ist ein Index?

Eine zentrale Datenstruktur innerhalb eines Enterprise-Search-Systems, in der alle Dokumente, die über die Suche auffindbar sein sollen, abgelegt sind. Dabei werden die Originaldokumente nicht vollständig im Index abgelegt, sondern in ihre relevanten Bestandteile zerlegt. Diese werden in einem hochoptimierten, datenbankähnlichen Format gespeichert, um eine schnelle und präzise Suche zu gewährleisten und den Zugriff auf die Originaldokumente zu ermöglichen.

Was ist ein Indexer?

Der Indexer ist die Komponente oder der Prozess in einem Enterprise Search System, der die gesammelten Daten aus Quellsystemen aufbereitet und in eine suchoptimierte Struktur (den Index) überführt. Dabei werden Inhalte zerlegt, Metadaten extrahiert und für schnellen Abruf organisiert.

Was ist Indexieren?

Prozess, in dem das Dokument in die einzelnen Bestandteile wie Metadaten oder Textpassagen zerlegt wird. Nach der Zerlegung wird der Text analysiert, die Sprache identifiziert, Wörter in ihre Grundform zurückgeführt und das Wortvorkommen im Index-Gesamtbestand ermittelt. Anschließend wird das Dokument in einem bestimmten Format im Suchindex abgelegt.

Was ist ein KI-Assistent/ Enterprise Chatbot?

Ein auf generativer KI basierendes System, das innerhalb eines Unternehmens natürliche Sprachinteraktionen ermöglicht, um Informationen zu finden, Aufgaben zu automatisieren oder Support zu leisten, indem es auf interne Unternehmensdaten zugreift.

Was ist eine KI-Plattform (generisch/ohne Unternehmensdaten)?

Eine Plattform oder ein Dienst, der die direkte Interaktion mit Large Language Models (LLMs) ermöglicht, ohne diese an unternehmenseigene Datenquellen anzubinden. Sie nutzt das allgemeine Wissen des LLM und dessen Fähigkeit zur Sprachgenerierung für vielfältige Aufgaben, ist jedoch nicht auf spezifische Unternehmensinformationen zugeschnitten

Was ist eine Kompositazerlegung?

Verfahren der linguistischen Texterschließung, die zusammengesetzte Mehrwortbegriffe zerlegt, Beispiel: Druckerhandbuch -> Handbuch Drucker.

Was ist ein Large Language Model, kurz: LLM = Großes Sprachmodell ?

Ein KI-Modell, das auf riesigen Mengen verschiedenster Dateitypen (z.B. Text, Audio, Video, Bilder) trainiert wurde, um die darin enthaltenen Informationen zu verstehen und darauf basierend menschenähnliche Sprache zu generieren. In Enterprise Search wird es genutzt, um Anfragen zu interpretieren, Inhalte zu verdichten und Antworten zu formulieren – typischerweise in Kombination mit Retrieval, damit Antworten auf Unternehmensquellen basieren.

Was ist Lemmatisierung?

Rückführung von flektierten Wörtern auf ihre Grundformen, Beispiel: „buchte ->buchen, Bücher -> Buch“

Was ist Machine Learning (ML)?

Ein Teilbereich der Künstlichen Intelligenz, bei dem Modelle aus Beispieldaten Muster lernen, um Vorhersagen oder Entscheidungen zu treffen. Im Kontext von Enterprise Search wird ML genutzt, um die Relevanz von Suchergebnissen zu verbessern, Metadaten automatisch zu generieren, Dokumente zu klassifizieren und die Fähigkeiten von LLMs zu trainieren.

Was sind Mandanten?

Ein Mandant stellt in der Informatik eine datentechnisch und organisatorisch abgeschlossene Einheit dar. Ein System wird als mandantenfähig bezeichnet, wenn es mehrere Mandanten, wie Standorte oder Tochtergesellschaften, bedienen kann. Die Mandanten sind dabei jeweils technisch voneinander getrennt und haben keinen Einblick in die jeweiligen Daten des anderen.

Was sind Metadaten?

Zusätzliche Informationen zum Dokument wie Autor, Kategorie, Dokumententyp. Die Pflege der Metadaten ist die „Suchmaschinenoptimierung“ für Enterprise Search-Anwendungen. Nur wenn die Metadaten vollständig und gut gepflegt sind, sind die Dokumente später auch auffindbar. Eine gute Enterprise Search ermöglicht automatische Metadatenerzeugung mittels Tagging (Verschlagwortung).

Was sind multimodale Modelle?

KI-Modelle, die Informationen aus mehreren Datenmodalitäten (z.B. Text, Bilder, Audio, Video) gleichzeitig verarbeiten und verstehen. In Enterprise Search ermöglichen sie eine übergreifende Suche und Analyse von Inhalten über verschiedene Formate hinweg, um verborgene Informationen zugänglich zu machen.

Was ist Natural Language Processing (NLP)?

Ein Bereich der Künstlichen Intelligenz, der Verfahren zur Verarbeitung und zum Verständnis natürlicher Sprache umfasst. In Enterprise Search hilft NLP, Suchanfragen und Inhalte besser zu interpretieren (z. B. Synonyme, Schreibweisen, Wortformen), Texte zu analysieren und anzureichern (z. B. Entitäten, Themen, Klassifikation) und bildet die Grundlage für semantische Suche sowie für KI-Funktionen wie Zusammenfassungen oder Antwortgenerierung.

Was sind Passagen?

Kurze, relevante Textabschnitte oder Sätze innerhalb eines Dokuments. In modernen Suchsystemen (insbesondere mit RAG) werden Passagen oft direkt als präzisere Antwort auf eine Suchanfrage präsentiert oder zur Generierung von Antworten verwendet, anstatt das gesamte Dokument.

Was ist eine Preview?

Eine Vorschau oder eine verkleinerte Darstellung des Inhalts eines Dokuments oder einer Datei. In Enterprise Search wird eine Preview typischerweise in den Suchergebnissen angezeigt, um Nutzern einen schnellen Einblick in den Inhalt zu geben und so die Relevanz eines Dokuments beurteilen zu können, ohne es vollständig öffnen zu müssen.

Was ist Prompt Engineering?

Die Kunst und Wissenschaft, effektive Anfragen (Prompts) an generative KI-Modelle zu formulieren, um gewünschte, präzise und nützliche Antworten zu erhalten.

Was ist ein Quellsystem?

Jedes System, aus dem die Enterprise Search Lösung Inhalte sammelt und indexiert, um diese durchsuchbar zu machen. Beispiele sind Dateisysteme, Datenbanken, Content-Management-Systeme (CMS), ERP-Systeme, CRM-Systeme oder Web-Portale.

Was ist eine rechtegeprüfte Suche?

Eine essenzielle Funktion in Enterprise Search, die sicherstellt, dass Nutzer nur auf Suchergebnisse zugreifen können, für die sie die entsprechenden Zugriffsrechte besitzen. Dies ist für Datensicherheit und Compliance im Unternehmenskontext unerlässlich.

Was ist Relevanz?

Bestimmt die Reihenfolge der Treffer innerhalb der Trefferliste. Die Relevanz ist durch den Algorithmus festgelegt, kann aber auch durch Suchprofile und Boost-Faktoren beeinflusst werden.

Was ist Retrieval Augmented Generation (RAG)?

Eine Technik, die die Fähigkeit eines LLMs, Text zu generieren, mit der Fähigkeit eines Suchsystems kombiniert, relevante Informationen aus einer Wissensdatenbank abzurufen. RAG stellt sicher, dass generierte Antworten faktenbasiert sind und direkt auf den internen Unternehmensdaten basieren, was "Halluzinationen" reduziert.

Was ist semantische Suche?

Eine Suchmethode, die nicht nur nach Schlüsselwörtern sucht, sondern die Bedeutung und den Kontext der Suchanfrage versteht, um relevantere Ergebnisse zu liefern. Sie wird durch LLMs und Vektorsuche erheblich verbessert.

Was ist ein Suchfilter?

Interaktive Elemente in der Suchoberfläche, die es Nutzern ermöglichen, Suchergebnisse anhand bestimmter Kriterien (z.B. Dokumenttyp, Autor, Datum, Thema) einzugrenzen. Sie basieren oft auf Metadaten oder Klassifizierungen und verbessern die Präzision der Suche.

Was sind Suchprofile?

Können für verschiedene Nutzer und Nutzergruppen festgelegt werden und ermöglichen maßgeschneiderte Trefferlisten durch die Priorisierung von bestimmten Dokumententypen, Datenquellen oder Autoren.

Was ist eine Trefferliste?

Listet sämtliche Ergebnisse auf, die sich unter zu dem Suchbegriff im Index befinden und damit auffindbar sind. Im Gegensatz zur Internetsuchmaschine liefert die Trefferliste bei Enterprise Search-Anwendungen immer die exakte Treffermenge und keine ungefähre Anzahl an Ergebnissen.

Was ist Textklassifikation?

Die Textklassifikation ist eine zentrale Technologie für die Analyse von Dokumenten und die Identifizierung von Themen und Inhalten.

Was ist Vektorsuche (Vector Search)?

Suchverfahren, bei dem Texte (z. B. Suchanfragen und Dokumentinhalte) in numerische Vektoren (Embeddings) umgewandelt werden, um Inhalte nach Bedeutungsähnlichkeit statt nur nach identischen Wörtern zu finden. In Enterprise Search ergänzt Vektorsuche die klassische Keyword-Suche und verbessert u. a. semantische Treffer, RAG-Anwendungen und das Auffinden sinngleicher Inhalte.

Was ist Volltextsuche?

Eine Suchmethode, die den gesamten Inhalt von Dokumenten durchsucht, um das Vorkommen spezifischer Wörter oder Phrasen zu finden. Im Gegensatz zur reinen Metadatensuche berücksichtigt sie alle Textbestandteile eines Dokuments.

Glossar