Bild
Blick in die Glaskugel

18.01.2023 | Blog ChatGPT: Die Zukunft der Suche?

ChatGPT ist zur Zeit in aller Munde. Dr. Christoph Goller, Head of Research beim Search-Spezialisten IntraFind, hat ChatGPT ausprobiert und sich Gedanken zu den Auswirkungen auf Suchmaschinen gemacht.

Suchmaschinen sind tot! So könnte man meinen, wenn man die beeindruckenden Ergebnisse von ChatGPT  sieht. Transformer Modelle  ändern alles. Der Encoder-Teil eines Transformers (z.B. BERT ) kann direkt für die Suche (sog. Dense Retrieval) verwendet werden und der Decoder-Teil (Sprachmodelle wie GPT ) für die Erzeugung natürlich klingender Antworten. Bedeutet dies wirklich, dass wir die klassische Volltextsuche auf der Basis des Inverted File Index  nicht mehr benötigen? Sind Lucene und Elasticsearch obsolet? Ich würde eher sagen, dass die Prognosen über den bevorstehenden Tod von Suchmaschinen stark übertrieben sind.

Problem der Skalierbarkeit

Zum einen gibt es das Problem der Skalierbarkeit. Dense Retrieval bedeutet, dass man Vektoren mit mehreren hundert Dimensionen für jeden Satz oder Absatz eines Dokuments in einer Datenstruktur speichern muss, die eine „Approximate Nearest Neighbour“-Suche ermöglicht. Hierbei die gleiche Performance wie mit klassischen schlagwortbasierten Suchmaschinen zu erreichen, ist nach unseren Erfahrungen eine ziemliche Herausforderung. Die Hardwarekosten für ChatGPT werden auf 100.000 Dollar pro Tag geschätzt, und das bei nur wenigen Millionen Usern, von denen die meisten das Tool nicht einmal so regelmäßig nutzen, wie sie eine Suchmaschine wie Google verwenden. Eine Enterprise Search-Lösung für ein großes internationales Unternehmen, die auf ChatGPT basiert, hätte wahrscheinlich ähnliche Hardware-Anforderungen und es ist unwahrscheinlich, dass Unternehmen solche Kosten in Kauf nehmen würden.

Supervised Training erforderlich

Die Leistungs- und Hardwareanforderungen sind nicht das einzige Hindernis. Transformer Modelle, die auf Basis von riesigen Mengen allgemeiner Textdaten unüberwacht trainiert werden, sind nicht unbedingt für Inhalte aus speziellen Anwendungsbereichen geeignet. Oft gibt es domänenspezifisches Vokabular, das sie nicht adäquat einordnen können. Extreme Beispiele sind firmenspezifische Fehler- oder Produktcodes. Daher kann es notwendig sein, die Modelle auf spezifische Kundendaten abzustimmen, was wiederum rechenintensiv ist. Außerdem müssen Transformer Modelle für die spezifische Aufgabe, für die sie eingesetzt werden, trainiert werden, was üblicherweise als Transfer Learning bezeichnet wird. Es mag überraschen, aber dabei handelt es sich um ein überwachtes Training, das manuell gelabelte Daten erfordert. Für ein Dense Retrieval (z. B. eine Suche, die vollständig auf Embeddings basiert) werden BERT-ähnliche Neuronale Netze normalerweise auf Paare von Fragen/Suchanfragen und Antworten trainiert. Die in BEIR vorgestellte Evaluierung zeigt, dass ein Dense Retrieval-Ansatz, der auf einem Benchmark (bestimmte Domäne) trainiert wurde, bei anderen Benchmarks nicht gut abschneidet. Tatsächlich schneidet er schlechter ab als die Standard-Schlüsselwortsuche mit BM25. Dies bedeutet, dass für jedes Kundenprojekt manuell gelabelte Trainingsdaten benötigt werden, die aus Paaren von Suchanfragen und Antworten in der spezifischen Domäne bestehen. ChatGPT ist im Grunde genommen ein GPT Modell, das zusätzlich so trainiert wurde, dass es für Dialoge gut funktioniert. OpenAI generierte hierfür gelabelte Daten für ein erstes überwachtes Training und verwendete dann menschliche Tester, die Feedback für ein weiteres verstärkendes Training (Reinforcement) gaben. Das überwachte Training mit menschlicher Beteiligung ist also auch hier von größter Bedeutung. Wie immer gibt es nichts zum Nulltarif.

Korrektheit und Erklärbarkeit nicht garantiert

Wenn Sie bei Google nach der Aussage "Die Google-Suche wird immer schlechter" suchen, sehen Sie, dass dies derzeit eine häufige Beschwerde ist. Ich bin mir nicht ganz sicher, ob diese Behauptung wirklich gerechtfertigt ist, und es kann verschiedene Gründe geben, wenn dem tatsächlich so wäre. Aber lassen Sie mich einige persönliche Erfahrungen teilen. Ich habe die Sommerferien mit meiner Familie in den USA verbracht. Wir besuchten auch den Yosemite Park. Ich googelte "Yosemite Geysire, die man besuchen kann" und erhielt tonnenweise Treffer über "Old Faithful" und andere Geysire, einschließlich vieler Bilder. Man muss wissen, dass es im Yosemite Nationalpark keine Geysire gibt. Aber im Yellowstone Nationalpark, der einen ganzen Tagesausflug mit dem Auto entfernt ist, gibt es mehrere davon. Ich vermute, dass der Grund für diese falschen Treffer darin liegt, dass Google eine Dense Search Komponente in seine normale Suche integriert hat. Yellowstone und Yosemite sind beides sehr beliebte Nationalparks, und für die Dense Search macht das keinen so großen Unterschied. Bei der Stichwortsuche jedoch schon, und natürlich für Touristen, die wie meine Familien und ich Geysire sehen wollen.

Kürzlich habe ich ChatGPT getestet. Es ist wirklich sehr beeindruckend. Aber dann habe ich einige schwierigere Fragestellungen ausprobiert.

Frage: Welche Geysire kann ich in Yosemite besuchen?*

Antwort: Der Yosemite-Nationalpark beherbergt mehrere Geysire und heiße Quellen, die beliebte Attraktionen für Besucher des Parks sind. Einige der Geysire und heißen Quellen, die Sie in Yosemite besuchen können, sind: Old Faithful Geysir, Basket Dome Geysir, ...*

Das kommt Ihnen bekannt vor, oder?

 

Frage: Welche Säugetiere legen Eier?*

Antwort: Es ist wichtig zu wissen, dass Säugetiere, die Eier legen, normalerweise nur ein oder zwei Eier pro Jahr legen, während Vögel und Reptilien viele Eier pro Jahr legen können. Die Eier von Säugetieren sind in der Regel auch viel kleiner als die von Vögeln und Reptilien. Einige weitere Säugetiere, die Eier legen, sind: Okapis, Hyänen und Seekühe. Okapis sind große, seltene Säugetiere, die in Zentralafrika leben. Sie legen etwa einmal im Jahr ein Ei von der Größe eines Hühnereis. Hyänen sind dafür bekannt, Eier in Höhlen zu legen und auszubrüten. Seekühe sind Säugetiere, die im Wasser leben und Eier legen, die jedoch sehr klein sind und normalerweise nicht befruchtet werden.*

Während der erste Satz zwar etwas irreführend, aber nicht falsch ist, legen die aufgeführten Säugetiere definitiv keine Eier. In einer Antwort führte ChatGPT Kaninchen als eierlegende Säugetiere auf. Deshalb habe ich gefragt:

Frage: Wie hart ist die Schale von Kanincheneiern?*

Antwort: Die Schale von Kanincheneiern ist sehr fest und hart. Sie besteht aus Kalziumkarbonat und anderen Mineralien, die ihr die nötige Festigkeit verleihen. Im Vergleich zu Hühnereiern sind Kanincheneier eher kleiner und haben eine dünnere Schale, die etwas empfindlicher ist…*

Das ist völliger Unsinn. Übrigens, als ich dieselbe Frage nach dem Zurücksetzen von ChatGPT erneut versuchte, erhielt ich die gegenteilige Antwort: Kanincheneier seien sehr dünn und brüchig.

 

Hier ist noch ein lustiges deutsches Beispiel. Vielleicht ist es nur lustig, wenn Sie aus Bayern sind:

Frage: Wo kann ich in Bayern eine Wattwanderung machen?

Antwort: Bayern ist ein Bundesland in Deutschland, das viele Möglichkeiten für Wattwanderungen bietet. Einige Orte in Bayern, an denen man Wattwanderungen machen kann, sind: Insel Rügen, Insel Amrum, ….

Bayern hat nun einmal keinen Zugang zu einem Meer und die vorgeschlagenen Orte liegen in Norddeutschland.

 

Es ist wichtig zu wissen, dass ChatGPT nicht immer die gleiche Antwort auf eine Frage gibt. Nach einem Reset gab es manchmal richtige Antworten auf die oben genannten Fragen. Zum Beispiel gab es an, dass es in Yosemite keine Geysire gibt und dass Säugetiere normalerweise keine Eier legen. Noch handelt es sich um eine Testversion, und von den Benutzern wird erwartet, dass sie Rückmeldungen geben, die dann für weitere Verstärkungstrainings verwendet werden. ChatGPT versucht also, die Tester für die Generierung weiterer Trainingsdaten zu nutzen. Ich bezweifle jedoch ernsthaft, dass weiteres Training das Problem vollständig lösen wird.

Ich habe auch versucht, eine Frage über mich selbst zu stellen. Ich fand die Antworten sehr interessant. Ich arbeite seit mehr als 20 Jahren im Bereich Information Retrieval mit den Schwerpunkten Lucene und Elasticsearch. Aber davor habe ich im Bereich Deep Learning geforscht (PhD). Deshalb habe ich gefragt:

Frage: Wer erfand “Backpropagation through Structure” (BPTS)?*

Diese Frage lässt sich leicht mit einem Wikipedia-Eintrag beantworten: https://en.wikipedia.org/wiki/Backpropagation_through_structure

Google findet diese Seite normalerweise. Ich nahm an, dass ChatGPT, da es auf Wikipedia trainiert wurde, die Seite auch finden würde. „Backpropagation through Structure“ ist jedoch kein Fachbegriff, der sehr häufig verwendet wird, auch wenn er in den letzten Jahren immer häufiger zitiert wird.

ChatGPT gab viele verschiedene Antworten auf diese Frage. Bei den meisten Versuchen nannte es wahllos bekannte Forscher im Bereich Deep Learning, zitierte einige nicht existierende Arbeiten mit willkürlichen Veröffentlichungsjahren und behauptete, sie würden BPTS beschreiben. Bei einem Versuch wurde behauptet, dass BPTS eine Art von Computernetzwerkarchitektur sei, die von einigen Leuten in den 80er Jahren erfunden wurde. Alle Antworten waren völlig falsch. Bei der ähnlichen Frage "Wer hat die Trommelbremse erfunden?"* nannte ChatGPT oft fälschlicherweise „Westinghouse“, aber manchmal lag er richtig und antwortete „Louis Renault“. Als fundierte Vermutung ist „Westinghouse“ keine schlechte Antwort, ebenso wie alle bekannten Deep-Learning-Experten für BPTS. Aber diese Antworten sind falsch.

OpenAI ist sich des Problems, dass die Antworten möglicherweise nicht korrekt sind, natürlich bewusst und spricht es offen an. Sprachmodelle wie GPT sind darauf trainiert, perfekte Sprache zu produzieren, aber nicht die Wahrheit. Manche Leute bezeichnen sie als Zufallsgeneratoren für "Bullshit". Metas neues großes Sprachmodell Galactica wurde drei Tage nach seinem Start wieder abgeschaltet, da es zu viel "Bullshit" produzierte. ChatGPT wurde auf eine bessere Art und Weise trainiert, um diese Probleme weniger offensichtlich zu machen. Aber die Probleme sind immer noch da.

Was bedeutet das für die Suche?

Verstehen Sie mich nicht falsch! Ich bin wirklich beeindruckt von den Fortschritten des Deep Learning und den Fähigkeiten der Transformer Modelle. Transformer Modelle sind in der Lage, beeindruckendes Wissen über Sprache und populäre Fakten anzuhäufen. Der Grund dafür ist, dass sie nicht nur auf der syntaktischen Ebene arbeiten, sondern auch die Semantik einbeziehen. Man kann die Syntax (Sprache) nicht richtig hinbekommen, ohne zumindest ein wenig semantisches Wissen zu haben. Sie sind jedoch keine zuverlässige Quelle für Faktenfragen. Oft produzieren sie nur so etwas wie eine fundierte Vermutung, und oft produzieren sie völligen Unsinn, der grammatikalisch korrekt ist. Vielleicht gibt es in der Zukunft weitere Durchbrüche, und große Sprachmodelle können Suchmaschinen komplett ersetzen. Ich persönlich glaube nicht, dass das so schnell passieren wird. Im Moment müssen wir Transformer- und große Sprachmodelle in Kombination mit herkömmlichen Suchmaschinen verwenden. Encoder können verwendet werden, um die Ergebnisse neu zu ordnen und das Problem der Vokabular-Inkongruenz zu lösen (das Problem, dass sich die Sprache der Abfrage und des Dokuments unterscheiden), aber dies muss auf kontrollierte Weise geschehen, um Probleme wie die oben beschriebene Yosemite / Yellowstone-Inkongruenz zu vermeiden. Language Models wie ChatGPT können verwendet werden, um Antworten auf der Grundlage der von Suchmaschinen produzierten Text-Snippets zu formulieren, so dass die Antworten nicht auf Vermutungen beruhen, sondern fundiert und erklärbar (durch Referenzen auf Quellen) sind. Andere hybride Ansätze zur Kombination von Deep Learning und klassischen Suchmaschinen müssen noch erforscht werden. IntraFind erforscht eine Vielzahl von Möglichkeiten, teilweise zusammen mit Partnern im Projekt SEMIARID. Wir haben bereits einige Deep-Learning-Techniken integriert und werden bald weitere in unseren Produkten haben. Ich persönlich freue mich, dass ich endlich wieder die Möglichkeit habe, im Bereich Deep Learning zu arbeiten.

 

* Mit DeepL aus dem Englischen übersetzte Fragen und Antworten.

Artikel im englischen Original: ChatGPT: The Future of Search? | IntraFind

Ähnliche Seiten und Artikel

Bild
Bibliothek

NLP: Schlüsseltechnologie für Suchmaschinen und Text-Analyse

Moderne NLP (Natural Language Processing) / NLU (Natural Language Understandig)-Lösungen, die auf den drei Grundpfeilern Lexika, Regeln und Maschinellem Lernen basieren, eröffnen gerade in den Bereichen Textsuche, -klassifikation und -analyse gänzlich neue Möglichkeiten. Christoph Goller, Head of Research bei IntraFind, gibt einen Technologie-Überblick.
Artikel lesen
Bild
Nahaufnahme Kunstwerk bestehend aus Buchstaben

Natural Language Processing – Best Practice

Was ist Natural Language Processing? Welche Techniken verbergen sich dahinter und zu welchem Zweck wird NLP eingesetzt? Einen tiefgehenden Überblick gibt Breno Faria, Team Lead NLP beim Such- und KI-Spezialisten IntraFind.
Artikel lesen

Der Autor

Dr. Christoph Goller
Head of Research
Christoph Goller hat in Informatik an der Technischen Universität München mit Forschungsarbeiten im Bereich Deep Learning promoviert. Er ist Apache Lucene Committer und hat mehr als 20 Jahre Erfahrung in den Bereichen Information Retrieval, Verarbeitung natürlicher Sprache und KI. Seit 2002 ist er Leiter der Forschungsabteilung von IntraFind.
Bild
Dr. Christoph Goller