Welches LLM ist das richtige? Ein Leitfaden für Unternehmen

Generative KI eröffnet Unternehmen und Behörden viele neue Möglichkeiten, doch die Auswahl des richtigen Large Language Modelle (LLM) ist eine Herausforderung. Von der Modellgröße über die Sprachunterstützung bis hin zu den Kosten und Sicherheitsaspekten gibt es viele Faktoren zu berücksichtigen. In diesem Blog erklären wir, worauf es bei der Auswahl ankommt.

1. Größe ist nicht alles: Kleinere Modelle als Alternative

Größere Modelle wie GPT-4.5/o3, Gemini 2.0 oder Claude 3 bieten zwar beeindruckende Möglichkeiten, doch sie sind nicht immer nötig. Gerade für Chatbot-Anwendungen in Kombination mit Suchsoftware sind kleinere Modelle oft ausreichend. Denn das entsprechende Wissen, um Fragen zu beantworten, erhält das Modell in diesem Fall von der Suchsoftware. Groß ist also nicht zwingend besser - kleinere Modelle können abhängig vom Use Case vergleichbare Ergebnisse mit hoher Qualität liefern, sind dabei aber schneller und kosteneffizienter.
Möchte man dagegen das externe Wissen eines LLMs mitnutzen, benötigt man große Modelle, mit denen komplexere Anwendungsfälle, wie z.B. Codegenerierung für Entwickler, möglich sind.

2. Sprachunterstützung: Nicht jedes Modell versteht Deutsch

Es gibt beindruckende Vision Language Modelle, die beispielsweise ohne OCR (Optical Character Recognition = optische Zeichen- bzw. Texterkennung) Text aus Bilddateien verarbeiten können. Diese Modelle, aber auch LLMs, sind oft in Sprachen wie Englisch oder Chinesisch trainiert. Wer ein Modell für deutschsprachige Inhalte benötigt, sollte daher prüfen, ob das gewählte LLM ausreichend gut mit deutschen Texten umgehen kann: Erkennt das Vision-Modell beispielsweise Umlaute (ÄÖÜ) oder kann das Text-Modell deutsche Grammatik, Satzbau etc. gut verarbeiten? Auch hier gilt es, das Modell passend zum Anwendungsfall zu evaluieren.

3. Kontextlänge: Wie viel Information kann verarbeitet werden?

Ein weiteres Kriterium bei der Wahl eines Modells ist die Kontextlänge. So sind manche Modelle in der Lage, große Mengen an Informationen auf einmal zu verarbeiten (z.B. Millionen von Token). Hier kommt es ebenfalls auf den Use Case an. Gerade bei der Zusammenfassung langer Dokumente ist beispielsweise eine große Kontextlänge sinnvoll. Für andere Szenarien ist dagegen ein kleineres Modell ausreichend. So werden bei klassischen Suchanfragen die relevanten Inhalte vorab gezielt extrahiert und an das Modell zur Beantwortung weitergegeben, so dass es nicht ganze Dokumente verarbeiten muss. Dies spart nicht nur Rechenleistung, sondern reduziert auch Kosten. Das bedeutet: Ein Modell mit hoher Kontextlänge ist nicht immer die effizienteste Wahl.

4. Open Source vs. Proprietäre Modelle: Welche Lösung passt?

Open Source-Modelle wie Llama 3, Mistral Small oder OpenEuroLLM sind anpassungsfähig, nachvollziehbar und bieten Unternehmen die Möglichkeit, LLMs auf eigener Hardware (On-Premises) zu betreiben und so Datenschutzrisiken zu minimieren. Das sind universelle Modelle mit einem ausgewogenen Mix aus Sprachfähigkeit, Geschwindigkeit und Kosteneffizienz.
Proprietäre Modelle erfordern keine eigene Hardware, da sie in der Cloud betrieben werden. Obwohl die kostenpflichtigen Versionen der Modelle die Nutzerdaten nicht zum Training verwenden, bevorzugen manche Organisationen dennoch On-Prem-Lösungen, um volle Kontrolle über ihre Daten zu behalten.

5. Sicherheit und Kosten: Cloud oder On-Prem?

Damit sind wir auch gleich bei der Frage, das Modell selbst auf eigener Hardware zu betreiben oder eine Cloud-Lösung (Software as a Service = SaaS) zu nutzen. Cloud-Modelle wie GPT-4o sind sehr leistungsfähig, erfordern jedoch eine sorgfältige Kostenkontrolle, da die Abrechnung nach Token-Verbrauch erfolgt. Je nach Nutzung kann das teuer werden.
Eine eigene LLM-Infrastruktur anzuschaffen, kann sich für Organisationen lohnen, die langfristig Unabhängigkeit und Datenschutz wahren wollen. Alternativ lassen sich Modelle wie GPT-4o über Microsoft Azure sicher hosten, ohne eigene Hardware anzuschaffen. Die token-basierten Kosten sind auch hier zu berücksichtigen.

Ein Beispiel: So teilt GPT-4o den Text in Token ein. (Quelle: https://platform.openai.com/tokenizer)

Beispiel: Text in Token eingeteilt

6. Exkurs - DeepSeek: Chance oder Risiko?

DeepSeek ist ein Open Source-Modell aus China, das durch seine innovative Architektur und effiziente Rechenleistung zuletzt für Aufsehen gesorgt hat. Es zeigt, dass auch kleinere Modelle mit geringerem Rechenaufwand leistungsfähig sein können. Es ist geeignet zur Lösung komplexer Aufgaben, beschreibt als sogenanntes Reasoning-Modell auch seine „Gedankenschritte“, verbraucht dadurch aber mehr Token. Bei der frei verfügbaren Version gibt es Datenschutzbedenken, da Nutzerdaten für das Training verwendet werden können. Bei einem selbst gehosteten Betrieb wäre die Kontrolle über die Daten gewährleistet. Reasoning-Modelle sind „schlussfolgernde“ KI-Modelle und darauf ausgelegt, logische Denkprozesse nachzuahmen. Sie reflektieren über Aufgabenstellungen, analysieren Probleme schrittweise und liefern logisch begründete Antworten.

Fazit: Lassen Sie sich professionell beraten

Als Anbieter von Enterprise Search-Software mit KI-Assistent verfolgen wir die Entwicklung neuer Modelle mit Spannung. Wir testen diese Modelle, evaluieren neutral ihre Stärken und Schwächen und wissen, was für welchen Use Case und für welche IT-Infrastruktur am besten geeignet. Wir helfen Ihnen, das richtige Modell für Ihren Anwendungsfall zu finden – ob Standardmodell oder „Bring your own model“.

Sprechen Sie uns an

Hintergrundinfo: Token, Kontextfenster und Kosten

Token sind Bausteine, mit denen LLMs Text verarbeiten. Dazu teilen sie Sätze in kleine Einheiten (Wörter, Wortteile, Satzzeichen etc.) auf, die vom Modell analysiert werden. Für LLMs gelten Einschränkungen hinsichtlich der maximalen Anzahl von Token, die als Eingabe verwendet oder als Ausgabe generiert werden können. Diese sogenannte Kontextfenstergröße oder die Kontextlänge bestimmt, wie viel Text das Modell gleichzeitig verarbeiten kann.

Vor allem cloudbasierte LLMs rechnen pro Token ab. Anbieter wie OpenAI (GPT-4o), Google (Gemini) oder Microsoft (Azure OpenAI Service) berechnen die Nutzung ihrer Modelle basierend auf der Anzahl der verarbeiteten Token – sowohl in der Eingabe (Prompt) als auch in der generierten Ausgabe.

Bei lokal betriebenen Open-Source-Modellen entfällt die direkte Token-basierte Abrechnung, aber es entstehen Kosten für Hardware (z. B. GPUs oder Serverkapazitäten), Stromverbrauch und Wartung. Diese Kosten können auf lange Sicht günstiger sein, vor allem wenn die Nutzung hoch ist oder Datenschutz eine zentrale Rolle spielt.

Weiterführende Seiten und Artikel

Mit iFinder & GenAI zum Erfolg: Smarte Suche, präzise Antworten

Sie möchten generative KI in Ihrer Organisation einsetzen, haben aktuelle Projekte oder Uses Cases und wollen wissen, wie sich diese mit dem iFinder umsetzen lassen?

Mehr erfahren

iAssistant - Schnelle & präzise Antworten

Durch die Kombination modernster generativer KI-Modelle mit der leistungsstarken iFinder Suche erhalten Sie schnell und präzise Zusammenfassungen und relevante Antworten aus organisationseigenen Daten.

Mehr erfahren

KI-Assistent: die Make or Buy-Entscheidung richtig treffen

Immer mehr Organisationen setzen auf generative KI für Chats mit eigenen Daten, um effizienter zu arbeiten. RAG gilt als beste Lösung, doch IT-Abteilungen stehen vor der „Make or Buy“-Frage. Hier einige Denkanstöße zur erfolgreichen Umsetzung.

Blog lesen

Der Autor

Daniel Manzke

Head of Engineering

Daniel begann seine Karriere im Dokumenten- und Wissensmanagement, wo er früh die Enterprise Search-Software von IntraFind integrierte und nutzte. In den letzten 10 Jahren gründete er ein eigenes KI-Unternehmen und verantwortete als CTO im Startup- und Finanzwesen-Bereich innovative Produkte und Softwarelösungen. Heute leitet er als Head of Engineering bei IntraFind die Weiterentwicklung des iFinder mit Leidenschaft und Expertise.

06.03.2025 | Blog Welches LLM ist das richtige? Ein Leitfaden für Unternehmen