Bild
Funnel

09.06.2022 | Blog Moderne Suchsoftware berücksichtigt auch Genderformen

Genderschreibweisen bringen völlig neue Herausforderungen für Such- und Textanalyse-Software mit sich. Was eine intelligente Suchmaschine können sollte, um den Nutzer:innen perfekte Ergebnisse zu liefern, zeigt Halyna Galanzina, Text Analytics Expert bei IntraFind.

Die Bestrebungen, die Sprache für eine geschlechtergerechte Ausdrucksweise anzupassen, haben im Deutschen eine Menge neuer Wortbildungen hervorgebracht. Hier sind einige der meistverbreiteten Schreibweisen:

Tabelle Genderformen

Das Phänomen solcher geschlechtergerechten Ausdrücke bringt einige Herausforderungen für die Textverarbeitung und Suche:

  1. Manche Stämme der neu gebildeten Ausdrücke unterscheiden sich von ihren entsprechenden gängigen Grundformen und haben manchmal auch andere Bedeutung: Kolleg in Kolleg:innen ist nicht gleich Kollege.
     
  2. Die Affixe „-in“ und „-innen“ entsprechen auch selbständigen Wörtern und können so fälschlicherweise infolge der Suchanfragen gefunden werden.

In diesem Blogbeitrag zeigen wir, wie die Software iFinder diese Herausforderungen angeht.

In unserer Lösung für die Suchaufgaben sind wir bemüht, zu einer Suchanfrage nicht nur eine Menge passender Dokumente zu liefern, sondern auch die Intention jeder Suchanfrage richtig zu interpretieren. Dafür werden Texte analysiert und auf verschiedene Weise normalisiert. Eine der vielen Techniken, die dafür eingesetzt werden, ist Lemmatisierung: Es wird ermittelt, welche der verschiedenen Wortformen auf eine Grundform zurückgeführt werden können. So erkennt ein guter Lemmatiser, dass die Wörter wie Mitarbeiter, Mitarbeiterin, Mitarbeiters, Mitarbeiterinnen eine gemeinsame Grundform haben. Und die Suchanfragen mit allen diesen Formen sollten während einer Standardsuche möglichst gleiche Treffermengen erzeugen. Die exakte Suche bietet die Möglichkeit gezielt nach einer dieser Wortformen zu suchen. Dazu ein Beispiel: Bei der Suche nach „Mitarbeiterin“ werden nur die Treffer, die mindestens einmal „Mitarbeiterin“ enthalten, zurückgeliefert.  Treffer mit nur „Mitarbeiter“, „Mitarbeiterinnen“ etc. werden bei der exakten Suche nicht im Ergebnis sein.

Noch bevor der Lemmatiser die Wortformen analysieren kann, sollten die Grenzen einzelner Wörter korrekt erkannt werden. Die Schreibweise der neuen Gender-Ausdrücke stellt hier eine weitere Herausforderung dar, da sie dem etablierten Schriftbild der deutschen Sprache nicht entspricht. Mitten in den Wörtern kommen verschiedenste Zeichen vor, die mit Recht größtenteils als Worttrennzeichen gesehen und interpretiert werden. Deshalb müssen als erstes die richtigen Wortgrenzen für viele Schreibweisen der Gender-Ausdrücke erkannt werden. Im nächsten Schritt werden bei der Standardsuche die erkannten Wortformen normalisiert, um danach die richtigen Grundformen zu ermitteln. Diese Schritte werden naturgemäß bei der Indexierung und während der Suche angewendet. Somit gelangen wir zu den gleichen Treffermengen bei verschiedenen Anfragen in der Standardsuche. Hier sind Trefferzahlen, angegeben in Tausenden, von einem Testsystem des iFinder, um Standardsuche versus exakte Suche zu vergleichen:

Tabelle Standardsuche vs exakte Suche

Die entsprechenden Treffer werden auch korrekt hervorgehoben, hier eine kleine Illustration:

Screenshot iFinder kein Treffer

 

oder am Beispiel „Kolleg-/in“:

Screenshot iFinder Kollegensuche

 

Und

Screenshot iFinder Kollegensuche Highlight

 

Fazit: Mit unserer Lösung iFinder ist die Findbarkeit aller gängigen Schreibweisen der neuen Ausdrücke gesichert. Die aufgrund von Affixen (in, innen) möglichen Fehlfindungen werden deutlich reduziert.

Linguistisch gesehen, treten in anderen Sprachen hinsichtlich Genderschreibweisen andere Phänomene auf. Im Englischen geht es beispielsweise nicht um Normalisierungen von Wortformen, sondern um einen veränderten Sprachgebrauch. Dort wurden Begriffe, die auf einen Mann oder eine Frau hinweisen, einfach in eine neutrale Form umgewandelt.

fireman = firefighter

policeman = policeofficer

stewardess = flight attendant

In diesem Fall sorgt der iFinder über eine ergänzende Thesaurusfunktion dafür, dass entsprechende Synonyme gefunden werden.

Ähnliche Seiten und Artikel

Bild
Bibliothek

NLP: Schlüsseltechnologie für Suchmaschinen und Text-Analyse

Moderne NLP (Natural Language Processing) / NLU (Natural Language Understandig)-Lösungen, die auf den drei Grundpfeilern Lexika, Regeln und Maschinellem Lernen basieren, eröffnen gerade in den Bereichen Textsuche, -klassifikation und -analyse gänzlich neue Möglichkeiten. Christoph Goller, Head of Research bei IntraFind, gibt einen Technologie-Überblick.
Artikel lesen
Bild
Nahaufnahme Kunstwerk bestehend aus Buchstaben

Semantisch-Linguistische Indexierung für bessere Suchergebnisse

Mit seinem Linguistik Plugin ermöglicht Intrafind den Nutzern der Open-Source-Suchmaschine Elasticsearch vollständigere und relevantere Suchergebnisse. Der Suchspezialist hat jetzt semantische Erweiterungen implementiert: die Suche nach Entitäten, Zahlen und Einheiten.
Artikel lesen

Die Autorin

Halyna Galanzina
Text Analytics Expert
Halyna Galanzina arbeitet bereits seit 2008 bei Intrafind und ist Expertin für Textanalyse, Natural language processing und Informationsextraktion. Ihre Leidenschaft: Entwicklung von Algorithmen für die automatische Textverarbeitung und Textverstehen.
Bild
Halyna Galazina