09.06.2022 | Blog Moderne Suchsoftware berücksichtigt auch Genderformen
Die Bestrebungen, die Sprache für eine geschlechtergerechte Ausdrucksweise anzupassen, haben im Deutschen eine Menge neuer Wortbildungen hervorgebracht. Hier sind einige der meistverbreiteten Schreibweisen:
Das Phänomen solcher geschlechtergerechten Ausdrücke bringt einige Herausforderungen für die Textverarbeitung und Suche:
- Manche Stämme der neu gebildeten Ausdrücke unterscheiden sich von ihren entsprechenden gängigen Grundformen und haben manchmal auch andere Bedeutung: Kolleg in Kolleg:innen ist nicht gleich Kollege.
- Die Affixe „-in“ und „-innen“ entsprechen auch selbständigen Wörtern und können so fälschlicherweise infolge der Suchanfragen gefunden werden.
In diesem Blogbeitrag zeigen wir, wie die Software iFinder diese Herausforderungen angeht.
In unserer Lösung für die Suchaufgaben sind wir bemüht, zu einer Suchanfrage nicht nur eine Menge passender Dokumente zu liefern, sondern auch die Intention jeder Suchanfrage richtig zu interpretieren. Dafür werden Texte analysiert und auf verschiedene Weise normalisiert. Eine der vielen Techniken, die dafür eingesetzt werden, ist Lemmatisierung: Es wird ermittelt, welche der verschiedenen Wortformen auf eine Grundform zurückgeführt werden können. So erkennt ein guter Lemmatiser, dass die Wörter wie Mitarbeiter, Mitarbeiterin, Mitarbeiters, Mitarbeiterinnen eine gemeinsame Grundform haben. Und die Suchanfragen mit allen diesen Formen sollten während einer Standardsuche möglichst gleiche Treffermengen erzeugen. Die exakte Suche bietet die Möglichkeit gezielt nach einer dieser Wortformen zu suchen. Dazu ein Beispiel: Bei der Suche nach „Mitarbeiterin“ werden nur die Treffer, die mindestens einmal „Mitarbeiterin“ enthalten, zurückgeliefert. Treffer mit nur „Mitarbeiter“, „Mitarbeiterinnen“ etc. werden bei der exakten Suche nicht im Ergebnis sein.
Noch bevor der Lemmatiser die Wortformen analysieren kann, sollten die Grenzen einzelner Wörter korrekt erkannt werden. Die Schreibweise der neuen Gender-Ausdrücke stellt hier eine weitere Herausforderung dar, da sie dem etablierten Schriftbild der deutschen Sprache nicht entspricht. Mitten in den Wörtern kommen verschiedenste Zeichen vor, die mit Recht größtenteils als Worttrennzeichen gesehen und interpretiert werden. Deshalb müssen als erstes die richtigen Wortgrenzen für viele Schreibweisen der Gender-Ausdrücke erkannt werden. Im nächsten Schritt werden bei der Standardsuche die erkannten Wortformen normalisiert, um danach die richtigen Grundformen zu ermitteln. Diese Schritte werden naturgemäß bei der Indexierung und während der Suche angewendet. Somit gelangen wir zu den gleichen Treffermengen bei verschiedenen Anfragen in der Standardsuche. Hier sind Trefferzahlen, angegeben in Tausenden, von einem Testsystem des iFinder, um Standardsuche versus exakte Suche zu vergleichen:
Die entsprechenden Treffer werden auch korrekt hervorgehoben, hier eine kleine Illustration:
oder am Beispiel „Kolleg-/in“:
Und
Fazit: Mit unserer Lösung iFinder ist die Findbarkeit aller gängigen Schreibweisen der neuen Ausdrücke gesichert. Die aufgrund von Affixen (in, innen) möglichen Fehlfindungen werden deutlich reduziert.
Linguistisch gesehen, treten in anderen Sprachen hinsichtlich Genderschreibweisen andere Phänomene auf. Im Englischen geht es beispielsweise nicht um Normalisierungen von Wortformen, sondern um einen veränderten Sprachgebrauch. Dort wurden Begriffe, die auf einen Mann oder eine Frau hinweisen, einfach in eine neutrale Form umgewandelt.
fireman = firefighter
policeman = policeofficer
stewardess = flight attendant
In diesem Fall sorgt der iFinder über eine ergänzende Thesaurusfunktion dafür, dass entsprechende Synonyme gefunden werden.