2025-03-03

Welche Sprachen kann GPT eigentlich?

So richtig zuverlässig: weniger als erhofft.

Sprachen GPT
Welche Sprachen kann GPT von OpenAI eigentlich?

Wer in der Schweiz Chatbots und andere KI-Applikationen entwickelt, muss sich irgendwann fragen, in welchen Sprachen die Sprachmodelle zuverlässig genutzt werden können. Die Antwort ist ernüchternd: Es sind weniger als erhofft.

Ein Chatbot zu Sozialleistungen für alle

Gemeinsam mit der Caritas Zentralschweiz entwickeln wir einen Chatbot, der Menschen gezielt über staatliche und sonstige Sozialleistungen informiert. Der Bot führt ein kurzes Gespräch mit der ratsuchenden Person und stellt gezielte Nachfragen, um auf relevante Leistungen hinzuweisen. So bekommen beispielsweise Studentinnen, Verwitwete, selbständig erwerbende Väter oder Geflüchtete die jeweils für sie relevanten Informationen.

Der Chatbot verarbeitet zudem Informationen aus Merkblättern, Handbüchern und Webseiten, um Fragen zu den empfohlenen Sozialleistungen verständlich zu beantworten. Damit soll sich jede Person selbständig und einfach informieren können.

Da der Bot nicht nur Schweizer:innen, sondern auch Menschen mit Migrationshintergrund unterstützen soll, stellt sich die Frage: In welchen Sprachen kann GPT eine verlässliche Hilfestellung gewährleisten?

Sprachkompetenzen von GPT

GPT von OpenAI ist laut eigenen Angaben multilingual. Doch reicht das aus, um Gespräche über Sozialleistungen in verschiedenen Sprachen auf qualitativ hohem Niveau zu führen? OpenAI selbst gibt keine detaillierten Informationen zur Sprachkompetenz ihrer Modelle. Die offizielle Aussage lautet:

"The models are optimized for use in English, but many of them are robust enough to generate good results for a variety of languages. GPT-4 achieves robust performance on many multiple-lingual language tasks."

Befragt man ChatGPT nach seinen Sprachfähigkeiten, gibt das Modell folgende Selbsteinschätzung:

  • Sehr gut: Englisch, Deutsch, Spanisch, Französisch, Italienisch, Portugiesisch, Niederländisch.
  • Gut bis mittelmäßig: Schwedisch, Dänisch, Norwegisch, Polnisch, Russisch, Türkisch.
  • Grundlegend: Japanisch, Chinesisch, Arabisch, Hebräisch.

Also nur 7 Sprachen sehr gut… Der Übersetzungsdienst der Caritas Zentralschweiz arbeitet regelmäßig mit über 40 Sprachen. Letztes Jahr wurden am häufigsten Türkisch, Ukrainisch, Arabisch, Dari, Tigrinya, Persisch (Farsi), Russisch, Tamil, Portugiesisch, Albanisch und Pashto übersetzt. Einige dieser Sprachen fehlen in der Liste von GPTs stärksten Sprachen.

Testlauf mit Tigrinya

Wir testeten GPT4o mit der in Eritrea und Äthiopien verbreiteten Sprache Tigrinya – eine für die Caritas Zentralschweiz sehr relevante Sprache. Deutsche Chatbot-Konversationen wurden mittels der üblichen online-Übersetzungsdienste ins Tigrinya übersetzt, vom Bot verarbeitet und die Antwort wieder zurück ins Deutsche übersetzt. Das Ergebnis: unverständlicher Nonsens.

Grosse Sprachmodelle werden in jenen Sprachen zuerst entwickelt, die die grössten Märkte umfassen - sie müssen also wirtschaftlich relevant sein. Zweitens müssen genügend Trainingsdaten vorliegen. Je mehr Personen eine Sprache sprechen (bzw. schreiben und publizieren), desto mehr Trainingsdaten stehen zur Verfügung. Im Subsahara-Afrika gibt es eine enorme Diversität an gesprochenen Sprachen und ein Mangel an verfügbaren Daten für das Training von LLMs. Viele afrikanische Sprachen existieren zudem nur in mündlicher Tradition.

Professionelle Übersetzungs-Tests mit weiteren Sprachen

In Zusammenarbeit mit professionellen Übersetzer:innen der Caritas Zentralschweiz testeten wir den Chatbot in fünf weiteren Sprachen. Diese Übersetzer:innen sind sich gewohnt, auch den kulturellen Aspekt zu beachten und sie kennen das System der sozialen Sicherheit relativ gut. Das macht ihre Einschätzungen zur Sprachqualität für unseren Chatbot besonders wertvoll.

  • Russisch, Ukrainisch, Türkisch: Sehr gute Qualität, vergleichbar mit Deutsch. Vereinzelte Übersetzungsfehler bei Fachbegriffen (z. B. "AHV" oder "Betreuungsgutscheine"). Adressen und Bezeichnungen von Institutionen sollten nicht übersetzt werden.
  • Arabisch: Gute sprachliche Qualität. Da Arabisch von rechts nach links gelesen wird, erschwert die lateinische Schreibweise von Adressen die Lesbarkeit. Dennoch wurde die Qualität als sehr gut bewertet.
  • Persisch (Farsi): Einige Grammatikfehler und unübersetzte Begriffe, aber insgesamt eine sinnvolle und hilfreiche Nutzung möglich.

Eine weitere Erkenntnis: Die Übersetzung von Fachbegriffen hat Vor- und Nachteile: Sie erleichtert das Verständnis, kann aber zu ungenauen Übersetzungen führen.

Fazit: Diese Sprachen bieten wir an

Auf Basis der Tests werden wir den Chatbot vorerst nur in folgenden Sprachen anbieten:

  • Deutsch
  • Portugiesisch
  • Französisch
  • Italienisch
  • Spanisch
  • Englisch
  • Türkisch
  • Ukrainisch
  • Arabisch
  • Persisch (Farsi)

Die KI-Welt dreht sich schnell. Die Anzahl zuverlässig nutzbarer Sprachen wird weiter wachsen.

Kennt ihr weitere Sprachen, die man mit GPT4o bedenkenlos nutzen kann? Wir freuen uns über Feedbacks und Erfahrungsberichte!

Die Entwicklung eines multilingualen Chatbots stellt in vielerlei Hinsicht eine Herausforderung dar – nicht nur aufgrund der beschriebenen Grenzen von GPT-4o. Wir sind der richtige Partner, um maßgeschneiderte, mehrsprachige Chatbots gezielt und effizient zu realisieren!


Lust auf mehr Blogs?

CaritasGo

Eine regelbasierte Bot-Orchestrierung

Mehr lesen
TownBot Römerswil: untrainiert und pflegeleicht

Nathalie Portmann zeigt, warum man einen modernen Chatbot nicht trainieren muss und wie man die besten Antworten aus ihm herausbekommt.

Mehr lesen
Datenschutzerklärung
I. Allgemeine Informationen

PoemAI stellt unter der Webadresse https://poemai.ch die Webseite und den Blog von poemAI bereit. Die Website dient insbesondere der Information über Produkte und Dienstleistungen von poemAI. Außerdem haben interessierte Personen die Möglichkeit, mit poemAI in Kontakt zu treten.

In dieser Datenschutzerklärung erläutern wir, wie wir personenbezogenen Daten erheben und verarbeiten. Personenbezogen sind dabei alle Daten, die auf eine natürliche Person beziehbar sind. Bei all unseren Datenverarbeitungsprozessen halten wir uns an alle gesetzlichen Vorgaben, insbesondere an jene des Datenschutzgesetzes.

II. Informationen über die Verantwortlichen

PoemAI ist für die Bearbeitung Ihrer personenbezogenen Daten verantwortlich. Für generelle Anliegen sowie Anliegen des Datenschutzes können Sie sich an einen oder beide Co-Founder wenden:

poemAI GmbH
Nathalie Portmann und/oder Markus Emmenegger
nathalie.portmann@poemai.ch und/oder markus.emmenegger@poemai.ch
Rämsiweg 8
6048 Horw
Tel.: 076 559 60 48

III. Datenverarbeitung zu betrieblichen Zwecken

PoemAI verwendet vereinzelte Personendaten (Namen, Adressen, Emailadressen, Telefonnummern) zu folgenden Zwecken:

  • Zum sicheren und stabilen Betrieb der vorliegenden Website
  • Zur Bewirtschaftung unserer Stamm- und Kundendaten im CRM
  • Zur Mitteilung von Neuigkeiten einschließlich Werbemassnahmen, die Sie interessieren könnten
  • Für Marketing-Zwecke
  • Für die Vertragserfüllung.

Diese Daten fallen beim Ausfüllen unseres Kontaktformulars oder einer andersweitigen Kontaktaufnahme an. Oder sie stammen aus öffentlich einsehbaren Websiten und Verzeichnissen.

Jegliche Verwendung von Cookies - oder anderer Tracking-Tools - durch diese Webseite oder Anbieter von Drittdiensten, die durch diese Webseite genutzt werden, dient dem Zweck, den von Ihnen gewünschten Dienst zu erbringen. Wir messen mit Google Analytics einzig die Besucherströme auf unserer Website. Wir können und wollen keine Besucher/innen unserer Website identifizieren.

IV. Stand der Datenschutzerklärung

Die Datenschutzerklärung ist aktuell gültig und hat den Stand 28.9.2023.