Die indische Sprache Oriya wird Teil der Übersetzungsdienstleistungen von Google und Microsoft

Collage of Odia Book Covers. Image via Flickr by Erin Mclaughlin. From the Flickr set Odia Book Covers. CC BY 2.0.

Collage von Buchumschlägen in der Sprache Oriya. Bild via Flickr von Erin Mclaughlin. Aus dem Flickr-Set der Buchumschläge in der Sprache Oriya. CC-BY 2.0.

Während Open-Source-Initiativen noch im Gange sind, haben Google und Microsoft in diesem Jahr beide die indische Sprache Oriya in ihre jeweiligen maschinellen Übersetzungssysteme integriert – Google Übersetzer setzte dies im Februar und Microsoft vor Kurzem am 13. August um.

Oriya ist die Amtssprache des indischen Bundesstaates Odisha sowie die zweite Amtssprache des Bundesstaates Jharkhand. Sie wird von rund 35 Millionen Menschen als Muttersprache gesprochen und ist zweite Amtssprache von rund 4 Millionen Menschen. Zudem stufte die indische Regierung die Sprache als eine der klassischen Sprachen des Landes ein; eine Einordnung, die erfolgte, da die Sprache eine Reihe von Anforderungen erfüllte, hierzu zählt auch eine literarische Tradition der Sprache von mehr als 1.500 Jahren.

Jedoch, ist die digitale Präsenz der Oriya-Sprache begrenzt. Beispielsweise zählt Oriyas Wikipedia, welches eines der größten Text-Archive darstellt, derzeit nur 15.858 Artikel, nachdem das Projekt im Jahr 2011 nach einer neunjährigen Pause wieder aufgenommen wurde. Im Gegensatz hierzu enthält Wikipedia um die 70.000 Artikel in der Sprache Malayalam, welche ungefähr so viele Sprecherinnen und Sprecher wie Oriya vorweist. Für sehr lange Zeit waren Inhalte in Oriya-Sprache online in Form von Bildern und PDFs verfügbar – einige, hierunter auch das Magazin Utkal Prasanga, welches vom Bundesstaat Odisha herausgegeben wird, publizieren auch weiterhin in einer Kombination aus Bildern und PDF-Formaten. Die späte Umstellung auf Unicode führte dazu, dass das Durchsuchen der Inhalte erschwert wurde.

Maschinelle Übersetzung trägt in hohem Maße zu einer erhöhten digitalen Präsenz von Sprachen bei, indem die Durchsuchbarkeit von Inhalten optimiert wird und indem jenen, welche die Sprache nicht beherrschen, der Zugang zum Inhalt erleichtert wird.

Auf Microsoft basierende Cloud-Dienste, darunter die Microsoft Translator-App, Office, die Bing-Translator-App sowie auch der Azure Cognitive Services-Übersetzer, werden nun allesamt Übersetzungen aus der Oriya-Sprache unterstützen. Sowohl Microsoft Translator als auch Google Übersetzer (verfügbar sowohl im Netz als auch als App) ermöglichen das Übersetzen von direkt ins Eingabefeld eingegebenem Text.

Zusätzlich unterstützen diese Plattformen auch die Übersetzung von Text-Dokumenten, Webseiten und Live-Chats. Die mobile Übersetzer-App von Google bietet zusätzliche Funktionen, hierzu zählen Offline-Übersetzungen, Handschriftenerkennung, Scannen, das Übersetzen und Lesen von Texten auf Bildern sowie die Anwendung von Spracheingaben zur Ermöglichung der Kommunikation in Fremdsprachen. Die Funktion “Zum Übersetzen Antippen” ermöglicht der Nutzerin bzw. dem Nutzer das direkte Übersetzen von eingetipptem Text in jeder Applikation. Ebenso kann man sich mit Googles Sprachsynthese-Anwendung anhören, wie ein Text in einer unterstützten Sprache ausgesprochen wird.

Die Aufnahme der Oriya-Sprache fand dementsprechend großen Anklang bei der Regierung des Bundesstaates Odisha. Das Amt des Regierungschefs von Odisha verkündete auf dessen Twitter-Account:

Microsoft hat nun Oriya zum Microsoft Translator hinzugefügt. Somit ist Oriya die am zwölft-häufigst verwendete indische Sprache, die hinzugefügt wird. Dies wird den Zugang zu globalen Informationen in der Sprache Oriya erleichtern und den Austausch zwischen unterschiedlichen Sprachen fördern.

Auch die Regierungsbehörde für Elektronik und Informationstechnologie Odishas reagierte darauf:

Der weltweit von Millionen von Menschen genutzte Google Übersetzer hat nun Oriya in die Liste der unterstützten Sprachen aufgenommen. Ein wichtiger Meilenstein in der Förderung der digitalen Bildung in unserer Muttersprache und eine Unterstützung für Millionen von Nicht-Muttersprachlern.

Maschinelle Übersetzung
Maschinelle Übersetzung wird zur Übersetzung von Text oder Gesprochenem aus einer Quellsprache in eine Zielsprache verwendet. Die von Google genutzte Übersetzung basiert auf neuronaler maschineller Übersetzung, einem computerbasierten System, das ein Verfahren anwendet, welches als künstlich neuronales Netzwerk bezeichnet wird. Hier werden umfangreiche Datenmengen, die aus Übersetzungen von Sätzen (aus einer Quellsprache in eine Zielsprache) bestehen, als Trainingsdaten genutzt.

Mit der Einführung von Oriya unterstützen Google Übersetzer und Microsoft Translator jetzt jeweils 11 indische Sprachen. Insgesamt unterstützt Google 109 Weltsprachen, während Microsoft 73 unterstützt.

Derweil steht eine Verwirklichung erfolgreicher Projekte maschineller Übersetzung in der Oriya-Sprache durch Open-Source-Initiativen noch aus.

Mindestens ein Open-Source-Gemeinschaftsprojekt befindet sich in Entwicklung – MTEnglish2Odia trainiert ein maschinelles Übersetzungssystem, indem Übersetzungspaare aus bereits bestehenden Quellen erfasst werden, hierzu zählen zum Beispiel Oriya-Wikipedia und Crowdsourcing-Projekte mit Twitter-Nutzendenbeiträgen.

Zudem gibt es noch einige Forschungsmaterialien und Ressourcen, die von anderen Organisationen genutzt werden können, um maschinelle Übersetzungssysteme aufzubauen.

Die Politik der maschinellen Übersetzung

Die von Google Übersetzer oder Microsoft Translator genutzte Technologie ist hinsichtlich sozialer, juristischer, ethischer sowie rechtlicher Aspekte eine komplexe Angelegenheit.

Eine Plattform für maschinelle Übersetzung kann für viele Menschen von großem Nutzen sein, einschließlich für Journalistinnen und Journalisten, um schnellen Zugang zu Nachrichten in mehreren Sprachen zu erhalten, oder auch für Studierende, die zum Lernen mehrsprachige Quellen hinzuziehen möchten.

In ähnlicher Weise unterstützt die Sprachsynthese Menschen mit Behinderungen, insbesondere Blinde, um einfacher auf Informationen zuzugreifen und diese zu teilen.

Bildungswesen, Medien und Unterhaltungsindustrie profitieren ebenfalls von der Möglichkeit, mit Google Übersetzer in kurzer Zeit viel Inhalt zu übersetzen.

Andererseits kann maschinelle Übersetzung auch zur Verbreitung von Falschinformationen beitragen, da die Sprachsynthese Betrügerinnen und Betrüger begünstigt, die Leute ausnutzen wollen, indem sie mit diesen in ihrer Sprache kommunizieren.

Es gibt weltweit mehr als 6.000 dokumentierte Sprachen und nur eine Minderheit dieser verfügen über etablierte Schriftsysteme. Dies sind die Sprachen, welche in die Projekte für maschinelle Übersetzung wie Google Übersetzer und Microsoft Translator aufgenommen werden.

Die Verfügbarkeit von Online-Content sowie auch die Anzahl an Internetnutzerinnen und -nutzern, welche eine bestimmte Sprache sprechen, spielen für gewinnorientierte Unternehmen eine tragende Rolle bei der Entscheidung, welche Sprachen in ihre Systeme aufgenommen werden sollen. Je mehr Sprachen ein Unternehmen unterstützt, desto eher kann es seinen Nutzerinnen und Nutzern zielgerichteten Inhalt liefern – und umso mehr Einnahmen können durch Werbung erzielt werden.

Hinzu kommen ethische Fragen hinsichtlich der Urheberschaft und Vergütung bei Projekten wie Google Übersetzer, welches zur Überprüfung bereits erstellter Übersetzungen auf einer Mitarbeiter*innen-Community-Struktur basiert (welche Ingenieurinnen und Ingenieuren dabei hilft, die Anwendung regelmäßig zu optimieren).

Obwohl Google ein gewinnorientiertes Unternehmen mit vielen kostenpflichtigen Produkten ist – einschließlich eines Cloud-Übersetzungs-Services – gibt es weder eine Vergütung noch eine Zuerkennung der Urheberschaft für die einzelnen Freiwilligen und die zahlreichen öffentlichen Quellen, die für das maschinelle Lernen eingesetzt werden.

Der Gebrauch von privaten Konversationen zur Optimierung von maschinellem Lernen und künstlicher Intelligenz ist auch mit Blick auf die Privatsphäre eine kontroverse Angelegenheit —  jedoch arbeitet Google an der Anonymisierung solcher Daten.

In einem Land wie Indien, wo das Erschaffen von mehrsprachigen Inhalten aus Kostengründen auf Engpässe trifft, können Produkte wie Google Übersetzer und Microsoft Translator das Business des Online-Contents revolutionieren. Sie können für Projekte wie Wikipedia, welches derzeit in 23 indischen Sprachen verfügbar ist, oder StoryWeaver, einer multilingualen Online-Plattform für Kinderliteratur, welche maßgeblich auf die Arbeit Freiwilliger angewiesen ist, einen Unterschied machen.

Durch das rasante Verschwinden vieler indischer Sprachen und die zusätzlichen Herausforderungen, welche aufgrund von Analphabetismus und der Zugänglichkeit digitaler Inhalte entstehen, ergibt sich für die Kommunikationsmedien die Notwendigkeit von einem Mehr an Innovation im Bereich der Sprach- und Bildtechnologie. Maschinelle Übersetzung kann als geeignetes Werkzeug zur Vermeidung des Aussterbens von Sprachen fungieren – doch Indien hat in dieser Hinsicht noch einen langen Weg vor sich.

Disclaimer: Der Autor arbeitet als freiwilliger Mitarbeiter seit 2011 für Oriya Wikipedia sowie seit dessen Startphase für das Projekt MTEnglish2Odia.

Unterhaltung beginnen

Für Autoren: Anmelden »

Richtlinien

  • Alle Kommentare werden moderiert. Sende nicht mehrmals den gleichen Kommentar, damit er nicht als Spam gelöscht wird.
  • Bitte geh respektvoll mit anderen um. Hass-Kommentare, Obszönes und persönliche Beleidigungen werden nicht freigeschaltet..