Neue Software für automatisierte Übersetzung von chemischen Namen

Die weltweit gültige chemische Terminologie ist in englischer Sprache definiert, der internationalen Kommunikationssprache der Chemiker. Die nationalen Organisationen der IUPAC übersetzen und publizieren die chemische Nomenklatur für die nationale Verwendung in den jeweiligen Landessprachen.

4-Chlorphenoxyessigsäure
EN: 4-chlorophenoxyacetic acid
DE: 4-Chlorphenoxyessigsäure
FR: Acide 4-chloro-phénoxyacétique
NL: 4-Chloor-fenoxy-azijnzuur
PL: kwas 1-chlorofenoksyoctowy
HU: 4-Klórfenoxiecetsav

Trotzdem sind Übersetzungen der Namen von chemischen Stoffen in der internationalen Kommunikation unvermeidlich. Denken wir allein an die Legislative der Europäischen Union, welche die Übersetzungen aller rechtlichen Vorschriften in die Sprachen der Mitgliedsstaaten vorschreibt, aber auch an die Patente, die in die Sprache des Landes übersetzt werden müssen, in dem sie gelten sollen.

Seit den 1960er Jahren wird ein Weg gesucht, die Chemikaliennamen mit Computerhilfe automatisch zu übersetzen; diese Bemühungen blieben bislang jedoch fast ausschließlich auf Übersetzungen aus dem Englischen begrenzt.

Seit eh und je standen diesen Bemühungen die große Komplexität und mögliche Verwechselbarkeit der Nomenklatur bei minimalen Änderungen im Wege: Leerzeichen zwischen den Bestandteilen der Verbindungen (phenyl acetate vs. phenylacetate), Verwendung von Groß- und Kleinbuchstaben (N-butylsulfinimidoylacetic acid vs. n-butylsulfinimidoylacetic acid) oder auch unterschiedliche Rechtschreibung (sulphur vs. sulfur).

Neben den systematischen Chemikaliennamen bestehen ihre älteren trivialen Namen. Die unterschiedlichen Benennungsarten können miteinander kombiniert werden; in manchen Sprachen wurden sogar manche Teile der internationalen Terminologie (zuletzt 1993 revidiert) bislang nicht übersetzt, und müssen daher vom üblichen Gebrauch in Lehrbüchern oder Fachtexten abgeleitet werden.

Wie sich gezeigt hat, konventionelle Maschinenübersetzung beißt sich an der Komplexität der chemischen Terminologie die Zähne aus. Lexichem, eine neue Software für automatisierte Übersetzung der chemischen Terminologie, schafft es, Namen von mehr als 250 000 chemischen Stoffen aus dem Englischen in sieben weitere Sprachen und umgekehrt mit einer Genauigkeit von über 98 % zu übertragen.

Für verschiedene Sprachkombinationen sind in Lexichem Regeldateien definiert, nach denen der Name in einer Sprache durch den Namen in einer anderen Sprache ersetzt wird. Wie die Anzahl der Regeln zeigt, sind die Übersetzungen der Namen ins Englische in der Regel komplizierter. Betrachte man alleine die orthografischen Variationen: soll Pyridin als pyridine oder pyridyne übersetzt werden? So sind 292 Regeln für Übersetzungen ins Deutsche, aber 831 Regeln für die umgekehrte Richtung definiert. Lexichem beherrscht auch Übersetzungen aus dem und ins Japanische, wo wegen der Besonderheiten der Zeichensprache der Regelumfang noch größer ist (742 für die Richtung en > jp und 1481 für die Richtung jp >en).

Der Kontrollmechanismus der Rückübersetzung zeigt die Effizienz der Lexichem-Technologie: beim Deutschen wird eine 100%-Übereinstimmung erreicht, beim Japanischen sind es 99,92 %, beim Ungarischen jedoch nur noch 98,41 %. Für die Übersetzung von Dokumenten, an die die höchsten Genauigkeitsanforderungen gestellt werden, wie eben von gesetzlichen Vorschriften oder Patenten muss der Output von Lexichem ohnehin geprüft werden. Die Software stellt auf jeden Fall eine bedeutende Hilfestellung zur Effizienzsteigerung des Übersetzungsprozesses dar. Die Geschwindigkeit ist beachtlich: auf einem handelsüblichen Bürocomputer übersetzt sie 250 000 zusammengesetzte Namen aus dem Englischen ins Deutsche innerhalb von 2 s.

Für neue Lexichem-Versionen wird die Unterstützung weiterer Sprachen vorbereitet, automatische Kontrolle von fehlerhaft geschriebenen englischen Namen, und es wird auch am Problem gearbeitet, wie aus einem größeren Textgesamten chemische Namen separiert werden können, die von der Software übersetzt werden sollen.