FAQs

Häufige Fragen (und Sorgen) oder „Alles, was Sie schon immer über maschinelle Übersetzung wissen wollten, aber nicht zu fragen wagten“

Durch Implementierungen, kostenlose Trainingsprogramme und mehrere für unsere eigenen Anwendungen/Kunden entwickelte domänenspezifisch angepassten Systeme haben wir erkannt, dass es einige wichtige Fragen, Sorgen und Missverständnisse gibt, wenn sich Unternehmen, andere Sprachdienstleister und sogar Übersetzer mit dem Einsatz von maschineller Übersetzung befassen. Maschinelle Übersetzung ist ein großes Thema. Vergangen sind die Zeiten, als Übersetzungsunternehmen dies behaupten konnten: „Maschinen werden niemals so qualitativ hochwertig wie Menschen arbeiten können“. Der Marktdruck und vor allem die Notwendigkeit, die Markteinführung von Texten zu beschleunigen, haben die Automatisierung von Übersetzungen ins Zentrum des Interesses gerückt. Einige Entwicklungen wurden sogar von der Presse veröffentlicht und die Vielzahl an kostenlosen, allgemeinen Nur-Text-Domain-Systemen im Web wie Google Translate haben die Übersetzung und den schnellen Sprachentransfer zu einer Priorität für internationale Geschäfte gemacht. Präsident Obamas Aufruf im Oktober 2009 zur Förderung und Verbesserung der maschinellen Übersetzung, um der Welt zu helfen und sich besser zu verständigen und zu verstehen, ließ das Thema nur noch mehr an Dynamik gewinnen (Berichte in der New York Times und The Economist, März 2010).

Ja, einige Übersetzungstechnologien gibt es bereits seit über 50 Jahren, aber wieviel besser sind die neuen Technologien? Wie kann maschinelle Übersetzung erfolgreich integriert und in einem echten Produktionsumfeld eingeführt werden? Was ist die erwartete Produktivitätssteigerung und die daraus resultierende Kosteneinsparung? Wie werden Übersetzer und Angestellte auf den Output der maschinellen Übersetzung reagieren? Wie kann man sie verwalten? Wie bei jeder Innovation kommt es zu Sorgen und Unsicherheiten – bis einige Erfolgsgeschichten den Weg weisen. Mit der Beantwortung der 17 Schlüsselfragen (oder anderen, die Sie vielleicht haben) hoffen wir, genügend Informationen aus unserer Erfahrung heraus sowie einige praktische Ansätze dazu zu liefern, wie diese neue Herausforderung in eine innovative, wettbewerbsfähige Strategie umgesetzt werden kann. Wenn Sie sich oder jemand anderem die folgenden Fragen gestellt haben, wird dies ein wichtiges Kapitel für Sie sein.

Frage 17 – Kann man mit Ihrer maschinellen Übersetzung Tschechisch gut übersetzen?

Dies sind typische Fragen von einigen unserer Kunden, die eine slawische Sprache sprechen: Kann man mit Ihrer maschinellen Übersetzung Tschechisch gut übersetzen? Kann man mit Ihrer maschinellen Übersetzung Russisch gut übersetzen? Kann man mit Ihrer maschinellen Übersetzung Kroatisch gut übersetzen? Slawische Sprachen haben viele Fälle (Wortflexionen). Dies führte dazu, dass die statistische maschinelle Übersetzung ziemlich schlecht funktionierte, da die Möglichkeiten einer beliebigen Reihenfolge recht gering waren. Diese Art von Sprachen werden auch als „morphologisch reiche Sprachen“ bezeichnet, da eine Vielzahl von Kombinationen möglich ist. Neuronale Netze haben den Ansatz völlig verändert. Ein neuronales Netz arbeitet weit unterhalb und oberhalb der Wortebene, um die Komplexität zu verstehen, mit der jedes Wort gebildet wird und wie es in Beziehung zu den Wörtern daneben steht. Das bedeutet, dass maschinelle Übersetzung, die auf neuronalen Netzen basiert, die Bezüge zwischen den verschiedenen Wörtern innerhalb eines Satzes besser versteht. Unter Berücksichtigung der Zusammenhänge zwischen den Wörtern, die sich aus den bereitgestellten Trainingsdaten ergeben, liefert die auf neuronalen Netzen basierende maschinelle Übersetzung eine Übersetzung, die das Gefühl eines fast menschlichen Sprachflusses oder einer maschinellen Übersetzung in menschlicher Qualität vermittelt. Einer unserer Kunden hat uns gefragt: Ich dachte, dass PangeaMT nur generische Systeme bereitstellt und wir diese Systeme mit unseren eigenen TMs anpassen und domänenspezifische „Mirrors“ (über das „OnlineTraining“-Modul) erstellen können. Mir ist zudem bewusst, dass unsere Sprachkombinationen (EN <-> CS and DE <-> CS, in beiden Richtungen) nicht genug von anderen MT-Anbietern unterstützt werden (die tschechische Sprache ist sehr kompliziert für MT-Lösungen). Also wollte ich fragen, ob PangeaMT auch diese zwei Sprachkombinationen anbietet. Ja, man kann sein System tatsächlich mit unserem Online-Tool über den eigenen Server anpassen. Dies bietet für ein Übersetzungsbüro viel Freiheit und Unabhängigkeit beim Einrichten einer Umgebung für die maschinelle Übersetzung. Als Sprachberater setzen sich Linguisten mit Texten und Dokumenten unterschiedlicher Art und widersprüchlicher Terminologie auseinander. Alles in einem einzigen System zu mischen, würde der Leistung und Genauigkeit schaden. Nehmen Sie die folgende tschechisch-englische TMX-Datei als Beispiel.

Übersetzer kennen dieses Format sehr gut. Es handelt sich um die txt-Version (Datenbank-Version) eines Übersetzungsspeichers. Jedes Mal, wenn ein Übersetzer ein Segment speichert, erstellt er ein Äquivalent des Ausgangssatzes in der Zielsprache. Das ist wunderbar für das maschinelle Lernen geeignet, da Übersetzer parallele Daten erstellen. Dies ist die Basis von vielen Entwicklungen bei PangeaMT. Ein neuronales Netz wird, falls notwendig, die Zusammenhänge zwischen den Sätzen und Ähnlichkeiten auf der Silben- und Zeichenebene finden (das ist eine besonders nützliche Funktion beim neuronalen Training namens BPE). Dies ist auch der Grund für den Erfolg und die höhere Akzeptanz der neuronalen maschinellen Übersetzung als die bisherige n-Gramm-basierte „statistische maschinelle Übersetzung“, die bei kurzen Sätzen immer noch erfolgreich ist, aufgrund ihrer höheren „Gedächtnisleistung“, wie in unseren ersten Veröffentlichungen über neuronale maschinelle Übersetzungsentwicklungen im Jahr 2017 erklärt wurde. Unsere damaligen Erkenntnisse bewiesen, dass ein kurzer Satz mit weniger als 9-10 Wörtern wahrscheinlich mit einem statistischen System genauer übersetzt werden konnte als mit einem neuronalen System. Da sich das System im Laufe der Jahre verbessert hat, wurde der Unterschied zwischen dem einen und dem anderen System geringer. Es ist jedoch wahr, dass, wenn E-Commerce-Websites nur ein paar Wörter übersetzen müssen und diese Wörter Teil der Trainingsdaten waren, ein statistisches System sie schneller und effizienter abrufen wird. Ein neuronales System wird den Satz jedoch flüssiger und menschenähnlicher rekonstruieren. Wenn Sie uns also fragen, ob maschinelle Übersetzung Tschechisch gut übersetzen kann, lautet die Antwort: JA! Wir haben das Team, die Technologie und die Daten, sodass Ihr MT-System flüssig läuft und ein hochqualitatives Ergebnis bei Millionen von Wörtern liefert!

Frage 16 – Wie sieht es mit der Datenbereinigung aus? Wie ist Ihre Vorgehensweise?

Unternehmen dürfen den Aufwand der Datenbereinigung nicht unterschätzen (und beginnen ihn oft erst zu verstehen), wenn sie beginnen, zweisprachige (parallele) Daten für das maschinelle Lernen zu exportieren. Aufgrund von CAT-Limitierungen und Funktionen kann „Rauschen“ in Form eines ungewollten Codes auftreten, aber das Konzept der Datenbereinigung beinhaltet mehr als das Entfernen von Inline-Kodierungen, wie bereits in Frage 14 erklärt. Einige typische Beispiele für die notwendige Datenbereinigung wurden bei der Japan Translation Federation 2011 als Teil unserer auf der Syntax des Japanischen basierten hybriden maschinellen Übersetzung vorgestellt. Jeder, der lange genug in der Übersetzungsbranche tätig ist, ist schon einmal auf einen „schlechten“ TM gestoßen. Dies kann in vielen Formen auftreten, von einer schlichtweg schlechten Übersetzung bis hin zu terminologischer Ungenauigkeit etc. Zum Glück für unsere Anwender ist diese Art der Datenbereinigung Teil des Standardverfahrens von PangeaMT geworden. Einige der einfachen Bereinigungszyklen werden im Folgenden beschrieben. Sie berücksichtigen einige Verfahren, die für die Systembetreiber automatisiert wurden, damit diese sicher sein können, dass

  • ihre anfänglichen Trainingsdaten vor dem Systemtraining sauber sind, um die bestmöglichen Ergebnisse zu erzielen
  • jedes zukünftige post-editierte Material ebenfalls einen einwandfreien Reinigungszyklus durchläuft, um eventuelles Rauschen, welches in das System eingebracht wird und somit die Trainings beeinflussen kann, zu überprüfen.

PangeaMT muss zunächst sicherstellen, dass das erste Trainingsset des Kunden vor dem Training alle Bereinigungskontrollen bestanden hat. Dies führt zu einem bereinigten Bitext (paralleler Textkorpus) und unterstützt das Lernen am Computer. Zusammen mit den PangeaMT-eigenen Prozessen, von sprachspezifischen Regeln bis hin zu Syntax- oder POS-Tagging, gelangen die Daten in den Trainingszyklus des Systems. Dies ist keine umfassende Liste aller Bereinigungsschritte. Dennoch wird es den Nutzern ermöglichen, zu erkennen, welche Art von Material für die menschliche Bestätigung extrahiert wird, bevor sie wieder den Trainingszyklus beginnen. Alle als „verdächtig“ erkannten Segmente werden aus dem Trainingsset für die menschliche Bestätigung / Revision / Bearbeitung im TMX-Format herausgenommen und dann wieder in das System eingegeben.

  1. Segmente mit signifikanten Längenunterschieden zwischen Ausgangs- und Zielsegment Im Allgemeinen betrachten wir einen Satz als „verdächtig“, wenn er mehr als 50% länger ist, aber dies kann je nach Ihren individuellen Bedürfnissen variieren (z.B. ist Tschechisch normalerweise kürzer als Englisch und Französisch ist 25% oder 30% länger als Englisch, was an sich kein Hinweis darauf ist, dass etwas nicht in Ordnung ist).
  2. Segmente, in denen das Ausgangs- oder Zielsegment typographische Symbole enthält, die im anderen Segment fehlen, wie z.B. [ ], *, + =.
  3. Segmente, in denen Ausgangs- und Zielsegment identisch sind.
  4. „Leere Segmente“, das heißt Segmente mit Ausgangssegment, aber ohne Zielsegment.
  5.  Segmente, die bestimmte Namen oder Ausdrücke enthalten, die Teil der bevorzugten Terminologie des Kunden sind.

All dies sind Kandidaten für die menschliche Überarbeitung. Dies ist eines der Dinge, die PangeaMT von anderen Angeboten unterscheidet: Wir schulen Sie und stellen Ihnen die Tools zur Verfügung, damit Sie bei zukünftigen Trainings Ihr eigener Chef werden. Saubere Daten sind der Weg zu einem qualitativ hochwertigen Input und damit zu einer verbesserten Systemleistung. Der alte Übersetzungsspruch „Unsinn rein, Unsinn raus” trifft zu. Dank unserer Bereinigungsroutinen können Sie sicher sein, dass Sie ein System besitzen, das „fragwürdiges“ Material für Sie entfernt. Aber, denken Sie bitte auch nach der Installation daran, dass Sie ein ganzes Jahr lang kostenlosen Support haben. Bei allen seltsamen Ergebnissen, die Sie sehen oder feststellen, allen Muster, die Sie anwenden/korrigieren möchten, sind wir für Sie da, um Ihnen zu helfen. Dies ist kein Blackbox-System oder ein Unternehmen, das Wörter oder Systeme verkauft. Unser Modell ist das „User Empowerment“, d.h. der Technologietransfer.

Frage 15 – Wie unterscheiden Sie sich von Google Translate?

Es gibt große Unterschiede. Als Teil seiner Mission, die Informationen der Welt zu organisieren, übernimmt das Unternehmen Google die Übersetzung sehr geschickt als ein informatives Angebot. Die Übersetzung ist jedoch allgemein gehalten. Die Übersetzungsanwendung von Google ist tatsächlich auf dem neuesten Stand der Technik. Das Unternehmen will damit jedoch ein Webportal bereitstellen, das Übersetzungsanfragen aus allen Themenbereichen bearbeiten kann.  Google entschied sich dazu, die regelbasierte Herangehensweise an die maschinelle Übersetzung aufzugeben und statistische Methoden für die Übersetzung zu verwenden. Wir haben bei unseren ersten Versuchen mit MT Ähnliches festgestellt. Dies ist nicht ungewöhnlich, da die Wissenschaftler beider Organisationen entschiedene SMT-Befürworter sind und es eine gewisse akademische Zusammenarbeit zwischen PangeaMTs Kernteam für Forschung & Entwicklung und einigen der führenden Forschern von Google gegeben hat. Während sich Google darauf spezialisiert hat, so viel allgemeine Informationen wie möglich verfügbar zu machen und über Ressourcen verfügt, um Daten mit Trillionen von Wörtern zu sammeln, ist PangeaMTs Methode die Erstellung einer angepassten Anwendung für Ihre persönlichen Anforderungen, mit Ihrer bevorzugten Terminologie, Wortwahl und Ihren bevorzugten Ausdrücken. Kurz gesagt, eine maschinelle Übersetzungsanwendung, die so übersetzt, wie Sie es sich wünschen. Trainingsdaten werden typischerweise von Ihnen zur Verfügung gestellt und von PangeaMT verbessert. Zusätzliche Sprachdaten können hinzugefügt werden, damit genügend Wortschatz im System vorhanden ist. Ein Sprachmodell kann speziell für Sie entwickelt oder an Ihre Zwecke angepasst werden. Darüber hinaus ist das System von PangeaMT so konzipiert, dass es sich an aktuelle TM-basierte Systeme anpasst und diese unterstützt, indem es TMX- oder xliff-Formate übersetzt, was Google Translate nicht kann (es übersetzt nur reinen Text). Durch die Übersetzung von Dateien und nicht nur von reinem Text fügt sich PangeaMT direkt und einfach in jeden Lokalisierungs- oder Knowledge Base-Workflow ein. TMX- oder XLIFF-Dateien können mit den meisten (wenn nicht sogar allen) alten CAT-Tools als Bearbeitungswerkzeuge einfach nachbearbeitet werden. Kurz gesagt, die Entwicklungen von PangeaMT passen in aktuelle Übersetzungsumgebungen und automatisieren aktuelle Prozesse, während Google Translate ein informatives System ist.

Frage 14 – Ich arbeite mit Texten, die voller Inlines und Tags sind. Die meisten SMT-Systeme bieten nur reinen Text an und es dauert lange, bis die Inlines und Tags mit Hilfe von Copy und Paste wieder an der richtigen Stelle sind. Haben Sie etwas getan, um dieses Problem zu lösen?

Ja, das haben wir. Systeme zur statistischen maschinellen Übersetzung können normalerweise nur reinen Text ausgeben, da sie auch nur dieses Format verarbeiten können. Es freut uns jedoch sehr, PangeaMT in vollem Einsatz zu sehen, wobei es den höchsten Anforderungen der Sprachindustrie gewachsen ist. Darum liegt unser Hauptaugenmerk bei der Entwicklung von SMT-Systemen darin, diese so zu gestalten, dass sie mit Inline-Kodierungen umgehen können, wie sie bei anderen in Lokalisierungsumgebungen verwendeten Inhaltsformaten typischerweise vorkommen. Dank eines innovativen Inline-Parsers kann PangeaMT Inlines identifizieren, ohne zu versuchen, sie zu übersetzen. Zuerst wird ein Inline-Platzhalter eingefügt und dann vor der Ausgabe durch den Inline-Inhalt selbst ersetzt. Wenn das System Texte mit vielen Inlines verarbeiten muss, kann darunter die Qualität der Übersetzung leiden. In diesem Szenario können sich einige Kunden dafür entscheiden, Inline-Instanzen zu identifizieren und an einer bestimmten Segmentposition (z.B. Anfang oder Ende) zu platzieren und ihre Post-Editoren den Tag wieder an die richtige Stelle verschieben zu lassen. Oder sie entscheiden sich dafür, dass das System an den entsprechenden Stellen Inline-Kodierungen produziert. Die Erfahrung zeigt, dass dies eine passende Option ist. Nach unserem Wissen stellt dieser Inline-Parser nach dem aktuellen Entwicklungsstand der bekannten SMT-Systeme eine echte Innovation dar. Außerdem sind die PangeaMT-Lösungen die einzigen, die Ihnen eine Auswahl an Inhaltsformaten (txt / TMX / XLIFF) bieten, da wir eine doppelte Mission haben: das Befolgen offener Standards und die bestmögliche Demokratisierung der maschinellen Übersetzung. Schauen Sie sich unsere Online-Demo an, in der Sie unseren TMX-Generator und einige gekürzte Versionen unserer Domain-Systeme in ein paar Sprachrichtungen testen können!

Frage 13 – Was meinen Sie damit, wenn Sie sagen, dass Ihr System auf offenen Standards basiert? Wo liegt der Unterschied zu anderen Modellen?

Es bedeutet, dass wir branchenweite Standards unterstützen, die nicht im Besitz eines einzelnen Unternehmens sind. Wir möchten die Übersetzung demokratisch machen, insbesondere die Welt der maschinellen Übersetzung. Beides wurde von Technologieinhabern mit einem guten Auge für das Geschäft dominiert, aber die Fakten sagen uns deutlich, dass es wenig Interesse an der Weiterentwicklung der Branche gab. Mit offenen Standards gibt es keine teuren „Lock-Ins“, keine teuren Upgrades und Aktualisierungen. Natürlich muss das System mit nachbearbeitetem Material aktualisiert werden, aber dabei handelt es sich um die Lernkurve des Systems. Ein Übersetzungssystem macht sich durch eingesparte Übersetzungsgebühren schon nach weniger als einem Jahr bezahlt. Eine Aktualisierung mit Post-Editing-Material kostet nur einen Bruchteil davon. Sobald Ihre Entwicklung ausgereift ist, besteht nur noch geringer Wartungsbedarf, es sei denn, Sie sind ein anspruchsvoller Firmenanwender mit sehr spezifischen Anforderungen. Sie können sich dann auf die Produktion von immer mehr übersetztem Material konzentrieren oder die Möglichkeit in Betracht ziehen, mehr angepasste Systeme zu erstellen.

Fragen 12 – Gibt es gute (oder noch besser, kostenlose) Post-Editing-Tools, die Sie empfehlen können?

Ja. Jedes CAT-Tool wird zu einer hervorragenden Post-Editing-Umgebung. Wenn Sie einem TMX-Workflow mit offenen Standards folgen, können Sie Matches aus Ihrem TM nutzen und gleichzeitig von großen Teilen des übersetzten Textes profitieren. Sie können auch Freeware-Tools wie XBench verwenden, die bei der Nachbearbeitung von TMX-Dateien helfen und sogar die Konsistenz zwischen den Segmenten vor dem endgültigen Korrekturlesen prüfen.

Frage 11 – Wie sieht es mit Konsistenz aus? Wie stellen Sie sicher, dass die Terminologie meines Unternehmens statistisch gesehen vor anderen Optionen Vorrang hat?

Im Normalfall sollten Ihre angepassten Systeme nur Ihre eigenen Daten enthalten, um zu garantieren, dass keine verrauschten Daten Ihren Schreib- oder Firmenstil stören. In Wirklichkeit haben nur wenige Organisationen so viele Daten zur Verfügung. Das Sammeln von Daten und die Beratung darüber, wie man relevantere Daten erhält, ist zu einer Lieblingsbeschäftigung der SMT-Entwickler geworden. Zu unseren PangeaMT-Beratungsservices gehört es, dass wir Ihrem ursprünglichem Datensatz mehr Gewicht verleihen, sodass ein großer linguistischer Textkorpus Teil des Trainings wird (wir verfügen höchstwahrscheinlich über ausreichend Daten, um ein Sprachmodell zu erstellen oder eines unserer Sprachmodelle Ihrem Stil anzugleichen). Alle Daten, die wir hinzufügen, werden für Ihr Fachgebiet relevant sein und die Systeme werden mit und ohne sie getestet, so dass Sie die Auswirkung von mehr Daten auf Ihre Entwicklung überprüfen können. (Eine Kurzfassung eines beispielhaften Tests finden Sie in unseren Neuigkeiten vom Oktober 2009. Dies war Teil eines kostenlosen Tests für mehrere Organisationen.) Allgemein wird angenommen: je mehr Daten, desto besser. Es gab Diskussionen darüber, ob kleinere und sauberere Datensets für mehr Genauigkeit sorgen. Dies hängt weitgehend von Ihrer Anwendung ab und ob Ihr System „Weltgewandtheit“ benötigt oder ob Sie ein System für einen ganz bestimmten Bereich benötigen. 2 Millionen Wörter mit Bauingenieurdaten werden wahrscheinlich wenig Wirkung zeigen, wenn Sie ein System für eine Softwarefirma erstellen wollen, die Viren bekämpft, oder für ein medizinisches Unternehmen, das sich wiederum mit einer ganz anderen Art von „Viren“ befasst. Es ist ein häufiger Fehler, immer mehr Daten hinzuzufügen und zu denken, dass sie irgendwann nützlich sein werden. Unsere Studien kommen stattdessen zu dem Schluss, dass es besser ist, Ihr Sprachmodell so zu belassen, wie es ist, wenn die neuen Daten wahrscheinlich nicht benötigt/abgerufen werden. Kurz gesagt, gibt es keine Möglichkeit, um sicherzugehen, dass Statistiken auf die eine oder andere Art funktionieren werden (das ist genau der Punkt bei der Statistik, es werden Chancen von Ereignissen berechnet). Wenn das System zu umfangreich ist, können Vor- und Nachbearbeitungssysteme (in einer Art Hybridisierung) gebaut werden, um bestimmte Ausdrücke zu „fixieren“ oder zu „erzwingen“. Es gibt andere Wege, um auf höhere Chancen hinzuarbeiten, wie es mit der Methode mit kombinierten Systemen oder der kombinierten Hypothese (d.h. das Kombinieren von Teilen wahrscheinlicher Ergebnisse mit einer hohen Sicherheit, um Sätze neu zu bilden, die das System neu verarbeitet) möglich ist. Bisher haben wir gute Erfahrungen mit Post-Editoren gemacht, die zur Überprüfung der Terminologiekonsistenz die gleichen Terminologie-Tools wie bei den CAT-Tools verwenden.

Frage 10 - Können Sie jede Sprachkombination zusammenstellen (z. B. Chinesisch oder Japanisch ins Spanische oder Russische)? Welche Herausforderungen gibt es?

Das ist der größte Vorteil von statistischen Systemen. Alles, was Sie brauchen, sind Daten und keine linguistischen Kenntnisse darüber, wie sich Sprache A zu Sprache B verhält. Wenn Sie „Regeln“ zwischen Japanisch und Chinesisch und einer beliebigen europäischen Sprache erstellen wollen, stehen Sie vor einer schwierigen Aufgabe. Die Übertragungsregeln sind zwischen nicht verwandten Sprachen immer weiter entfernt. Aber mit einem statistischen System analysiert Ihr System die Änderungen eines Wortes oder einer Reihe von Wörtern, wenn in anderen Sprachen andere Ausdrücke gebraucht werden. SMT-Systeme arbeiten auch sehr gut mit ähnlichen oder „verwandten“ Sprachen, da nur wenig Umordnung erforderlich ist. Wenn wir es mit sehr unterschiedlichen Sprachen zu tun haben, werden periphere Prozesse, Vor- und Nachbearbeitung sowie die Neuordnung von Wörtern (zum Erreichen der Flüssigkeit des Satzes) sehr wichtig. Der Aufbau des Sprachmodells ist ebenfalls wichtig, aber der Schlüssel ist wirklich eine gute Vor- und Nachbearbeitung. Die Antwort lautet also: Ja, jede beliebige Sprachkombination kann aufgebaut werden, und das viel schneller und effizienter als bei regelbasierten Systemen.

Frage 9 – Kann ich meine TM-basierten Systeme nicht mehr nutzen, wenn ich MT nutze? Können Sie MT in meine TM-basierte Software integrieren?

Es gibt mehrere Möglichkeiten, wie Sie eine SMT-Entwicklung innerhalb Ihrer Organisation nutzen können. Eine unserer neusten Entwicklungen wurde 2012 auf der Localization World in Barcelona vorgestellt. Diese neue Version von PangeaMT bietet Selbsttraining (so dass Sie für Aktualisierungen nicht mehr auf uns zurückkommen müssen), automatische Erstellung von Systemen, Glossare und viele andere Funktionen. Klicken Sie hier, um die Pressemitteilung zu lesen. PangeaMT bietet Ihnen: –       Einen vollständigen MT+PE Service, hauptsächlich für Firmenanwender, die eine Paketlösung suchen. Wir entwickeln das MT-System mit Ihren Daten und sind für die Entwicklung und das Training der Änderung sowie für das Post-Editing des Outputs verantwortlich. Das System kann auf beiden Seiten eingesetzt werden und produziert reinen Text. Seit 2009 bieten wir einen nahtlosen TMX-Workflow, seit 2010 XLIFF-Kompatibilität und seit 2011 TTX-Integration mit %-Match-Erkennung, so dass Sie Text aus Ihren bestehenden TMs mit Ihrem CAT-Tool nutzen und dann das System die schwere Arbeit erledigen lassen können. –       SaaS-Dienste (wir entwickeln mit Ihren Daten ein „thematisches“ System, in der von Ihnen gewünschten Domäne und Sprache, und Sie nutzen dies im Rahmen eines „Pay-as-you-go“-Service, indem Sie rohe MT-Ausgaben kaufen, die Sie dann intern im TMX-, XLIFF- oder TTX-Format nachbearbeiten.  Das System wird intern bei PangeaMT gehostet. Die beliebteste Implementierung ist jedoch unsere Anpassung eines Systems, welches intern auf dem Server des Kunden gehostet wird. Auch hier entwickeln und trainieren wir ein System, das zu Ihrer Domäne und Ihren Ausdrücken passt, und verwenden Ihre TM-Daten und relevante Daten, um es zu erstellen. Es wird zusammen mit einer Reihe von Peripheriemodulen (Tag-Parser, Intranet-Webinterface, Datenübertragungsskripte, Sprachmodell, Bedienfeld usw.) auf Ihrem Server installiert. Es kann dann innerhalb Ihrer Organisation so oft wie gewünscht für Übersetzungen verwendet werden. Es gibt lediglich eine Limitierung dafür, auf wie vielen Servern das System installiert werden kann. Es gibt eine Phase der Systemanpassung und des Anpassens an Ihr eigenes System, und natürlich ist ein erneutes Training sehr empfehlenswert, nachdem Sie eine gewisse Menge an nachbearbeitetem Material gesammelt haben. Ihre vorhandene TM-Software (oder jede neue, die Sie erwerben) kann zu Ihrer Post-Editing-Umgebung werden. Es ist nicht nötig, eine lange Lernphase mit Ihren bestehenden Linguisten und Lieferanten zu durchlaufen. Da PangeaMT mit einem TMX-Workflow arbeitet, müssen Sie lediglich die zu übersetzenden Segmente exportieren (die typischerweise unter 70% oder 75% übereinstimmen), das TMX übersetzen lassen und Ihre Projekt-TM aktualisieren, unter Anwendung eines Penalty-Werts für MT!-Übersetzungen, damit Ihre TM-Software jedes Mal stoppt, wenn sie ein maschinell übersetztes Segment findet. Alternativ können Sie Ihre vorhandenen Übersetzungen aus Ihrem TM unter Verwendung des offenen Standards XLIFF oder des geschützten TTX in einem CAT-Tool verwenden und den Dateisatz zur Übersetzung an Ihr PangeaMT-System senden. Es könnte nicht einfacher sein und so kann das System problemlos in Ihre bestehende TM-Umgebung eingebunden werden. Der Vorteil ist, dass Sie Ihre CAT-Software nicht erneut aktualisieren müssen, denn Ihr System arbeitet nun mit maschineller Übersetzung und wird sich mit den Daten, die Sie generieren, verbessern. Darüber hinaus bietet das System die Vorteile der Nutzung von hochprozentigen Übereinstimmungen aus Ihrem TM (bei denen eine maschinelle Übersetzung keinen Sinn machen würde, da ein Mensch den Unterschied schnell erkennen kann) mit der Leistung eines domänenspezifischen SMT-Systems. Eine Alternative (je nach der von Ihnen verwendeten CAT-Software) ist die Erstellung einer API, die Segment für Segment eine Schnittstelle zu Ihrer Übersetzungssoftware bildet, wenn die Übereinstimmung des TMs nicht einen bestimmten Grenzwert erreicht. Die Einsparungen bei den Übersetzungen sind unmittelbar. Sie können dadurch mehr Inhalte und Text erstellen und mehr Kunden gewinnen.

Frage 8 – Gibt es einen „Widerstand seitens der Übersetzer“, zum Post-Editor zu werden?

Wenn Sie sich an den Widerstand der Übersetzer gegen die Verwendung von CAT-Tools in den späten 90er-Jahren erinnern (ich erinnere mich, ich war damals freiberuflich in Großbritannien tätig), bekommen Sie eine Vorstellung davon, welches Image das Post-Editing im Jahr 2010 und danach haben könnte. Jede „neue“ Technologie (oder Technik) hat schon immer Widerstand erfahren. Es gibt nichts, was wir mehr lieben als Sicherheit und Garantien. In der Übersetzungswelt bedeutet das, dass der Lebenszyklus der CAT-Tools relativ lange ist. Damit meinen wir nicht die allgegenwärtigen Tools, die so gut vermarktet werden, sondern auch die weniger bekannten Tools, welche die Arbeit auch ziemlich gut erledigen können. Einige haben sich bewusst bemüht, Plug-Ins für MT anzubieten (wie z. B. Swordfish, von maxprograms.com) und sind wie PangeaMT für offene Standards mit einer „no lock-in“-Mentalität konzipiert. Jetzt sagen Sie Ihren Übersetzern mal, dass sie maschinelle Übersetzungen „korrigieren“ sollen und das bei weniger Bezahlung. Zurück in den 90er-Jahren… Tatsächlich könnte es einen gewissen Widerstand von langjährigen Übersetzern geben. Aktuelle Absolventen werden noch immer in der Übersetzungstheorie in Verbindung mit computergestützten Tools ausgebildet. Da jedoch die Endnutzer bereits in bestimmten Kontexten mit fertigen Systemen arbeiten können, auch wenn diese noch nicht vollständig an ihre Domäne angepasst sind, wird die Post-Editing-Phase möglicherweise zum Auswahlkriterium. Vor der vollständigen Implementierung führen Unternehmen, Organisationen, Branchen und Sprachdienstleister in der Regel quantifizierbare Bewertungspilotprojekte durch, um sich an die Aufgaben des Post-Editings zu gewöhnen, häufige Änderungen für die Anwendung automatischer Lösungen zu identifizieren und die Erwartungen hinsichtlich Qualität und Preisgestaltung auf objektive Daten zu stützen. Dies bedeutet, dass künftige Post-Editoren, ob es sich nun um aktuelle Übersetzer oder neu eingestellte Mitarbeiter handelt, zu einem bestimmten Zeitpunkt vor der Implementierung involviert werden müssen. Das Post-Editing ist immer noch ein neuer Beruf und das Experimentieren mit MT-Systemen ist erforderlich, um eine Reihe von Fähigkeiten in Bezug auf jede Sprache zu erlangen. Zum Beispiel, wenn Sie ein System nutzen, welchem allgemeine „Welt“-Vokabeln oder sehr seltene Wörter fehlen. Dies kann bei großen Systemen stören und wenden statistische Wörterbuchmodule an, um Wörter hinzuzufügen, die nicht in Ihrem Trainingstextkorpus enthalten waren. Dennoch denken Post-Editoren in Lokalisierungs- oder Dokumentationsumgebungen vielleicht, dass es besser ist, unbekannte Begriffe in der Ausgangssprache zu belassen, damit sie „Suchen & Ersetzen“ ausführen und schnell nachbearbeiten können. Erwarten Sie also den gleichen Widerstand, auf den jede neue Technologie stößt, aber erklären Sie die Vorteile der Technologie. Menschliche Übersetzung kann die Probleme im Bezug auf Schnelligkeit und Kosten im Zeitalter der digitalen Inhalte nicht lösen. Es gibt einfach nicht genug qualifizierte Übersetzer, und selbst wenn es sie geben würde, würden die Logistik und die Kosten bei der Übersetzung von 50.000 Wörtern innerhalb von einem oder zwei Tagen die Projektmanager in den Wahnsinn treiben. Dieser Druck könnte auch die hohe menschliche „Fluktuation“ in der Sprachindustrie erklären. Die Wahrheit ist, dass mit dem Aufkommen von Online-Übersetzungsdiensten und Desktop-Services und MT-Server-Systemen Maschinen bereits mehr Wörter als Menschen übersetzen….

Frage 7 – Wie hoch ist der ROI bei einem MT-System?

Normalerweise spart man das Geld, welches man für das MT-System bezahlt hat, bereits innerhalb des ersten Jahres der Inbetriebnahme wieder ein. Die Mission von PangeaMT ist es, Demokratie in die Welt der maschinellen Übersetzung zu bringen und die Technologie für so viele Benutzer wie möglich erschwinglich und nutzbar zu machen. Die Kosten für ein Übersetzungssystem sind sehr preiswert geworden. Somit profitieren die Frühanwender mehr, da ihre Systeme schneller den gewünschten Entwicklungsgrad erreichen können. Dies wiederum bedeutet Kosteneinsparungen und die Möglichkeit, Prozesse in mehr Sprachen und Domänen zu automatisieren. Die folgende Grafik zeigt die Kosten für die Übersetzung von 750 Tausend neuen Wörtern mit einem CAT-Tool bei 11c. Es wurden zwei halbjährliche Software-Aktualisierungen berechnet. SMT = Kosten für kundenspezifische Trainings (1. Jahr), 2 jährliche Updates und 750k neue Wörter zu 60% des Übersetzungspreises. „Schutzplan“ aus dem Jahr 2.* * Inklusive Inline-Parser

  CAT-Übersetzungskosten bei 750 Tausend neuen Wörtern pro Jahr SMT + Training + Aktualisierung + PE 750 Tausend
1. Jahr 82.500 43.912,5
2. Jahr (Softupgrade) 85.500 22.207,5
3. Jahr 82.500 21.352,5
4. Jahr (Softupgrade) 85.500 21.352,5
5. Jahr 82.500 21.352,5

Frage 6 – Was verstehen Sie unter erneutem Training? Müssen Übersetzungssysteme genau wie TMs ständig aktualisiert werden? Wie viel kostet das?

Ihre Systeme werden mit Material erstellt, das Sie PangeaMT für das Training zur Verfügung stellen müssen. Anderenfalls verwenden wir allgemeines Material, welches wir in den meisten Sprachkombinationen zur Verfügung haben. Im September 2019 hatten wir 4,5 Mrd. abgestimmte Sätze in über 80 Sprachen zur Verfügung. Das sind 3 Mrd. Sätze mehr für maschinelles Lernen als im Jahr 2018, wie Slator berichtet hat. PangeaMT wird dieses Material nutzen, um ein Sprachmodell speziell für Sie anzupassen (z. B. ein System, das Pharma-Inhalte so gut wie ein zweisprachiger Muttersprachler des Englischen und des Französischen wiedergibt, oder ein System, das wie ein zweisprachiger deutscher Ingenieur übersetzt). Je nach Fachgebiet und Größe Ihrer bilingualen Daten könnten mehr Inhalte benötigt werden oder müssten generiert werden. Deswegen befindet sich das erste System, auch wenn es bereits gut ist, auf der Stufe, die wir als „Stufe 1“ bezeichnen (tatsächlich nennen wir diese Stufe Junior-Stufe). Sobald Sie uns mehr Informationen zur Verfügung stellen (typischerweise eine TMX-Datei mit früheren Übersetzungen oder nachbearbeitetem Inhalt), trainieren wir das System mit mehr Material, welches die Übersetzung vorgibt. Das bedeutet, dass das System uns mit der Zeit immer mehr Präferenzen bei bestimmten Ausdrücken und Wortkombinationen zeigt. PangeaMT erreichte 1,2 Milliarden abgestimmte Sätze für maschinelles Lernen im Jahr 2018 und 4,5 Milliarden im Jahr 2019. Das Sammeln großer Ressourcen für maschinelles Lernen hilft dabei, maschinelle Übersetzungssysteme von fast menschlicher Qualität mit wenig Kundentexteingabe zu erstellen. In-Domain-Material wird normalerweise am Anfang und am Ende des Trainingszyklus des neuronalen Systems hinzugefügt. Dadurch wird sichergestellt, dass der Algorithmus die Feinheiten und Charakteristika der zu übersetzenden Domäne, Sprache und des Fachgebiets aufgreift. Dies gilt insbesondere dann, wenn zum Zeitpunkt des Trainingszyklus (die letzte Stufe) Material hinzugefügt wird, das eine hohe Priorität hat und somit als „Domänen- und Stilfilter“ dient.

Frage 5 – Sind die Einsparungen in der Übersetzung unmittelbar?

Unsere Systeme durchlaufen vor der Übergabe mehrere Tests (unter anderem Post-Editing-Versuche), um sicher zu gehen, dass Sie Ihr Geld und Ihre Zeit vom ersten Tag an gut investiert haben. Die Implementierung ist problemlos und kann virtualisiert, auf einem Server in Ihrem Unternehmen installiert, in einem Intranet eingebunden oder an Ihre spezifischen Bedürfnisse angepasst werden. Ja, Ihre Kosten bei der Übersetzung (und noch viel wichtiger – die Markteinführungszeit) werden erheblich reduziert. Sie werden das von der ersten Woche an bemerken. Aber vergessen Sie nicht, dass Systeme sich mit der Zeit verbessern und denken Sie daran, dass einige erneute Trainingseinheiten (mindestens 1x im Jahr) sehr zu empfehlen sind. Nachbearbeitetes Material ist ideal für das erneute Training von Systemen, da es Ihre alltäglichen Anforderungen widerspiegelt.

Frage 4 – Wie viel kostet Post-Editing?

Markttrends deuten für die Nachbearbeitung guter MT-Ergebnisse auf einen Satz von 60% des vollen Übersetzungshonorars hin. Dies sollte jedoch eher als Richtlinie und nicht als feste Regel betrachtet werden. Es gibt viele Fälle auf beiden Seiten dieser Zahl. Wir können nicht sagen, was die beste Gebühr für Post-Editing unter allen Umständen und in jedem Bereich ist. Dennoch nehmen die Sprachdienstleister und die Verfasser von Inhalten diese Zahl als Referenz und arbeiten an der Verbesserung der Produktion. Wir wissen, dass die Nachbearbeitung auch nach Kilobytes, nach dem Segment oder nach der Zeit bezahlt wird.

Frage 3 – Wird maschinelle Übersetzung menschliche Übersetzer völlig ersetzen?

Auf keinen Fall. Computer-Assisted Translation (CAT)-Tools haben den Bedarf an menschlichen Übersetzern nicht beseitigt, sondern den Markt geschaffen und wachsen lassen, da die Übersetzung erschwinglicher wurde. Die meisten von uns mit einigen Jahren Branchenerfahrung erinnern sich noch an den anfänglichen Widerstand einiger bekannter Linguisten gegen die Anwendung der frühen TM-basierten Tools. Viele haben diese Tools als eine Spielerei angesehen oder als einen Trick, um Übersetzern weniger zu zahlen. Doch in Wahrheit haben Übersetzer viel verdient, selbst bei Wiederholungen, da es keine Möglichkeit gab, diese zu zählen – außer manuell. Die guten alten 90er-Jahre… Das digitale Zeitalter hat auch die Rolle des Übersetzers verändert und seit geraumer Zeit mussten sich die Übersetzer bei den CAT-Tools mit Formatierungsproblemen auseinandersetzen, für die sie nicht ausgebildet waren. Die XLIFF- und Dita-Standards sind eine Möglichkeit, dem Übersetzer zu helfen, das zu tun, was er am besten kann (Sprachübertragung), anstatt sich mit Tags und Farben innerhalb der computergestützten Übersetzungstools herumzuschlagen. In diesem Sinne ist die maschinelle Übersetzung ein Tool für die massive Steigerung der Produktion. Die maschinelle Übersetzung wird eine der besten Hilfen sein, die ein Übersetzer haben kann. Sie verbessert die Geschwindigkeit, mit der ein Übersetzer arbeitet (indem er bei Übersetzungen und Wortverbindungen, die bereits tausende Male übersetzt wurden, nicht „denken“ muss). Auch wenn es nur Zeit beim Tippen einspart, würde bereits dies alleine eine Verbesserung darstellen. Wenn es sich um ein bestimmtes Fachgebiet (Maschinenbau) handelt, hilft es dem Übersetzer, sich mit der Terminologie vertraut zu machen und sich auf die Aufgaben zu konzentrieren, die nur Menschen erledigen können. Kurioserweise ist es so, dass Maschinen bereits mehr Wörter pro Tag übersetzen (d.h. Menschen klicken im Web oder in einem Desktop- oder Server-Übersetzungsprogramm wie BabelFish oder Google Translate auf die Schaltfläche „Übersetzen“, um eine allgemeine, grundlegende Übersetzung zu erhalten) als Menschen (es gibt etwa 300.000 registrierte Übersetzer auf der Welt, mit einer durchschnittlichen Leistung von etwa 2.200-2.800 Wörtern pro Tag).

Frage 2 – Warum statistische maschinelle Übersetzung und nicht regelbasierte maschinelle Übersetzung? Was sind die Vorteile und Nachteile?

Jeder MT-Experte (oder zumindest Leser oder Post-Editor von maschineller Übersetzung) wird Ihnen sagen, dass die statistische maschinelle Übersetzung wesentlich flüssiger ist als die traditionellen regelbasierten Systeme (RB). Jeder, der sich mit der SMT befasst oder sie implementiert hat, wird Ihnen sagen, dass die Implementierungs- und Entwicklungszeiten viel kürzer sind (daher der ROI). Die RB-Systeme werden normalerweise als billigeres Paket gekauft, sobald ein Unternehmen die gesamte Programmierung der Regeln vorgenommen und die Syntax integriert hat. Das Paket ist geschlossen und die Anpassung (oder Hybridisierung) ist ein längerer Prozess. Die Statistische MT kann durch die Verbindung von Neuordnung und Dekodierung und durch die Anwendung vieler anderer mathematischer und statistischer Formeln verbessert werden, die mit Sicherheit feststellen, dass ein Wort (oder eine Reihe oder Kombination von Wörtern) im Vergleich zu anderen Wörtern zusammen vorkommt. Unten finden Sie eine umfassende Auflistung.

  • Die SMT muss nur einen parallelen Textkorpus lernen, um ein Übersetzungssystem zu generieren. Im Gegensatz dazu benötigt die RBMT viel korpusunabhängiges Wissen, das nur Linguistikexperten generieren können, z.B. die oberflächliche Kategorisierung, Syntax und Semantik aller Wörter einer Sprache zusätzlich zu den Transferregeln zwischen den Sprachen. Diese letzteren Regeln sind völlig abhängig von den beteiligten Sprachpaaren und sind im Allgemeinen nicht so gut untersucht wie die Charakterisierung jeder einzelnen Sprache. Da die Definition allgemeiner Übertragungsregeln nicht einfach ist, müssen im Einzelfall mehrere Regeln definiert werden, insbesondere zwischen Sprachen mit sehr unterschiedlichen Strukturen und/oder wenn die Ausgangssprache eine größere Flexibilität bei der Handhabung von Strukturelementen in einem Satz hat.
  • Ein SMT-System kann schnell entwickelt werden, wenn der passende Textkorpus verfügbar ist, was es profitabler macht. Im Gegensatz dazu benötigt ein RBMT-System hohe Entwicklungs- und Anpassungskosten, bis die gewünschte Qualität erreicht ist. Gebündelte RBMT-Systeme sind bereits fertig entwickelt, wenn der Benutzer sie kauft: Die meisten Anwender wenden MT an, indem sie sofort einsatzbereite Lösungen oder serverbereite Programme kaufen. Das Programm funktioniert und wird auf eine gewisse Art arbeiten, aber es ist sehr schwierig, Modelle und Äquivalenzen umzuprogrammieren. Vor allem der Einsatz von RBMT ist in der Regel ein sehr viel längerer Prozess, der mehr Mitarbeiter erfordert. Das ist ein Hauptproblem bei der Berechnung der vollen Einführungskosten seitens der Unternehmen.
  • Die SMT ist so angepasst, dass sie automatisch auf bisher unbekannte Situationen umgeschult wird (bisher unbekannte Wörter, neue Ausdrücke, die anders übersetzt werden, als sie vorher übersetzt wurden, usw.). Die RBMT wird u. a. durch das Hinzufügen neuer Regeln und Vokabeln neu trainiert, was wiederum mehr Zeit / mehr Bearbeitung durch „menschliche Experten“ bedeutet.
  • Die SMT generiert flüssigere Übersetzungen (fließende Sprachkompetenzen), auch wenn rein statistische Systeme weniger Konsistenz und weniger vorhersehbare Ergebnisse bieten, wenn der Trainings-Textkorpus zu umfangreich für den Zweck ist. Die RBMT hat jedoch möglicherweise die Oberflächen-/Syntaxinformationen oder Wörter, die für die Analyse der Ausgangssprache geeignet sind, nicht gefunden oder kennt das Wort nicht. Dies wird sie daran hindern, eine geeignete Regel zu finden.
  • Während die statistische maschinelle Übersetzung für Übersetzungen in einem bestimmten Bereich gut funktioniert, wobei das System mit einem zweisprachigem Textkorpus aus diesem Bereich trainiert ist, kann RBMT für allgemeinere Bereiche besser funktionieren.
  • Es besteht bei der SMT ein klarer Bedarf an leistungsfähigen Computern im Bezug auf die Hardware, um die Modelle zu trainieren. Während des Trainings des Systems müssen Milliarden von Berechnungen durchgeführt werden, und die dafür erforderlichen Hardware- und Softwarekenntnisse sind sehr speziell. Jedoch kann die Trainingsdauer heutzutage reduziert werden, dank der größeren Verfügbarkeit von leistungsstärkeren Computern. Die RBMT erfordert eine längere Einsatz- und Zusammenstellungszeit durch Experten, so dass im Prinzip auch die Erstellungskosten höher sind.
  • Die SMT generiert automatisch statistische Muster, einschließlich eines guten Erlernens von Ausnahmen von Regeln. Was die Regeln für die Übertragung von RBMT-Systemen anbelangt, so können diese sicherlich als Sonderfälle statistischer Standards angesehen werden. Trotzdem verallgemeinern sie zu viel und können nicht mit Ausnahmen umgehen.
  • Letztendlich lassen sich SMT-Systeme mit syntaktischen Informationen und sogar mit Semantik aufrüsten, wie bei der RBMT. Aber in diesem Fall können die statistischen Muster, die ein SMT-System lernen würde, als eine allgemeinere Art von Transferregeln angesehen werden, obwohl die Berücksichtigung solcher Informationen in den derzeitigen Systemen derzeit keine wesentlichen Verbesserungen bringt.
  • Ein SMT-System kann verbesserte Übersetzungen erzeugen, wenn es erneut trainiert oder angepasst wird. Im Gegensatz dazu erzeugt das RBMT sehr ähnliche Übersetzungen zwischen verschiedenen Versionen.

Frage 1 – Wie viele Wörter brauche ich, um ein gutes System zu entwickeln?

Die meisten Leute werden Ihnen sagen, dass 2 Millionen Wörter das Mindeste für ein einfaches System innerhalb einer Domäne mit einem gewissen Grad an Automatisierung sind. Aber erwarten Sie keine großartigen Ergebnisse, wenn Sie Texte aus den Bereichen Wirtschaft oder Journalismus verarbeiten, welche viele neue und unerwartete Wörter beinhalten. Wenn Sie es mit einer sehr kontrollierten Sprache zu tun haben und Ihr Thema wenig Variationen aufweist (technische Handbücher, Set-Dokumentationspakete, etc.), versuchen Sie, so viel Text wie möglich zu finden. Typische domainspezifische PangeaMT Entwicklungen (Software, Elektronik, Automobil, Maschinenbau, Tourismus) fangen bei um die 5 Millionen Wörter an. Es gibt mehrere Möglichkeiten, die Anzahl der Wörter durch das Sammeln zuverlässiger Paralleltexte zu erhöhen, und PangeaMT bietet Beratung und Anleitung, damit Sie ein System mit möglichst vielen Wörtern starten können. Wir bezeichnen ein System mit 15 Millionen oder 20 Millionen Wörtern innerhalb einer Domäne als „ausgereift“, weil es wahrscheinlich den größten Teil der Terminologie, des Vokabulars und der Ausdrücke beinhaltet, die für diese Sprachdomäne erforderlich sind. Keine Sorge, falls Sie noch nicht so viele Daten besitzen. Das Wichtigste ist es, das System zu starten. Sie können bei späteren erneuten Trainigseinheiten nachbearbeitetes Material und sonstiges neues Material hinzufügen. Es wurde viel über die „unangemessene Wirksamkeit massiver Datenmengen“ im Vergleich zu „kleineren Mengen gut ausgewählter Daten“ gestritten. Viele Kunden, die über ihre erste MT-Entwicklung nachdenken, sind sich nicht sicher, ob sie entweder so viel Text wie möglich (d. h. umfangreiche Mengen an Daten) eingeben oder die genausten zweisprachigen Texte auswählen sollten, auch wenn dies bedeutet, kleinere Datensets zu nutzen. Unsere Erfahrung deutet in verschiedene Richtungen a) Wenn Sie versuchen, ein allgemeines System zu erstellen, das die Fähigkeit haben soll, Unerwartetes zu übersetzen (von Zeitungsartikeln bis hin zu Wirtschaftstexten und Literatur), sammeln Sie so viel Daten wie möglich. Bildhaft gesprochen versuchen Sie, ein System zu entwickeln, das sowohl für sonnige Tage als auch regnerische Tage geeignet ist. Deshalb wird keine Datenmenge jemals „ausreichend“ sein. Früher oder später müssen Sie eine Art von syntaktischen Hilfen einbauen. b)Wenn Sie versuchen, ein System zu erstellen, dass Ihrem spezifischen Sprachbereich und Ihren Bedürfnissen entspricht (oder falls Sie ein System wünschen, das Ihre Produkte und Dienstleistungen kennt, aber auch bis zu einem gewissen Grad mit finanziellen Informationen und rechtlichen Themen umgehen kann), brauchen Sie keine Trillionen von Texten. In diesem Fall ist es passender und auch die Mühe wert, so viele Daten wie möglich in Ihrer Organisation etc. zu sammeln. So oder so: Unterschätzen Sie nicht den Aufwand und die Teamarbeit bei der Datenerhebung. Dies ist wesentlich für ein gutes Training (und damit für die Ergebnisse) des Systems. Dies wird der Beginn der Veränderung durch Ihre Einführung von MT-Technologien sein und eine gute Chance, die Interessengruppen in den Prozess einzubeziehen.