FAQs
Frage 17 – Kann man mit Ihrer maschinellen Übersetzung Tschechisch gut übersetzen?
Frage 16 – Wie sieht es mit der Datenbereinigung aus? Wie ist Ihre Vorgehensweise?
- ihre anfänglichen Trainingsdaten vor dem Systemtraining sauber sind, um die bestmöglichen Ergebnisse zu erzielen
- jedes zukünftige post-editierte Material ebenfalls einen einwandfreien Reinigungszyklus durchläuft, um eventuelles Rauschen, welches in das System eingebracht wird und somit die Trainings beeinflussen kann, zu überprüfen.
- Segmente mit signifikanten Längenunterschieden zwischen Ausgangs- und Zielsegment Im Allgemeinen betrachten wir einen Satz als „verdächtig“, wenn er mehr als 50% länger ist, aber dies kann je nach Ihren individuellen Bedürfnissen variieren (z.B. ist Tschechisch normalerweise kürzer als Englisch und Französisch ist 25% oder 30% länger als Englisch, was an sich kein Hinweis darauf ist, dass etwas nicht in Ordnung ist).
- Segmente, in denen das Ausgangs- oder Zielsegment typographische Symbole enthält, die im anderen Segment fehlen, wie z.B. [ ], *, + =.
- Segmente, in denen Ausgangs- und Zielsegment identisch sind.
- „Leere Segmente“, das heißt Segmente mit Ausgangssegment, aber ohne Zielsegment.
- Segmente, die bestimmte Namen oder Ausdrücke enthalten, die Teil der bevorzugten Terminologie des Kunden sind.
All dies sind Kandidaten für die menschliche Überarbeitung. Dies ist eines der Dinge, die PangeaMT von anderen Angeboten unterscheidet: Wir schulen Sie und stellen Ihnen die Tools zur Verfügung, damit Sie bei zukünftigen Trainings Ihr eigener Chef werden. Saubere Daten sind der Weg zu einem qualitativ hochwertigen Input und damit zu einer verbesserten Systemleistung. Der alte Übersetzungsspruch „Unsinn rein, Unsinn raus” trifft zu. Dank unserer Bereinigungsroutinen können Sie sicher sein, dass Sie ein System besitzen, das „fragwürdiges“ Material für Sie entfernt. Aber, denken Sie bitte auch nach der Installation daran, dass Sie ein ganzes Jahr lang kostenlosen Support haben. Bei allen seltsamen Ergebnissen, die Sie sehen oder feststellen, allen Muster, die Sie anwenden/korrigieren möchten, sind wir für Sie da, um Ihnen zu helfen. Dies ist kein Blackbox-System oder ein Unternehmen, das Wörter oder Systeme verkauft. Unser Modell ist das „User Empowerment“, d.h. der Technologietransfer.
Frage 15 – Wie unterscheiden Sie sich von Google Translate?
Frage 14 – Ich arbeite mit Texten, die voller Inlines und Tags sind. Die meisten SMT-Systeme bieten nur reinen Text an und es dauert lange, bis die Inlines und Tags mit Hilfe von Copy und Paste wieder an der richtigen Stelle sind. Haben Sie etwas getan, um dieses Problem zu lösen?
Frage 13 – Was meinen Sie damit, wenn Sie sagen, dass Ihr System auf offenen Standards basiert? Wo liegt der Unterschied zu anderen Modellen?
Fragen 12 – Gibt es gute (oder noch besser, kostenlose) Post-Editing-Tools, die Sie empfehlen können?
Frage 11 – Wie sieht es mit Konsistenz aus? Wie stellen Sie sicher, dass die Terminologie meines Unternehmens statistisch gesehen vor anderen Optionen Vorrang hat?
Frage 10 - Können Sie jede Sprachkombination zusammenstellen (z. B. Chinesisch oder Japanisch ins Spanische oder Russische)? Welche Herausforderungen gibt es?
Frage 9 – Kann ich meine TM-basierten Systeme nicht mehr nutzen, wenn ich MT nutze? Können Sie MT in meine TM-basierte Software integrieren?
Frage 8 – Gibt es einen „Widerstand seitens der Übersetzer“, zum Post-Editor zu werden?
Frage 7 – Wie hoch ist der ROI bei einem MT-System?
CAT-Übersetzungskosten bei 750 Tausend neuen Wörtern pro Jahr | SMT + Training + Aktualisierung + PE 750 Tausend | |
1. Jahr | 82.500 | 43.912,5 |
2. Jahr (Softupgrade) | 85.500 | 22.207,5 |
3. Jahr | 82.500 | 21.352,5 |
4. Jahr (Softupgrade) | 85.500 | 21.352,5 |
5. Jahr | 82.500 | 21.352,5 |
Frage 6 – Was verstehen Sie unter erneutem Training? Müssen Übersetzungssysteme genau wie TMs ständig aktualisiert werden? Wie viel kostet das?
Frage 5 – Sind die Einsparungen in der Übersetzung unmittelbar?
Frage 4 – Wie viel kostet Post-Editing?
Frage 3 – Wird maschinelle Übersetzung menschliche Übersetzer völlig ersetzen?
Frage 2 – Warum statistische maschinelle Übersetzung und nicht regelbasierte maschinelle Übersetzung? Was sind die Vorteile und Nachteile?
- Die SMT muss nur einen parallelen Textkorpus lernen, um ein Übersetzungssystem zu generieren. Im Gegensatz dazu benötigt die RBMT viel korpusunabhängiges Wissen, das nur Linguistikexperten generieren können, z.B. die oberflächliche Kategorisierung, Syntax und Semantik aller Wörter einer Sprache zusätzlich zu den Transferregeln zwischen den Sprachen. Diese letzteren Regeln sind völlig abhängig von den beteiligten Sprachpaaren und sind im Allgemeinen nicht so gut untersucht wie die Charakterisierung jeder einzelnen Sprache. Da die Definition allgemeiner Übertragungsregeln nicht einfach ist, müssen im Einzelfall mehrere Regeln definiert werden, insbesondere zwischen Sprachen mit sehr unterschiedlichen Strukturen und/oder wenn die Ausgangssprache eine größere Flexibilität bei der Handhabung von Strukturelementen in einem Satz hat.
- Ein SMT-System kann schnell entwickelt werden, wenn der passende Textkorpus verfügbar ist, was es profitabler macht. Im Gegensatz dazu benötigt ein RBMT-System hohe Entwicklungs- und Anpassungskosten, bis die gewünschte Qualität erreicht ist. Gebündelte RBMT-Systeme sind bereits fertig entwickelt, wenn der Benutzer sie kauft: Die meisten Anwender wenden MT an, indem sie sofort einsatzbereite Lösungen oder serverbereite Programme kaufen. Das Programm funktioniert und wird auf eine gewisse Art arbeiten, aber es ist sehr schwierig, Modelle und Äquivalenzen umzuprogrammieren. Vor allem der Einsatz von RBMT ist in der Regel ein sehr viel längerer Prozess, der mehr Mitarbeiter erfordert. Das ist ein Hauptproblem bei der Berechnung der vollen Einführungskosten seitens der Unternehmen.
- Die SMT ist so angepasst, dass sie automatisch auf bisher unbekannte Situationen umgeschult wird (bisher unbekannte Wörter, neue Ausdrücke, die anders übersetzt werden, als sie vorher übersetzt wurden, usw.). Die RBMT wird u. a. durch das Hinzufügen neuer Regeln und Vokabeln neu trainiert, was wiederum mehr Zeit / mehr Bearbeitung durch „menschliche Experten“ bedeutet.
- Die SMT generiert flüssigere Übersetzungen (fließende Sprachkompetenzen), auch wenn rein statistische Systeme weniger Konsistenz und weniger vorhersehbare Ergebnisse bieten, wenn der Trainings-Textkorpus zu umfangreich für den Zweck ist. Die RBMT hat jedoch möglicherweise die Oberflächen-/Syntaxinformationen oder Wörter, die für die Analyse der Ausgangssprache geeignet sind, nicht gefunden oder kennt das Wort nicht. Dies wird sie daran hindern, eine geeignete Regel zu finden.
- Während die statistische maschinelle Übersetzung für Übersetzungen in einem bestimmten Bereich gut funktioniert, wobei das System mit einem zweisprachigem Textkorpus aus diesem Bereich trainiert ist, kann RBMT für allgemeinere Bereiche besser funktionieren.
- Es besteht bei der SMT ein klarer Bedarf an leistungsfähigen Computern im Bezug auf die Hardware, um die Modelle zu trainieren. Während des Trainings des Systems müssen Milliarden von Berechnungen durchgeführt werden, und die dafür erforderlichen Hardware- und Softwarekenntnisse sind sehr speziell. Jedoch kann die Trainingsdauer heutzutage reduziert werden, dank der größeren Verfügbarkeit von leistungsstärkeren Computern. Die RBMT erfordert eine längere Einsatz- und Zusammenstellungszeit durch Experten, so dass im Prinzip auch die Erstellungskosten höher sind.
- Die SMT generiert automatisch statistische Muster, einschließlich eines guten Erlernens von Ausnahmen von Regeln. Was die Regeln für die Übertragung von RBMT-Systemen anbelangt, so können diese sicherlich als Sonderfälle statistischer Standards angesehen werden. Trotzdem verallgemeinern sie zu viel und können nicht mit Ausnahmen umgehen.
- Letztendlich lassen sich SMT-Systeme mit syntaktischen Informationen und sogar mit Semantik aufrüsten, wie bei der RBMT. Aber in diesem Fall können die statistischen Muster, die ein SMT-System lernen würde, als eine allgemeinere Art von Transferregeln angesehen werden, obwohl die Berücksichtigung solcher Informationen in den derzeitigen Systemen derzeit keine wesentlichen Verbesserungen bringt.
- Ein SMT-System kann verbesserte Übersetzungen erzeugen, wenn es erneut trainiert oder angepasst wird. Im Gegensatz dazu erzeugt das RBMT sehr ähnliche Übersetzungen zwischen verschiedenen Versionen.