よくある質問
頻繁に機械翻訳が話題にのぼります。翻訳会社が「機械は人間の翻訳レベルに届くことは決してない」と公言することができた時代は終わりました。ユーザーへの市場からの圧力、そして何よりも、商品やサービスの市場投入までの時間を短縮する必要性から、翻訳の自動化が脚光を浴びています。機械翻訳の発展がマスコミにもとりあげられ、Google 翻訳のようなウェブ上での無料のサービスの出現により、言葉を高速にやりとりするビジネスにおいて不可欠なものになりました。2009 年 10 月、オバマ大統領は機械翻訳の発展が世界中の相互理解に役立つと発言した(New York Times and The Economist, 2010年3月)。
17 の主な質問に PangeaMT の経験やアプローチに基づいて答えていきます。
Q17 – PangeaMT はチェコ語にも十分に対応していますか?
ニューラルネットワークは、必要に応じて、文章間の類似性を音節と文字レベルで特定します( BPEと呼ばれるニューラルトレーニングの便利な機能)。短い文章ではうまくいった n-gram ベースの統計機械翻訳と比べると、ニューラルネットワークはより高い精度と成功をもたらしました。2017 年に投稿したニューラル機械翻訳の開発に紹介したように、「記憶容量の飛躍的な増加」によるものです。当時、ニューラルシステムと比べると統計機械翻訳では 9~10 単語の短い文章では力を発揮することがわかっていました。時間とともにニューラルエンジンの性能が向上すると、両エンジンの性能の差が縮まりました。ただし、商用ウェブサイトが数語を翻訳するだけでよく、それらの単語がトレーニングデータの一部である場合、統計システムはより迅速かつ効率的にデータを呼び出すことができるのも事実です。しかし、ニューラスシステムは人間の言語感覚により近づけて文章を再構築します。
つまり、機械翻訳がチェコ語にうまく対応できるかと問われたならば、答えは「イエス」です。PangeaMT にはお客様の機械翻訳システムを円滑に運用する技術とデータがそろっています。数百万語を短時間に処理できる高いクオリティを誇っています。
Q16 – データクリーニングはどうですか? どのように取り組んでいますか?
翻訳業界に長く携わってきた人は、ある種の「粗悪」TM に出くわしていました。誤訳や不適切な用語などがいたるところに発生しました。T の標準的なクリーニング手順。
基本的なクリーニングの手順を以下に説明します。ユーザーに最良の翻訳結果を達成してもらうために、翻訳エンジンの学習に先立ち
- 学習用データをクリーンにさせなければなりません。その後は
- 機械翻訳された訳文は後編集が行われ、クリーニングの作業が繰り返されます。これによりシステムにノイズが入り込むのを回避することができ、良好な学習結果が期待できます。
すべてのクリーニング手順を網羅するものではありません。それでも、トレーニング工程に再び入る前に、ユーザーは人間の確認が必要な抽出資料が何であるかを理解ができます。「疑わしい」と検出されたTMX形式の学習用データのセグメントはすべて、削除されシステムに再投入されます。
- ソースとターゲットの長さが大幅に異なるセグメント
一般に、長さが50%を超える場合、その文は「疑わしい」と見なされますが、これは特定のニーズに応じて設定を変えることができます。(たとえば、チェコ語は通常英語よりも短く、フランス語は英語よりも25%~30%長いことは、それ自体何か問題があることを示すものではありません)。 - ソースまたはターゲットに、[]、*、+ =など、一方のセグメントに欠落している誤植記号が含まれているセグメント。
- ソースとターゲットが同一であるセグメント。
- 「空のセグメント」、つまりソースはあるがターゲットがないセグメント。
- お客様の推奨する名前などの用語や表現を含むセグメント。
これらは人間の確認が必要になります。
これが他社製品との違いのひとつです。お客様にノウハウを伝えますので、今後、翻訳エンジンをトレーニングする際にはご自身で自由にカスタマイズができるようになります。
ノイズがないクリーンなデータは、エンジンの性能を向上させます。まさしく「ゴミを入れたら、ゴミが出る」です。クリーニング作業のおかげで、データの内容はきれいになります。翻訳エンジンの導入後はフルサポートが受けられます。翻訳結果に問題があれば、いつでも対応します。これは、ブラックボックスではありません。PangeaMT のビジネスモデルは「ユーザーにパワー」をもたらすテクノロジーを伝えることです。
Q15 – Google 翻訳とはどのような違いがありますか?
Google はできるだけ多くの一般情報を利用できるようにすることに重点を置いており、数兆語のデータを収集するための幅広いリソースを誇っていますが、PangeaMT のアプローチは、特定のニーズに合わせて、優先的な用語、表現、単語を使用してカスタムアプリケーションを構築することにあります。つまり、お客様のニーズに合った翻訳をする機械翻訳を提供することにあります。学習用データは通常、お客様から提供され、PangeaMT によって威力を発揮します。言語データが追加され、エンジンに十分な語彙が蓄えられます。言語モデルは、お客様の向けに特別に構築されるか、お客様の目的に合わせることができます。さらに、PangeaMT のシステムは、TMX や XLIFF に対応した翻訳ができます。Google 翻訳ではこれができません(プレーンテキストのみを翻訳)。
プレーンテキストではなくファイルを翻訳することにより、PangeaMT はローカリゼーションまたはナレッジベースワークフローに直接かつ簡単にプラグインができます。TMX または XLIFF ファイルは、従来のほとんどの翻訳支援ツールを編集ツールとして使用して、簡単に後編集ができます。
つまり、PangeaMT の開発は現在の翻訳環境に適合し、現在のプロセスを自動化します。一方で、Google 翻訳は情報を入手するためのエンジンです。
Q14 – わたしはインラインとタグでいっぱいの文書を扱います。ほとんどの統計機械翻訳システムはプレーンテキストしか提供せず、インライン/タグをコピーして元の場所に貼り付けるのに時間がかかります。この問題を解決する方法はありますか?
エンジンが非常に重いインラインテキストを処理する必要がある場合、翻訳品質が低下する可能性があります。これにより、インライン インスタンスを識別して、特定のセグメント位置(開始または終了など)に表示し、ポストエディターでタグを適切な場所に戻すことができるお客様もいます。または、エンジンが本来あるべき場所にインラインで生成することを選択することもあります。
経験によれば、これは有望な措置です。私たちの知る限り、PangeaMT のインラインパーサーは、よく知られている統計機械翻訳システムの現在の成熟度をはるかに超えています。さらに、PangeaMT は、コンテンツ形式(txt /tmx/ XLIFF)の選択肢を提供する唯一のソリューションです。私たちの使命は、オープンスタンダードに従い、誰にでも機械翻訳を使っていただくことです。オンラインのデモをご覧ください。ここでは、TMX ジェネレーターとドメインエンジンのいくつかの要約バージョンを複数の言語の方向で試すことができます。
Q13 – システムがオープンスタンダードで構築されているとはどういう意味ですか? 他のモデルとの違いは何ですか?
オープンスタンダードでは、高価な独占的サービス、高価なアップグレードやアップデートはありません。後編集したデータでシステムを更新する必要がありますが、システムはこのデータにより学習を増進します。エンジンには、過去に保存された翻訳データが役立ちます。後編集した資料により翻訳システムを更新するにはまったく費用がかかりません。
翻訳エンジンの学習が充実すると、特殊な要件を求めるユーザーでない限り、メンテナンスの必要はほとんどありません。あとは資料の翻訳に集中するか、エンジンのカスタマイズを検討することができます。
Q12 – お勧めの後編集ツールはありますか?
XBench などのフリーウェアツールを使用することもできます。TMX ファイルの後編集を支援し、最終的なチェックの前にセグメント間の整合性を確認することもできます。
Q11 – 一貫性はどのように確保しますか? わが社の用語が他の用語よりも優先させることはできますか?
コンサルティングの一環として、PangeaMT は初期設定したデータセットをパワーアップする大規模なコーパスを学習させます。(おそらく、言語モデルを構築したり、言語モデルを自分のスタイルに近づけたりするのにかなりの時間がかかるでしょう)。翻訳領域に関連したデータを翻訳エンジンに追加するので、データの追加が翻訳結果にどのような結果をもたらすのか確認ができます(2009 年 10 月の記事でテスト内容の要約がご覧いただけます。複数の組織による無料のテストの内容。)
一般的に、データが多いほど良い結果が得られると考えられています。より小さく、よりクリーンなデータセットでも、より高い精度をもたらすのか、いくつかの論争がありました。これは、アプリケーションにより異なり、特定のドメインで翻訳エンジンを走らせているかどうかでも大きく異なります。コンピュータウイルスと戦うソフトウェア会社や、まったく異なる種類のウイルスと戦う製薬メーカーのシステムを構築している場合、200 万単語の土木工学のデータは翻訳結果におそらくほとんど影響を与えません。いつか役立つと考えてデータを追加することはよくある間違いですが、私たちの調査では、そのデータが必要になったり呼び出されたりする可能性が低い場合は、言語モデルの一部として残す方がよいと結論付けています。
要するに、統計が何らかの形で機能することを保証する方法はありません(そこが、統計のポイントであり、何かが起こる可能性を分析します)。システムの規模が大きすぎる場合は、前処理システムと後処理システムを(一種のハイブリッドで)構築して、特定の表現を「修正」または「強制」することができます。結合エンジン法または結合仮説(つまり、エンジンが再処理する文を再構成するために高い確実性で出力の一部を結合する)で実行できるため、より高い可能性に向けて作業する他の方法があります。これまで、翻訳支援ツールと同じ用語ツールを使用して用語の一貫性をチェックするポストエディターの貴重な経験を聞いてきました。
Q10 – どのような組み合わせ(たとえば、日本語からスペイン語やロシア語)を構築できますか? 課題はありますか?
はい、あらゆる言語の組み合わせを構築でき、ルールベースのシステムよりもはるかに高速かつ効率的になります。これが統計システムの最大の利点です。必要なのはデータだけで、言語 A が言語 B とどのように関連しているかについての言語の知識はありません。日本語と英語の間では構造が大きく異なります。ヨーロッパ言語とは異なり、英語と日本語では対応する単語間の距離が離れています。しかし、統計システムを用いると、エンジンは、一方の言語の表現で生じている単語や語句に対する他方の言語における変化を分析します。統計機械翻訳システムは、並べ替えがほとんど必要ない親和性の高い言語では非常にうまく機能します。単語や語句の配置が異なる言語の間では、周辺プロセス、前処理、後処理、単語の並べ替えが欠かせません。言語モデルをどのように構築するかも重要ですが、重要なのは前処理と後処理が優れていることです。
Q9 – 機械翻訳システムを使うと、今使っている翻訳支援ツールは使えなくなりますか?ふたつのシステムをつなげる方法はありますか?
主に企業さまに向けた機械翻訳 + ポストエディットを提供しています。Pangeanic には、Localization World Barcelona 2012 で紹介された統計機械翻訳というシステムがありましたが、操作に様々な制限がありました。新たな PangeaMT では、ご自分でエンジンをクローニング(複製)したり、自己学習機能を使って簡単にエンジンの精度を上げたりすることができます。それまでは Pangeanic にこの作業を依頼するしかありませんでした。詳しくは、こちらのプレスリリースをご覧ください。
– Pangeanic は、多くの企業から機械翻訳とポストエディット(後編集)を組み合わせたサービスが求められています。お客様の過去の翻訳データを活用して、機械翻訳システムの開発と学習を行い、機械翻訳から生成された訳文を編集します。Pangeanic では、早くから翻訳支援ツール(Trados、MemoQ、memsource など)に翻訳メモリをインポートして翻訳作業を行っていました。2011 年からは、そこに機械翻訳を組み合わせて、翻訳支援ツールでは対応できなかったマッチ率の低い原文の訳文を生成できるようになりました。
– PangeaMT では、SaaS を利用して、お客様の翻訳データからご希望の分野と言語でシステムを構築します。PangeaMT が生成した訳文を従量制料金で購入していただき、お客様が翻訳の修正をすることができます。サーバは PangeaMT が責任をもって管理します。
もちろん、お客様の社内サーバーへの展開にも対応します。この場合もお手持ちの翻訳メモリと関連データを用いて、お客様の翻訳分野と表現スタイルを反映するように開発します。そこに、周辺モジュール(タグ パーサ、イントラネット ウェブ インターフェース、データ転送スクリプト、言語モデル、コントロール パネルなど)を加えます。翻訳エンジンの利用が始まったら、翻訳支援ツールで後編集を続けるうちに翻訳メモリが、さらに増えていきます。その翻訳メモリを PangeaMT に与えて学習を続けさせてください。確実に精度が上がっていきます。
これまでのように翻訳者や翻訳会社に時間をかけてお客様の翻訳スタイルや用語を学んでもらう必要がありません。翻訳メモリで翻訳エンジンを学習させるだけです。
翻訳支援ツールに蓄えられた翻訳メモリと機械翻訳が生成する訳文を組み合わせて翻訳ができます。学習を通して機械翻訳が生成した訳文の精度が上がり、そのまま訳文が使えるようになります。
API を使って PangeaMT の機械翻訳エンジンとお使いの翻訳支援ツールとを連携させて翻訳効率を上げてください。
翻訳作業の効率が目に見えて向上します。スピード、精度、処理スピードが向上します。
Q8 – ポストエディット(後編集)への翻訳者の抵抗はありますか?
新しい技術の宿命とでもいえるでしょう。広く知られているツールであってもそうですから、いくら業務効率をあげるとはいえ、PangeaMT の機械翻訳ではなおさらです。翻訳者に機械翻訳システムが生成した訳文の修正を依頼したとします。当初、
ベテラン翻訳者からの抵抗がありました。今でも翻訳支援ツールの使い方さえわからない翻訳者がいます。
完璧ではなくても人が機械翻訳システムが生成した訳文をポストエディット(後編集)をすることでお客様に受け入れられています。あるいは、機械翻訳システムが生成した訳文をそのままお使いになるお客様もいらっしゃいます。翻訳者であろうと未経験者であろうと、ポストエディット(後編集)に関わる必要が出てきました。
ポストエディット(後編集)はまだ新しい職種であり、スキルを習得するには、機械翻訳システムの利用経験が必須です。例えば、一般的に使われる用語が機械翻訳システムに登録されていないことで不自然な訳文が生成されることがあります。そこで、ポストエディターの実力が問われます。お客様の翻訳データだけでは不十分にならないように予め基本データが登録されています。または、翻訳をせずにそのまま原語のままに残したほうが良いのかもポストエディットの担当者が判断します。周囲からは新しいテクノロジーに対する抵抗を経験しますが、利点を忘れてはいけません。デジタル時代において、翻訳者だけの翻訳では、スピードとコストの問題は解決できません。優秀な翻訳者だけを集めるのは難しく、仮に集められたとして、例えば5万単語を1 日で処理するのは不可能です。従って限られた人材で短時間で作業を進めると翻訳者にしわ寄せが集まり疲弊させるだけです。そこで、近年ではオンライン翻訳サービスや機械翻訳システムが話題にのぼるようになりました。
Q7 – 機械翻訳システムを導入する費用対効果は?
Q6 – 翻訳エンジンの学習とはどのようなものですか?エンジンの学習は有料ですか?
ちなみに、2018年、PangeaMT が受け入れた翻訳メモリで紐づけされた文章は、12 億に達し、2019 年には45 億になりました。翻訳エンジンの学習はお客様がご自身でいつでも可能です。もちろん無料です。
Q5 – 翻訳のコスト削減の効果はすすぐに現れますか?
翻訳コストが飛躍的に削減され、時間が大幅に短縮されます。ただし、忘れないでください。翻訳エンジンの学習を繰り返すことで徐々に精度は向上します。最低でも1年はかかります。ポストエディットをしたファイル(翻訳メモリ)は、日々の翻訳作業の内容を反映したものであるから、最適な学習データになります。
Q4 – 後編集の費用はいくらですか?
Q3 – 機械翻訳は翻訳者の仕事を奪いますか?
その後、翻訳者の役割は変わりました。機械翻訳が生産性を各段にあげました。訳文をすべて手入力する必要がなくなっただけでも大きな進歩です。
翻訳エンジンを特定の分野(例えば、自動車)に扱い続けると、専門用語やスタイルを学んでくれるので、翻訳者は人間ができることだけに集中することができます。
事実、機械は人間よりも多くの単語を毎日翻訳しています。Google 翻訳のことは皆さんご存知でしょう。世界では 300,000 の翻訳者がそれぞれ、毎日 2,200 ~ 2,800 単語を翻訳しています。