よくある質問

機械翻訳に関するよくある質問や心配。
自社またはクライアント向けに開発したカスタマイズエンジンの展開と操作説明を通じて気づかされたのは、企業、翻訳会社、翻訳者が機械翻訳に触れようとすると大きな疑問、不安、誤解をいだくことでした。

頻繁に機械翻訳が話題にのぼります。翻訳会社が「機械は人間の翻訳レベルに届くことは決してない」と公言することができた時代は終わりました。ユーザーへの市場からの圧力、そして何よりも、商品やサービスの市場投入までの時間を短縮する必要性から、翻訳の自動化が脚光を浴びています。機械翻訳の発展がマスコミにもとりあげられ、Google 翻訳のようなウェブ上での無料のサービスの出現により、言葉を高速にやりとりするビジネスにおいて不可欠なものになりました。2009 年 10 月、オバマ大統領は機械翻訳の発展が世界中の相互理解に役立つと発言した(New York Times and The Economist, 2010年3月)。

機械翻訳には 50 年以上の歴史があります。ところで、新しいテクノロジーはどれほど優れているのでしょうか?MT を正しく実装し、実際の本番環境に統合するにはどうすればよいのでしょうか?期待される生産性の向上とその結果としてのコスト削減はどのくらいですか?翻訳者は機械翻訳の翻訳結果にどのように反応するでしょうか?どのように管理をしたらよいのでしょうか?イノベーションには必ず恐れや不確実性が伴います。成功事例が現れるようになると事態は好転します。

17 の主な質問に PangeaMT の経験やアプローチに基づいて答えていきます。

Q17 – PangeaMT はチェコ語にも十分に対応していますか?

このことに詳しいのは翻訳者です。翻訳メモリはテキストデータです。翻訳者がセグメントを保存するたびに、二つの言語が対になって保存されます。これを翻訳メモリといいます。この翻訳メモリを機械翻訳のシステムに学習させるのです。これが PangeaMT のエンジンの燃料になります。

ニューラルネットワークは、必要に応じて、文章間の類似性を音節と文字レベルで特定します( BPEと呼ばれるニューラルトレーニングの便利な機能)。短い文章ではうまくいった n-gram ベースの統計機械翻訳と比べると、ニューラルネットワークはより高い精度と成功をもたらしました。2017 年に投稿したニューラル機械翻訳の開発に紹介したように、「記憶容量の飛躍的な増加」によるものです。当時、ニューラルシステムと比べると統計機械翻訳では 9~10 単語の短い文章では力を発揮することがわかっていました。時間とともにニューラルエンジンの性能が向上すると、両エンジンの性能の差が縮まりました。ただし、商用ウェブサイトが数語を翻訳するだけでよく、それらの単語がトレーニングデータの一部である場合、統計システムはより迅速かつ効率的にデータを呼び出すことができるのも事実です。しかし、ニューラスシステムは人間の言語感覚により近づけて文章を再構築します。

つまり、機械翻訳がチェコ語にうまく対応できるかと問われたならば、答えは「イエス」です。PangeaMT にはお客様の機械翻訳システムを円滑に運用する技術とデータがそろっています。数百万語を短時間に処理できる高いクオリティを誇っています。

Q16 – データクリーニングはどうですか? どのように取り組んでいますか?

企業は、機械学習用のバイリンガルデータのエクスポートをするときに、データクリーニングに必要な労力を過小評価することはできません。翻訳支援ツールの制限や特徴により、不要なコードがデータに残る可能性があります。Q14の説明にあるように、データクリーニングではインラインやタグの処理が必要になります。データクリーニングの典型的な例として、日本語構文ベースの機械翻訳ハイブリッドを日本翻訳連盟 2011 で発表しました。

翻訳業界に長く携わってきた人は、ある種の「粗悪」TM に出くわしていました。誤訳や不適切な用語などがいたるところに発生しました。T の標準的なクリーニング手順。

基本的なクリーニングの手順を以下に説明します。ユーザーに最良の翻訳結果を達成してもらうために、翻訳エンジンの学習に先立ち

  • 学習用データをクリーンにさせなければなりません。その後は
  • 機械翻訳された訳文は後編集が行われ、クリーニングの作業が繰り返されます。これによりシステムにノイズが入り込むのを回避することができ、良好な学習結果が期待できます。
PangeaMTは、お客様からの初期の学習用データが、学習前にクリーンであることを最初に確認する必要があります。これにより、クリーンなbitext(パラレルコーパス)が作成され、翻訳エンジンの学習が容易になります。言語固有のルールから構文やPOSタグ付けまで、PangeaMT独自のプロセスにより、データはエンジントレーニングの工程に入ります。

すべてのクリーニング手順を網羅するものではありません。それでも、トレーニング工程に再び入る前に、ユーザーは人間の確認が必要な抽出資料が何であるかを理解ができます。「疑わしい」と検出されたTMX形式の学習用データのセグメントはすべて、削除されシステムに再投入されます。

  1. ソースとターゲットの長さが大幅に異なるセグメント
    一般に、長さが50%を超える場合、その文は「疑わしい」と見なされますが、これは特定のニーズに応じて設定を変えることができます。(たとえば、チェコ語は通常英語よりも短く、フランス語は英語よりも25%~30%長いことは、それ自体何か問題があることを示すものではありません)。
  2. ソースまたはターゲットに、[]、*、+ =など、一方のセグメントに欠落している誤植記号が含まれているセグメント。
  3. ソースとターゲットが同一であるセグメント。
  4. 「空のセグメント」、つまりソースはあるがターゲットがないセグメント。
  5. お客様の推奨する名前などの用語や表現を含むセグメント。

これらは人間の確認が必要になります。

これが他社製品との違いのひとつです。お客様にノウハウを伝えますので、今後、翻訳エンジンをトレーニングする際にはご自身で自由にカスタマイズができるようになります。
ノイズがないクリーンなデータは、エンジンの性能を向上させます。まさしく「ゴミを入れたら、ゴミが出る」です。クリーニング作業のおかげで、データの内容はきれいになります。翻訳エンジンの導入後はフルサポートが受けられます。翻訳結果に問題があれば、いつでも対応します。これは、ブラックボックスではありません。PangeaMT のビジネスモデルは「ユーザーにパワー」をもたらすテクノロジーを伝えることです。

Q15 – Google 翻訳とはどのような違いがありますか?

Google は、世界中の情報を整理するという使命の下、巧妙にだけでなく、一般的な情報を提供するものとして翻訳を行っています。その翻訳アプリケーションは実際には最先端ではありますが、あらゆる話題の翻訳を処理できるポータルを目指しています。PangeaMT が当初、機械翻訳で気づいたように、Google は機械翻訳へのルールベースのアプローチをやめることを判断し、統計的方法論を採用しました。両社とも強力な統計機械翻訳の支持者であり、PangeaMT のコア研究&チームと Google の主要な研究メンバーとの間である程度の学術協力が行われているため、それほど珍しいことではありません。

Google はできるだけ多くの一般情報を利用できるようにすることに重点を置いており、数兆語のデータを収集するための幅広いリソースを誇っていますが、PangeaMT のアプローチは、特定のニーズに合わせて、優先的な用語、表現、単語を使用してカスタムアプリケーションを構築することにあります。つまり、お客様のニーズに合った翻訳をする機械翻訳を提供することにあります。学習用データは通常、お客様から提供され、PangeaMT によって威力を発揮します。言語データが追加され、エンジンに十分な語彙が蓄えられます。言語モデルは、お客様の向けに特別に構築されるか、お客様の目的に合わせることができます。さらに、PangeaMT のシステムは、TMX や XLIFF に対応した翻訳ができます。Google 翻訳ではこれができません(プレーンテキストのみを翻訳)。

プレーンテキストではなくファイルを翻訳することにより、PangeaMT はローカリゼーションまたはナレッジベースワークフローに直接かつ簡単にプラグインができます。TMX または XLIFF ファイルは、従来のほとんどの翻訳支援ツールを編集ツールとして使用して、簡単に後編集ができます。

つまり、PangeaMT の開発は現在の翻訳環境に適合し、現在のプロセスを自動化します。一方で、Google 翻訳は情報を入手するためのエンジンです。

Q14 – わたしはインラインとタグでいっぱいの文書を扱います。ほとんどの統計機械翻訳システムはプレーンテキストしか提供せず、インライン/タグをコピーして元の場所に貼り付けるのに時間がかかります。この問題を解決する方法はありますか?

統計機械翻訳システムは通常、プレーンテキストを出力します。これは、処理できる形式がプレーンテキストだからです。ただし、PangeaMT が使われ、最も要求の厳しい言語業界の要件に適合できることを目指しています。これが、ローカリゼーション本番環境で使用される他のコンテンツ形式に典型的なインラインコーディングを処理できる統計機械翻訳エンジンの開発に注力した理由です。革新的なインラインパーサーのおかげで、PangeaMT はインラインを識別してインラインを翻訳します。インラインプレースホルダーが最初に挿入され、次に出力の前にインライン自体に置き換えられます。

エンジンが非常に重いインラインテキストを処理する必要がある場合、翻訳品質が低下する可能性があります。これにより、インライン インスタンスを識別して、特定のセグメント位置(開始または終了など)に表示し、ポストエディターでタグを適切な場所に戻すことができるお客様もいます。または、エンジンが本来あるべき場所にインラインで生成することを選択することもあります。

経験によれば、これは有望な措置です。私たちの知る限り、PangeaMT のインラインパーサーは、よく知られている統計機械翻訳システムの現在の成熟度をはるかに超えています。さらに、PangeaMT は、コンテンツ形式(txt /tmx/ XLIFF)の選択肢を提供する唯一のソリューションです。私たちの使命は、オープンスタンダードに従い、誰にでも機械翻訳を使っていただくことです。オンラインのデモをご覧ください。ここでは、TMX ジェネレーターとドメインエンジンのいくつかの要約バージョンを複数の言語の方向で試すことができます。

Q13 – システムがオープンスタンダードで構築されているとはどういう意味ですか? 他のモデルとの違いは何ですか?

PangeaMT は、特定企業の所有物ではなく業界全体に対応します。PangeaMT は、翻訳、とりわけ機械翻訳で世界に民主主義をもたらします。どちらも営利目的でテクノロジーに支配されてきましたが、業界の発展には関心がありませんでした。

オープンスタンダードでは、高価な独占的サービス、高価なアップグレードやアップデートはありません。後編集したデータでシステムを更新する必要がありますが、システムはこのデータにより学習を増進します。エンジンには、過去に保存された翻訳データが役立ちます。後編集した資料により翻訳システムを更新するにはまったく費用がかかりません。

翻訳エンジンの学習が充実すると、特殊な要件を求めるユーザーでない限り、メンテナンスの必要はほとんどありません。あとは資料の翻訳に集中するか、エンジンのカスタマイズを検討することができます。

Q12 – お勧めの後編集ツールはありますか?

どの翻訳支援ツールも後編集に優れています。オープンスタンダードの TMX ワークフローに従うと、大量の翻訳テキストを構成する翻訳メモリを活用できるようになります。

XBench などのフリーウェアツールを使用することもできます。TMX ファイルの後編集を支援し、最終的なチェックの前にセグメント間の整合性を確認することもできます。

Q11 – 一貫性はどのように確保しますか? わが社の用語が他の用語よりも優先させることはできますか?

理想的には、カスタマイズされたエンジンには、ノイズの多い素材がお客様の文章スタイルを乱さないように、独自のデータのみを含める必要があります。実際には、それほど多くのデータを所有している組織はほとんどありません。より関連性の高いデータを入手する方法についてのコンサルティングは、機械翻訳開発者の間で大きな関心事になっています。

コンサルティングの一環として、PangeaMT は初期設定したデータセットをパワーアップする大規模なコーパスを学習させます。(おそらく、言語モデルを構築したり、言語モデルを自分のスタイルに近づけたりするのにかなりの時間がかかるでしょう)。翻訳領域に関連したデータを翻訳エンジンに追加するので、データの追加が翻訳結果にどのような結果をもたらすのか確認ができます(2009 年 10 月の記事でテスト内容の要約がご覧いただけます。複数の組織による無料のテストの内容。)

一般的に、データが多いほど良い結果が得られると考えられています。より小さく、よりクリーンなデータセットでも、より高い精度をもたらすのか、いくつかの論争がありました。これは、アプリケーションにより異なり、特定のドメインで翻訳エンジンを走らせているかどうかでも大きく異なります。コンピュータウイルスと戦うソフトウェア会社や、まったく異なる種類のウイルスと戦う製薬メーカーのシステムを構築している場合、200 万単語の土木工学のデータは翻訳結果におそらくほとんど影響を与えません。いつか役立つと考えてデータを追加することはよくある間違いですが、私たちの調査では、そのデータが必要になったり呼び出されたりする可能性が低い場合は、言語モデルの一部として残す方がよいと結論付けています。

要するに、統計が何らかの形で機能することを保証する方法はありません(そこが、統計のポイントであり、何かが起こる可能性を分析します)。システムの規模が大きすぎる場合は、前処理システムと後処理システムを(一種のハイブリッドで)構築して、特定の表現を「修正」または「強制」することができます。結合エンジン法または結合仮説(つまり、エンジンが再処理する文を再構成するために高い確実性で出力の一部を結合する)で実行できるため、より高い可能性に向けて作業する他の方法があります。これまで、翻訳支援ツールと同じ用語ツールを使用して用語の一貫性をチェックするポストエディターの貴重な経験を聞いてきました。

Q10 – どのような組み合わせ(たとえば、日本語からスペイン語やロシア語)を構築できますか? 課題はありますか?

はい、あらゆる言語の組み合わせを構築でき、ルールベースのシステムよりもはるかに高速かつ効率的になります。これが統計システムの最大の利点です。必要なのはデータだけで、言語 A が言語 B とどのように関連しているかについての言語の知識はありません。日本語と英語の間では構造が大きく異なります。ヨーロッパ言語とは異なり、英語と日本語では対応する単語間の距離が離れています。しかし、統計システムを用いると、エンジンは、一方の言語の表現で生じている単語や語句に対する他方の言語における変化を分析します。統計機械翻訳システムは、並べ替えがほとんど必要ない親和性の高い言語では非常にうまく機能します。単語や語句の配置が異なる言語の間では、周辺プロセス、前処理、後処理、単語の並べ替えが欠かせません。言語モデルをどのように構築するかも重要ですが、重要なのは前処理と後処理が優れていることです。

Q9 – 機械翻訳システムを使うと、今使っている翻訳支援ツールは使えなくなりますか?ふたつのシステムをつなげる方法はありますか?

最新の開発案件が、Localization World Barcelona 2012 で紹介されました。詳細はこちらに紹介されています。PangeaMT のサービス:

主に企業さまに向けた機械翻訳 + ポストエディットを提供しています。Pangeanic には、Localization World Barcelona 2012 で紹介された統計機械翻訳というシステムがありましたが、操作に様々な制限がありました。新たな PangeaMT では、ご自分でエンジンをクローニング(複製)したり、自己学習機能を使って簡単にエンジンの精度を上げたりすることができます。それまでは Pangeanic にこの作業を依頼するしかありませんでした。詳しくは、こちらのプレスリリースをご覧ください。

– Pangeanic は、多くの企業から機械翻訳とポストエディット(後編集)を組み合わせたサービスが求められています。お客様の過去の翻訳データを活用して、機械翻訳システムの開発と学習を行い、機械翻訳から生成された訳文を編集します。Pangeanic では、早くから翻訳支援ツール(Trados、MemoQ、memsource など)に翻訳メモリをインポートして翻訳作業を行っていました。2011 年からは、そこに機械翻訳を組み合わせて、翻訳支援ツールでは対応できなかったマッチ率の低い原文の訳文を生成できるようになりました。

– PangeaMT では、SaaS を利用して、お客様の翻訳データからご希望の分野と言語でシステムを構築します。PangeaMT が生成した訳文を従量制料金で購入していただき、お客様が翻訳の修正をすることができます。サーバは PangeaMT が責任をもって管理します。

もちろん、お客様の社内サーバーへの展開にも対応します。この場合もお手持ちの翻訳メモリと関連データを用いて、お客様の翻訳分野と表現スタイルを反映するように開発します。そこに、周辺モジュール(タグ パーサ、イントラネット ウェブ インターフェース、データ転送スクリプト、言語モデル、コントロール パネルなど)を加えます。翻訳エンジンの利用が始まったら、翻訳支援ツールで後編集を続けるうちに翻訳メモリが、さらに増えていきます。その翻訳メモリを PangeaMT に与えて学習を続けさせてください。確実に精度が上がっていきます。

これまでのように翻訳者や翻訳会社に時間をかけてお客様の翻訳スタイルや用語を学んでもらう必要がありません。翻訳メモリで翻訳エンジンを学習させるだけです。

翻訳支援ツールに蓄えられた翻訳メモリと機械翻訳が生成する訳文を組み合わせて翻訳ができます。学習を通して機械翻訳が生成した訳文の精度が上がり、そのまま訳文が使えるようになります。

API を使って PangeaMT の機械翻訳エンジンとお使いの翻訳支援ツールとを連携させて翻訳効率を上げてください。

翻訳作業の効率が目に見えて向上します。スピード、精度、処理スピードが向上します。

Q8 – ポストエディット(後編集)への翻訳者の抵抗はありますか?

90 年代後半、翻訳支援ツールに翻訳者たちは抵抗を感じていました。2010 年以降、機械翻訳のポストエディットに対しても反感をもって迎えられました。

新しい技術の宿命とでもいえるでしょう。広く知られているツールであってもそうですから、いくら業務効率をあげるとはいえ、PangeaMT の機械翻訳ではなおさらです。翻訳者に機械翻訳システムが生成した訳文の修正を依頼したとします。当初、

ベテラン翻訳者からの抵抗がありました。今でも翻訳支援ツールの使い方さえわからない翻訳者がいます。

完璧ではなくても人が機械翻訳システムが生成した訳文をポストエディット(後編集)をすることでお客様に受け入れられています。あるいは、機械翻訳システムが生成した訳文をそのままお使いになるお客様もいらっしゃいます。翻訳者であろうと未経験者であろうと、ポストエディット(後編集)に関わる必要が出てきました。

ポストエディット(後編集)はまだ新しい職種であり、スキルを習得するには、機械翻訳システムの利用経験が必須です。例えば、一般的に使われる用語が機械翻訳システムに登録されていないことで不自然な訳文が生成されることがあります。そこで、ポストエディターの実力が問われます。お客様の翻訳データだけでは不十分にならないように予め基本データが登録されています。または、翻訳をせずにそのまま原語のままに残したほうが良いのかもポストエディットの担当者が判断します。周囲からは新しいテクノロジーに対する抵抗を経験しますが、利点を忘れてはいけません。デジタル時代において、翻訳者だけの翻訳では、スピードとコストの問題は解決できません。優秀な翻訳者だけを集めるのは難しく、仮に集められたとして、例えば5万単語を1 日で処理するのは不可能です。従って限られた人材で短時間で作業を進めると翻訳者にしわ寄せが集まり疲弊させるだけです。そこで、近年ではオンライン翻訳サービスや機械翻訳システムが話題にのぼるようになりました。

Q7 – 機械翻訳システムを導入する費用対効果は?

大量の翻訳が必要なお客様にとっては、まず、時間の大幅な短縮が可能になります。翻訳者がゼロから翻訳をするのに比べれば、ポストエディット(後編集)をしてもコストは大幅に削減できます。PangeaMT の翻訳エンジンは、お手頃価格で提供しています。お客様が迷っているあいだに、同業他社がいち早く導入をすることで大きく差をつけられます。

Q6 – 翻訳エンジンの学習とはどのようなものですか?エンジンの学習は有料ですか?

機械翻訳システム PangeaMT には、はじめから基本データ(ジェネリック)が搭載されています。これに加えて、学習のためにお客様のデータ(翻訳メモリ)を、ご自身でアップロードすると、お客様の業界、業種、案件に適した訳文を次第に生成するようになります。翻訳メモリとは、例えば、英語と日本語で対応する文章を 1 文ずつ紐づけしたファイルのことです。当初のエンジンは、人間のティーンエイジャー並みの原語能力ですが、これがデータの追加のたびに徐々に能力を上げていきます。膨大な翻訳メモリがあると機械翻訳の精度はかぎりなく人間のそれに近づき、後編集の手間が少なくなります。ニュアンスやスタイルがお客様の要望を反映するようになります。

ちなみに、2018年、PangeaMT が受け入れた翻訳メモリで紐づけされた文章は、12 億に達し、2019 年には45 億になりました。翻訳エンジンの学習はお客様がご自身でいつでも可能です。もちろん無料です。

Q5 – 翻訳のコスト削減の効果はすすぐに現れますか?

PangeaMT の翻訳エンジンは、納品前に複数のテスト(ポストエディットを含む)に合格し、初日から投資の効果をご確認いただけます。エンジンのインストールは、PangeaMT が管理するサーバーまたはご指定のサーバーに行われます。

翻訳コストが飛躍的に削減され、時間が大幅に短縮されます。ただし、忘れないでください。翻訳エンジンの学習を繰り返すことで徐々に精度は向上します。最低でも1年はかかります。ポストエディットをしたファイル(翻訳メモリ)は、日々の翻訳作業の内容を反映したものであるから、最適な学習データになります。

Q4 – 後編集の費用はいくらですか?

機械翻訳の翻訳結果の精度により異なりますが、ポストエディット(後編集)の料金は、人間による翻訳料金の 60% 程度が相場です。ただし、これはあくまでも指針です。業種や分野によって条件は異なります。参考価格としてとらえてください。ポストエディットを担当する人たちの報酬は、単語数、文章数、時間などを基本にして算出しています。

Q3 – 機械翻訳は翻訳者の仕事を奪いますか?

その心配はまったくありません。 コンピュータ支援翻訳(CAT)ツールは、人間の翻訳者の仕事を奪いませんでした。事実、翻訳料金が下がったことで市場が創られ成長しました。翻訳支援ツールの導入当初には、多くのベテラン翻訳者からの抵抗がありました。多くの翻訳者は、翻訳料金を下げるトリックだと考えていました。事実は違います。翻訳者への支払いは翻訳が不要な繰り返し部分にも料金が支払われていました。

その後、翻訳者の役割は変わりました。機械翻訳が生産性を各段にあげました。訳文をすべて手入力する必要がなくなっただけでも大きな進歩です。

翻訳エンジンを特定の分野(例えば、自動車)に扱い続けると、専門用語やスタイルを学んでくれるので、翻訳者は人間ができることだけに集中することができます。

事実、機械は人間よりも多くの単語を毎日翻訳しています。Google 翻訳のことは皆さんご存知でしょう。世界では 300,000 の翻訳者がそれぞれ、毎日 2,200 ~ 2,800 単語を翻訳しています。

Q2 – PangeaMT の機械翻訳の特徴は?

翻訳エンジンの学習は、ご自分でシンプルなインターフェースから簡単にお好きなときにできます。これまで広く使われてきたルールベース翻訳や統計機械翻訳と比べて、精度が各段に上がりました。お手元の翻訳メモリデータをエンジンに追加し続ければ、精度は徐々に上がり、お客様の翻訳プロジェクト、文章スタイルに近づいていきます。Pangeanic では統計機械翻訳をどこよりも早く実用化し、ヨーロッパで受け入れられてきました。しかし、その限界に早くから気づいていたのも事実です。とりわけ、日本語との親和性は悪く、予め語順を変換して機械翻訳処理をすることも試みました。その後、ニューラルエンジンの開発に着手し、EU 諸国、北米での導入が進んでいるところです。アジア言語との親和性も高く多少の改良をすることで円滑に稼働しています。

Q1 – 翻訳精度を上げる学習データには何単語必要ですか?

PangeaMT の翻訳エンジンには初めに数百万単語の基本データが搭載されています。そこにお手元にある特定の分野(観光、法律、ソフトウェア、エレクトロニクス、自動車)に特化した翻訳データ100 万 ~ 200 万文章を学習させると、飛躍的な精度向上が期待されます。翻訳データをサーバーにアップするときには、基本データに対する優先度が3段階で設定が可能です。優先度を「高」に設定すれば、基本データよりも優先されます。ここで注意すべきは、機械翻訳の学習に必要な単語数と内容の関係です。お客様の翻訳プロジェクトに関係のない内容ばかりがつまったデータでは、残念ながら見当違いの訳文が生成されます。翻訳データの単語数を増やす方法はいくつかあります。PangeaMT では翻訳データの収集についてご相談に応じます。翻訳データが少ないからといって、すぐに諦めないでください。大切なのは、翻訳エンジンを起動することです。memsource や TRADOS のような翻訳支援ツールを使って翻訳を進めることでも翻訳データが蓄積されます。これを翻訳エンジンに学習させるのです。時間の経過とともに精度がみるみるうちに改善されます。