Language Detector(言語検出)

文字列、テキスト、ドキュメントの言語を数秒で自動的に検出します。
お問い合わせ
複数言語による情報の処理は、今日のデジタル世界でますます重要になっています。PangeaMT の Language Detector(言語検出)は、受け取るドキュメントの言語と文字エンコードを識別します。日本語はもちろん世界84カ国語に対応しています。

Pangea Language Detector は正常に使用できます。

null

機械翻訳をする前の処理

null

アルゴリズムのトレーニングにあたり、テキストを事前にフィルタリングし、入力テキストデータの品質を向上させます、

null

次の処理に進む前にデータ(音声認識データ、文書など)を整理すします、

null

インターネットから機械翻訳用のバイリンガルテキストを採集する、

null

多言語環境での関連情報(ユーザの文書、電子メールなど)の検索、グループ化、理解のため。

Pangea Language Detector は、文書全体だけではなく、断片、段落、または一部からでも判断ができます。PangeaMT の Language Detector は、統計技術とニューラル技術を組み合わせて、認識結果を最大限に引き上げます。

PangeaMT 独自の言語検出アルゴリズムは、ベクトル空間アルゴリズムの強力な数理モデルに基づいています。文書内容をスキャンするベクトルの多次元空間を作成し、N-gram の概念を用いて頻度を計算します。アルゴリズムは、空間内の必要なベクトルの位置を分析して、それらの類似性を判断します。最後に、組み合わされたアルゴリズムの結果は、PangeaMT が開発した特別な言語ルールを用いて修正されます。

評価において、主要な言語を検出するデモページを作成して、95%~99% の言語識別精度を達成しました(競合他社では 86%~96%)。平均処理速度は、8000 KB/秒に達します。

お問い合わせ