テキスト クラシフィケーション/カテゴライザ

ナレッジ クラシファイアに従って文書を自動的に分類します。
お問い合わせ
PangeaMT の自動テキスト分類は、一般的な分類タスクを実行するモジュールの集合体で構成されています。これは、テキスト分類に関連する場合もあれば、高レベルで個別に動作し、モジュール間で関係性も見つけます。
柔軟に詳細を設定することができます(例えば、分類に用いるアルゴリズム、文書で利用する部分(単語など)、ドキュメントのフォーマット)。
このモジュールをカスタマイズするには、組織から事前に分類された文書を入手します。PangeaMT では、ディープ ニューラル ネットワークをトレーニングして、文書の特徴を認識させ、他の文書との違いを認識させます。これにより、「ナレッジ グラフ」が作成され、カテゴライザーをトレーディングさせて、特定の知識セットを認識するようにします。このトレーニング済みセットは保存され、クエリの設定ができます。

クエリの実行には、インターフェースが用意されています。

PangeaMT のセマンティック ツールは、コンテンツによってドキュメントを自動的に分類し、Eurovoc などの一般的なカテゴリで整理し、お客様のスタイルと用語に合わせてカスタマイズができます。カテゴリには、法務、コンプライアンス、人事、研究開発、経理や財務、報告書(販売、管理など)、顧客の意見や要望、ニュースレターなどがあります。カテゴリの定義は、分類アルゴリズムによって制限されずに、ユーザが自由に選択できるようになっています。

7.1 テキスト分類/カテゴライザの精度

文書の内容を分類するのは、知識が十分にある人にとってさえ難しい作業です。ひとつの文書であっても、複数の分野に関連することがあります。例えば、過去の事例では、Fintech において 90% を超える精度を提供しています。予期しない、または新たな種類の文書が原因で、人による監視が必要な場合があります。

Pangea Text Classification/Categorizer は、次のように理想的なソリューションです。

null

エンタープライズ コンテンツ/ナレッジマネジメント、

null

財務書類の分類、

null

保険証書の分類、

null

ビジネス、科学、技術の新しい傾向を評価。

null

経営情報管理、

null

特許先行技術の検索と分析、

null

自動化されたヘルプデスクシステム、

Pangea Categorizer は、オンプレミスまたは SaaS のサーバーアプリケーションとして利用可能です。

7.2 分類技術

Pangea Categorizer のアルゴリズムは、深層機械学習技術に基づいています。文書の分類に対するアプローチは、トレーニング段階と予測段階の2つの段階で実行されます。

トレーニング段階では、Pangea Categorizer は、各カテゴリの一連のモデルドキュメントから学習することによりクラシファイアを構築します。その学習アルゴリズムは、文書から抽出された幅広いセマンティック機能を用います。

null

品詞タグが付いた単語、

null

名詞句と構文上の依存関係、

null

複雑な意味関係により、言語プロセッサが検出されました。

このトレーニングプロセスは、予測段階でベクトル空間モデルを使用して文書を分類するモデルを作成します。各入力テキストは、モデルカテゴリのセマンティック機能と比較され、それらの間の近接度が計算されます。文書は、最大関連性に割り当てられます。
お問い合わせ