Textklassifizierung / Kategorisierer

Automatisches Kategorisieren von Dokumenten anhand von Wissensklassifikatoren.
KONTAKTIEREN SIE UNS
Sie können uns auch telefonisch erreichen unter

+34 96 333 6 333 – Europa

+1 949 688 0504 – USA

Die automatische Textklassifizierung und -kategorisierung von Pangea besteht aus einer Sammlung von Modulen, die allgemeine Klassifizierungs- und Kategorisierungsaufgaben implementieren. Diese können mit der Textklassifizierung in Verbindung stehen oder separat arbeiten, wobei auf einer hohen Ebene auch eine Reihe von definierten Beziehungen zwischen diesen Modulen gefunden werden.
Die verschiedenen Details sind flexibel – zum Beispiel können Sie wählen, welcher Kategorisierungsalgorithmus verwendet werden soll, welche Merkmale (Wörter oder andere) der Dokumente verwendet werden sollen (oder wie diese Merkmale automatisch ausgewählt werden sollen), welches Format die Dokumente haben, etc.
Der Anpassungsprozess bei der Verwendung dieses Moduls beinhaltet typischerweise die Bereitstellung einer Sammlung von vorkategorisierten Dokumenten des Unternehmens. Pangea trainiert seine tiefen neuronalen Netzwerke, um die Merkmale jedes Dokuments und den Unterschied zu anderen Dokumenten zu erkennen. Dadurch entsteht eine Darstellung durch einen „Wissensgraph“ und es wird ein Kategorisierungsprozess trainiert, um eine bestimmte Wissensmenge zu erkennen. Dieser trainierte Datensatz wird gespeichert und es können Abfragen daraus erstellt werden.

Es gibt verschiedene Möglichkeiten, die Abfragen auszuführen. Das Modul „Textklassifikation und Kategorisierer“ auf oberster Ebene bietet eine übergeordnete Klasse für die Operationen des Klassifizierers auf oberster Ebene, aber Sie können die Schnittstellen der einzelnen Klassen in jeder Klasse verwenden.

Unser semantisches Tool klassifiziert Dokumente automatisch nach Inhalt und organisiert sie innerhalb allgemeiner Kategorien wie Eurovoc, oder es kann an die Struktur, Terminologie und Prozesse Ihres Unternehmens angepasst werden. Die Kategorien können Recht, Compliance, Personalwesen, Forschung und Entwicklung, Buchhaltung und Finanzen, Berichte (Vertrieb, Management, etc.), Kundenfeedback, Newsletter und viele mehr sein. Die Definition der Kategorien ist eine freie Wahl des Benutzers, die nicht durch Kategorisierungsalgorithmen eingeschränkt wird.

7.1 Genauigkeit der Textklassifizierung / des Kategorisierers

Die Textklassifizierung und Kategorisierung von Dokumenten ist selbst für Menschen, die in dem jeweiligen Wissensgebiet gut ausgebildet sind, oft eine schwierige Aufgabe, und es gibt viele Dinge, die ein Mensch berücksichtigen würde, die keiner dieser Algorithmen berücksichtigt. Ein Dokument kann beispielsweise zu mehr als einer Kategorie gehören. Unsere Anwendungsfälle zeigen bisherige Anwendungen im Fintech-Bereich mit über 90 % Genauigkeit in definierten Domänen. Aufgrund unerwarteter oder neuer Dokumententypen kann ein gewisses Maß an menschlicher Überwachung nötig bleiben.

Pangea Textklassifizierung / Kategorisierer ist eine ideale Lösung für:

null

Unternehmensinhalte / Wissensmanagement;

null

Kategorisierung von finanziellen Unterlagen;

null

Vorklassifizierung von Versicherungsdokumenten;

null

Beurteilung von neuen Trends in Wirtschaft, Wissenschaft und Technik.

null

Betriebswirtschaftliches Informationsmanagement;

null

Recherche und Analyse des Stands der Technik bei Patenten;

null

Automatisierte Helpdesk-Systeme;

Der Pangea Kategorisierer ist als Serveranwendung für den Einsatz vor Ort oder für den SaaS-Einsatz verfügbar.

7.2 Kategorisierungstechnologie

Die Algorithmen des Pangea Kategorisierers basieren auf Techniken des tiefen maschinellen Lernens. Unser Ansatz zur Dokumentenkategorisierung wird in zwei Phasen durchgeführt, der Trainingsphase und der Vorhersagephase.

In der Trainingsphase erstellt der Pangea Kategorisierer einen Klassifikator, indem er aus einem Satz von Musterdokumenten für jede Kategorie lernt. Sein Lernalgorithmus verwendet eine breite Palette von semantischen Merkmalen, die aus Dokumenttexten extrahiert wurden:

null

Wörter mit Wortart-Etiketten;

null

Substantivsätze und syntaktische Abhängigkeiten zwischen ihnen;

null

Komplexe semantische Beziehungen, die von unserem Linguistischen Verarbeitungssystem erkannt werden.

Durch diesen Trainingsprozess werden Modelle erstellt, die in der Vorhersagephase das Vektorraummodell verwenden, um Dokumente zu kategorisieren. Jeder eingegebene Text wird mit semantischen Merkmalen aus der Modellkategorie verglichen und der Grad der Nähe zwischen ihnen wird berechnet. Das Dokument wird der Kategorie mit dem maximalen Relevanzwert zugewiesen.
KONTAKTIEREN SIE UNS
Sie können uns auch telefonisch erreichen unter

+34 96 333 6 333 – Europa

+1 949 688 0504 – USA