Classification/Catégoriseur de texte

Classification de texte
CONTACTEZ-NOUS
La classification et la catégorisation automatique de texte chez Pangea consistent en une collection de modules qui mettent en œuvre des tâches communes de classification et de catégorisation. Ces tâches peuvent être liées à la classification de texte ou fonctionner séparément, à un niveau élevé, en trouvant également un ensemble de relations définies entre ces modules.
Les différents détails sont flexibles. Par exemple, vous pouvez choisir quel algorithme de catégorisation utiliser, quelles caractéristiques (mots ou autres) des documents doivent être utilisées (ou comment choisir automatiquement ces caractéristiques), dans quel format les documents sont présentés, etc.
Le processus de personnalisation de l’utilisation de ce module implique généralement l’obtention d’une collection de documents précatégorisés de l’organisation. Pangea entraîne ses réseaux neuronaux profonds à reconnaître les caractéristiques de chaque document et la différence avec les autres documents. Cela crée une représentation « graphe de connaissances », qui entraîne un catégoriseur à reconnaître un ensemble de connaissances particulier. Cet ensemble entraîné est sauvegardé et des requêtes peuvent être effectuées.

Elles peuvent être présentées de différentes façons. Le module de classification et de catégorisation de texte de haut niveau fournit un graphe parapluie pour les opérations de classification des catégories de haut niveau, mais vous pouvez utiliser les interfaces des classes individuelles dans chaque classe.

Notre outil sémantique classe automatiquement les documents par contenu et les organise dans des catégories générales telles qu’Eurovoc ou il peut être adapté à la structure, à la terminologie et aux processus de votre organisation. Les catégories peuvent être les suivantes : juridique, conformité, ressources humaines, recherche et développement, comptabilité et finances, rapports (ventes, gestion, etc.), rétroaction des clients, lettres d’information, et bien d’autres encore. L’utilisateur peut choisir librement la définition de la catégorisation, car elle n’est pas limitée par des algorithmes de catégorisation.

7.1 Précision de la classification/catégorisation de texte

La classification et la catégorisation de texte sont souvent des tâches difficiles, même pour des êtres humains bien formés dans un domaine particulier de connaissances ; et il y a beaucoup de choses qu’un humain examinerait et qu’aucun de ces algorithmes ne prend en compte. Un document, par exemple, peut appartenir à plus d’une catégorie. Nos cas d’utilisation fournissent des applications antérieures de Fintech avec une précision de plus de 90 % dans des domaines définis. Une certaine supervision humaine peut subsister en raison de types de documents nouveaux ou inattendus.

La classification/catégorisation de texte par Pangea est une solution idéale pour :

null

Contenu d’entreprise/gestion des connaissances

null

Catégorisation de documentation financière

null

Préclassification de documents d’assurance

null

Évaluation de nouvelles tendances dans le domaine des affaires, de la science et de la technologie

null

Gestion de l’information commerciale

null

Recherche et analyse de l’état de la technique en matière de brevets

null

Systèmes d’assistance automatisés

La catégorisation de Pangea est disponible sous forme d’application serveur pour un déploiement sur site ou en mode SaaS.

7.2 Technologie de catégorisation

Les algorithmes de catégorisation de Pangea sont basés sur des techniques d’apprentissage automatique en profondeur (Deep Machine Learning). Notre approche de catégorisation des documents se déroule en deux phases : la phase d’entraînement et la phase de prédiction.

Lors de la phase d’entraînement, la catégorisation de Pangea construit un classifieur en apprenant à partir d’un ensemble de documents modèles pour chaque catégorie. Son algorithme d’apprentissage utilise un large éventail de caractéristiques sémantiques extraites des textes des documents :

null

Mots avec balisage de catégories grammaticales

null

Termes et dépendance syntaxique entre eux

null

Relations sémantiques complexes détectées par notre processeur linguistique.

Ce processus d’entraînement crée des modèles qui, lors de la phase de prédiction, utilisent le modèle vectoriel pour catégoriser les documents. Chaque texte d’entrée est comparé aux caractéristiques sémantiques de la catégorie du modèle et le degré de proximité entre eux est calculé. Le document est affecté à la catégorie ayant la valeur de pertinence maximale.
CONTACTEZ-NOUS