Clasificación / Categorización de textos

Categorice automáticamente los documentos según los clasificadores de conocimiento.
CONTÁCTENOS
La clasificación y categorización automática de textos de Pangea consiste en un conjunto de módulos que implementan tareas comunes de clasificación y categorización. Esto puede estar relacionado con la clasificación de textos o funcionar como un elemento separado, a alto nivel, encontrando también un conjunto de relaciones definidas entre esos módulos.
Los distintos detalles son flexibles: por ejemplo, se puede elegir qué algoritmo de categorización utilizar, qué características (palabras o de otro tipo) de los documentos deben usarse (o cómo elegir automáticamente estas características), en qué formato están los documentos, etc.
El proceso de personalización del uso de este módulo suele implicar la obtención de una colección de documentos precategorizados de la organización. Pangea entrena sus redes neuronales profundas para reconocer las características de cada documento y la diferencia con otros. Esto crea una representación del “gráfico de conocimiento”, que entrena al categorizador para que reconozca un conjunto de conocimientos particular. Este conjunto entrenado se guarda y se pueden hacer consultas con él.

Existen varias formas de realizar las consultas. El módulo de clasificación y categorización de textos de nivel superior ofrece una categoría general para las operaciones del clasificador de categorías de nivel superior, pero usted puede utilizar las interfaces de las categorías individuales dentro de cada una de ellas.

Nuestra herramienta semántica clasifica automáticamente los documentos por su contenido y los organiza dentro de categorías generales como Eurovoc, o puede personalizarse según la estructura, la terminología y los procesos de su organización. Las categorías pueden ser legal, cumplimiento, recursos humanos, investigación y desarrollo, contabilidad y finanzas, informes (ventas, gestión, etc.), comentarios de los clientes, boletines informativos y muchas más. La definición de las categorías la puede elegir libremente el usuario, puesto que no está restringida por los algoritmos de categorización.

7.1 Precisión de la clasificación / categorización de textos

La clasificación y categorización de textos es a menudo una tarea difícil incluso para los humanos bien formados en el ámbito particular de conocimiento, y existen muchas cosas que un humano tendría en cuenta y que ninguno de estos algoritmos considera. Un documento, por ejemplo, puede pertenecer a más de una categoría. Nuestros casos de uso proporcionan aplicaciones previas en Fintech con más del 90 % de precisión en campos definidos. Es posible que quede algo de supervisión humana debido a tipos de documentos inesperados o nuevos.

La clasificación / categorización de textos de Pangea es una solución ideal para:

null

Gestionar contenidos empresariales / del conocimiento;

null

Categorizar documentación financiera;

null

Preclasificar documentos de seguros;

null

Evaluar las nuevas tendencias en los negocios, la ciencia y la tecnología;

null

Gestionar la información empresarial;

null

Buscar y analizar el estado de la técnica de patentes;

null

Sistemas de asistencia automatizados.

El categorizador de Pangea está disponible como aplicación de servidor para utilizarla en sus propias instalaciones o en SaaS.

7.2 Tecnología de categorización

Los algoritmos del categorizador de Pangea se basan en técnicas de aprendizaje automático profundo. Nuestro enfoque para la categorización de documentos se ejecuta en dos fases: la de entrenamiento y la de predicción.

En la etapa de entrenamiento, el categorizador de Pangea construye un clasificador mediante el aprendizaje de un conjunto de documentos modelo para cada categoría. Su algoritmo de aprendizaje utiliza una amplia gama de características semánticas extraídas de los textos de los documentos:

null

Palabras con etiquetas de categoría gramatical;

null

Frases sustantivas y dependencia sintáctica entre ellas;

null

Relaciones semánticas complejas detectadas en nuestro procesador lingüístico.

Este proceso de entrenamiento crea modelos que en la fase de predicción utilizan el modelo de espacio vectorial para categorizar los documentos. Cada texto recibido se compara con las características semánticas de la categoría del modelo y se calcula el grado de proximidad entre ellas. El documento se asigna a la categoría con el máximo valor de relevancia.
CONTÁCTENOS