Detector de idiomas

Detecte automáticamente el idioma de una secuencia, texto o documento en cuestión de segundos.
CONTÁCTENOS
El procesamiento de la información multilingüe o en varios idiomas es cada vez más importante en el mundo digital actual. El detector de idiomas de Pangea identifica el idioma y la codificación de caracteres de los documentos recibidos. Es compatible con más de 84 idiomas, que abarcan las principales lenguas de Europa occidental y oriental, semíticas, de Asia central, así como turco, japonés, chino, etc.

El detector de idiomas de Pangea puede utilizarse con éxito:

null

Como proceso previo a la traducción automática.

null

Para filtrar previamente el texto y mejorar la calidad de los datos de texto recibidos al entrenar algoritmos (la mayoría de los algoritmos de procesamiento natural tienen textos monolingües como datos de entrenamiento y añadir otros idiomas puede disminuir el rendimiento de los sistemas de gestión de documentos);

null

Para organizar los datos (de habla a texto, documentos, etc.) antes de otros procesos;

null

Para extraer textos bilingües para su traducción automática desde recursos en línea;

null

Para recuperar, agrupar y comprender la información relevante (textos del usuario, correos electrónicos, etc.) en un entorno multilingüe.

El detector de idiomas de Pangea determina con exactitud tanto el idioma del documento completo como el de cada fragmento, párrafo o parte.

Nuestro detector de idiomas combina tecnologías estadísticas y neuronales para obtener los mejores resultados de reconocimiento. Nuestro algoritmo propio de detección de idiomas se basa en un modelo matemático sólido del algoritmo de espaciado vectorial. Creamos un espacio multidimensional de vectores que analizan el contenido de los documentos y utilizamos la noción de n-gramas para calcular las frecuencias. El algoritmo analiza las posiciones de los vectores necesarios en el espacio para determinar su similitud. Por último, los resultados combinados del algoritmo se corrigen utilizando reglas lingüísticas especiales desarrolladas por nuestro equipo lingüístico.

Con el fin de realizar una evaluación, hemos creado una página de demostración para detectar los idiomas más populares logrando una precisión de identificación de idiomas del 95 % al 99 % (resultados típicos de la competencia: 86 – 96 %). La velocidad media de procesamiento fue de más de 8000 KB/s.

CONTÁCTENOS