Détecteur de langue

Détectez automatiquement la langue d’une chaîne de caractères, d’un texte, d’un document en quelques secondes.
CONTACTEZ-NOUS
Le traitement d’informations multilingues ou en plusieurs langues est devenu de plus en plus pertinent dans le monde numérique actuel. Le détecteur de langue de Pangea identifie la langue et le codage des caractères des documents entrants. Il prend en charge plus de 84 langues, notamment les principales langues d’Europe occidentale et orientale, sémitiques, d’Asie centrale, le turc, le japonais, le chinois, etc.

Le détecteur de langue de Pangea peut être utilisé avec succès :

null

Comme prétraitement avant la traduction automatique

null

Pour préfiltrer le texte et améliorer la qualité des données textuelles d’entrée lors de l’entraînement des algorithmes (la plupart des algorithmes de traitement naturel de la langue ont des textes monolingues comme données d’entraînement mais l’ajout d’autres langues peut diminuer la performance des systèmes de gestion de documents)

null

Pour organiser les données (texte à la parole, documents, etc.) avant d’autres procédures

null

Pour extraire des textes bilingues pour la traduction automatique à partir de ressources en ligne

null

Pour la recherche, le regroupement et la compréhension d’informations pertinentes (textes de l’utilisateur, e-mails, etc.) dans un environnement multilingue

Le détecteur de langue de Pangea détermine avec précision non seulement la langue du document dans son intégralité, mais aussi celle de chaque extrait, paragraphe ou fragment.

Notre détecteur de langue combine des technologies statistiques et neuronales afin d’obtenir les meilleurs résultats de reconnaissance. Notre algorithme propriétaire de détection de langue est basé sur un modèle mathématique robuste d’algorithmes vectoriels. Nous créons un espace multidimensionnel de vecteurs en scannant des documents et utilisons la notion de N-grammes pour calculer les fréquences. L’algorithme analyse les positions des vecteurs nécessaires dans l’espace afin de déterminer leur similarité. Enfin, les résultats combinés de l’algorithme sont corrigés en utilisant des règles linguistiques spécifiques développées par notre équipe linguistique.

Pour l’évaluation, nous avons créé une page de démonstration pour détecter les langues les plus populaires atteignant une précision d’identification linguistique de 95 % à 99 % (résultats typiques des concurrents : 86 % à 96 %). La vitesse moyenne de traitement est de plus de 8000 Ko/s.

CONTACTEZ-NOUS