Sprachdetektor

Automatische Erkennung der Sprache einer Zeichenkette oder eines Textes/Dokuments innerhalb von Sekunden.
KONTAKTIEREN SIE UNS
Sie können uns auch telefonisch erreichen unter

+34 96 333 6 333 – Europa

+1 949 688 0504 – USA

Die Verarbeitung von mehrsprachigen Informationen oder Informationen in mehreren Sprachen wird in der heutigen digitalen Welt immer wichtiger. Der Sprachdetektor von Pangea identifiziert die Sprache und Zeichenkodierung eingehender Dokumente. Er unterstützt mehr als 84 Sprachen, darunter die wichtigsten west- und osteuropäischen, semitischen, zentralasiatischen, türkischen, japanischen, chinesischen Sprachen, etc.

Der Pangea Sprachdetektor kann erfolgreich eingesetzt werden:

null

Als Vorstufe vor der maschinellen Übersetzung

null

Zum Vorfiltern von Text und zur Verbesserung der Qualität von eingegebenen Textdaten beim Training von Algorithmen (die meisten natürlichen Verarbeitungsalgorithmen haben einsprachige Texte als Trainingsdaten - das Hinzufügen anderer Sprachen kann die Leistung von Dokumentenmanagementsystemen verringern);

null

Zum Organisieren von Daten (Sprache-zu-Text, Dokumente, etc.) vor anderen Prozessen;

null

Für die Gewinnung von Daten aus zweisprachigen Texten für die maschinelle Übersetzung von Online-Ressourcen;

null

Zum Abrufen, Gruppieren und Verstehen relevanter Informationen (Texte des Benutzers, E-Mails usw.) in einer mehrsprachigen Umgebung.

Pangea Language Detector bestimmt nicht nur die Sprache des gesamten Dokuments, sondern auch die Sprache jedes einzelnen Snippets, Absatzes oder Fragments genau.

Unser Sprachdetektor kombiniert sowohl statistische als auch neuronale Technologien, um die besten Erkennungsergebnisse zu erzielen. Unser proprietärer Algorithmus zur Sprachenerkennung basiert auf einem leistungsfähigen mathematischen Modell auf Grundlage eines Vektorabstandsalgorithmus. Wir erstellen einen mehrdimensionalen Raum von Vektoren, die Dokumentenkonkurrenzen scannen, und verwenden das Konzept der N-Gramme zur Berechnung der Häufigkeiten. Der Algorithmus analysiert die Positionen der erforderlichen Vektoren im Raum, um ihre Ähnlichkeit zu bestimmen. Schließlich werden die kombinierten Algorithmusergebnisse mit Hilfe spezieller linguistischer Regeln korrigiert, die von unserem Sprachteam entwickelt wurden.

Zu Evaluierungszwecken haben wir eine Demoseite erstellt, die die gängigsten Sprachen erkennt und eine Sprachenerkennungsgenauigkeit von 95 % bis 99 % erreicht (typische Ergebnisse von Konkurrenzprodukten: 86 – 96 %). Die durchschnittliche Verarbeitungsgeschwindigkeit lag bei über 8000 KB/s.

KONTAKTIEREN SIE UNS
Sie können uns auch telefonisch erreichen unter

+34 96 333 6 333 – Europa

+1 949 688 0504 – USA