FAQ

Questions (et craintes) courantes ou tout ce que vous voulez savoir sur la TA mais que vous n’osez pas demander
Les mises en place, les programmes d’entraînement gratuits et plusieurs moteurs personnalisés spécifiques à un domaine et développés pour notre propre usage ou celui de nos clients nous ont fait prendre conscience qu’il existe plusieurs questions clés, craintes et malentendus lorsque les entreprises, les autres fournisseurs de services linguistiques et même les traducteurs abordent l’utilisation de la TA.

La traduction automatique est un sujet d’actualité. L’époque où les agences de traduction pouvaient proclamer que « les machines n’égaleront jamais la qualité humaine » est révolue. Les pressions du marché et, surtout, la nécessité d’accélérer la mise sur le marché des textes ont braqué les projecteurs sur l’automatisation de la traduction. Plusieurs développements ont même atteint la presse, et l’avènement de moteurs de domaine gratuits, généraux et en texte clair sur la Toile comme Google Translate, ont placé la traduction et le transfert rapide de langue en tête des priorités des entreprises internationales. L’appel du président Obama à faire progresser et à améliorer la traduction automatique pour aider le monde à mieux communiquer et à mieux se comprendre en octobre 2009 n’a fait que renforcer l’intérêt pour le sujet (articles du New York Times et de The Economist, mars 2010).

Certaines technologies de traduction existent depuis plus de 50 ans, mais les technologies les plus récentes sont-elles meilleures ? Comment la TA peut-elle être mise en œuvre avec succès et intégrée dans un environnement de production réel ? Quelles sont les attentes en matière d’augmentation de productivité et de réduction des coûts ? Comment les traducteurs et le personnel réagiront-ils aux résultats de la TA ? Comment la gérer ? Comme pour toute innovation, il existe des craintes et des incertitudes… jusqu’à ce que quelques exemples de réussite nous guident.

En répondant aux 17 questions clés suivantes (ou à toute autre question que vous pourriez avoir), nous espérons fournir suffisamment d’informations tirées de l’expérience et de quelques approches pratiques sur la manière de convertir ce nouveau défi en une stratégie innovante et compétitive.

Si vous vous êtes posé l’une des questions suivantes, cette section vous sera utile.

Q17 - Votre traduction automatique est-elle de qualité pour le tchèque ?

This is a typical question from some of our Slavic-speaking clients: Is your machine translation good with Czech language? Is your machine translation good with Russian? Is your machine translation good with Croatian?

Slavic languages have many cases (word inflections). This made statistical machine translation to work quite badly as the possibilities of any string happening were quite low. These type of languages are also called “morphologically rich languages” because of the number of combinations that are possible.

Neural networks changed the approach completely. A neural network works well below and above the word level to understand the complexities of how each word is formed and how it relates to the words next to it. This means that neural networks-based machine translation understands far better the relations between the different words in a sentence. By taking into account the dependencies between the words as a result of the training data provided, neural works-based machine translation provides output that translates in the feeling of near-human flow or human-quality machine translation.

One of our clients asked us

I thought that PangeaMT provide only generic engines and we can customize this engines with our own TMs and create in-domain specific „mirrors“ (with using “OnlineTraining” module). And I know that our language combinations (EN <-> CS and DE <-> CS, both ways) are not enough supported by other MT providers (Czech language is really complicate for MT solutions). So I had to ask If PangeaMT provide this two combination as well.

Well, indeed, you can customize your engine with our online tool using your own server. This provides a lot of freedom and independence when setting up a machine translation environment for a translation agency. As a language consultant, linguists tackle texts and documents of a different nature and conflicting terminology. Mixing everything in a single engine would be detrimental to performance and accuracy.

Take the following Czech English TMX file.

Les traducteurs connaissent bien ce format. Il s’agit de la version txt (version de la base de données) d’une mémoire de traduction. Chaque fois qu’un traducteur enregistre un segment, il crée un équivalent de la phrase source dans la langue cible. Ceci est très utile pour l’apprentissage automatique car les traducteurs créent ainsi des données parallèles, qui sont à la base de plusieurs développements de PangeaMT.

Un réseau neuronal trouvera les relations entre les phrases et les similarités, au niveau de la syllabe et de la lettre si nécessaire (il s’agit d’une caractéristique appelée BPE très utile lors l’entraînement neuronal). Cette technique est également responsable du succès de la traduction automatique neuronale et de ses meilleures performances, par rapport à la « traduction automatique statistique » basée sur le n-gramme. Toutefois, ce type de traduction automatique est toujours aussi efficace pour les phrases courtes en raison de ses capacités de « mémorisation » plus élevées, comme nous l’avons expliqué dans nos premières publications sur les développements de la traduction automatique neuronale en 2017. Nos conclusions de l’époque ont prouvé qu’une phrase courte de moins de 9-10 mots pouvait probablement être traduite de manière plus précise avec un système statistique qu’avec un système neuronal. Les systèmes s’étant améliorés au fil des ans, l’écart entre ces deux systèmes s’est réduit. Cependant, il est vrai que lorsque les sites de cybercommerce n’ont besoin de traduire que quelques mots, et que ces mots ont fait partie des données d’entraînement, un système statistique sera plus rapide et plus efficace. Un système neuronal, lui, reconstruira la phrase avec une fluidité plus humaine.

Par conséquent, si vous vous demandez si notre traduction automatique est de qualité pour la langue tchèque, la réponse est OUI ! Nous avons l’équipe, la technologie et les données pour faire fonctionner votre moteur de TA sans problème et produire une traduction de millions de mots, de haute qualité !

Q16 – Qu’en est-il du nettoyage des données ? Quelle est votre approche ?

Les entreprises ne doivent pas sous-estimer (et souvent elles commencent seulement à comprendre) l’effort requis pour le nettoyage des données lorsqu’elles commencent à exporter des données bilingues (parallèles) à des fins de Machine Learning. En raison des limitations et des caractéristiques de la TAO, des « parasites » peuvent entrer dans une phrase sous la forme d’un code indésirable, mais le concept de nettoyage des données va au-delà de la suppression des lignes, comme nous l’avons expliqué dans la Q14. Quelques exemples typiques de nettoyage de données nécessaire ont été présentés à la Fédération japonaise de traduction 2011 dans le cadre de notre Projet de traduction automatique hybride basée sur la syntaxe japonaise.

Toute personne qui travaille dans le secteur de la traduction depuis suffisamment longtemps a rencontré des mémoires de traduction déficientes. Celles-ci peuvent prendre de nombreuses formes, allant d’une simple traduction médiocre à une inexactitude terminologique, entre autres. Heureusement pour nos utilisateurs, ce type de nettoyage de données fait désormais partie de la procédure de nettoyage standard de PangeaMT.

Certains cycles basiques de nettoyage sont mentionnés ci-après. Ils tiennent compte de certaines procédures qui ont été automatisées pour les propriétaires de systèmes pour garantir que

  • leurs données d’entraînement initial sont pures avant l’entraînement du moteur afin d’obtenir les meilleurs résultats possibles ;
  • tout contenu postéditable futur passe également par un cycle de nettoyage vertueux afin de vérifier tout « parasite » qui pourrait s’être introduit dans le système et ainsi affecter les réentraînements.

PangeaMT doit d’abord s’assurer que l’ensemble des données pour l’entraînement initial du client a passé avec succès tous les contrôles de nettoyage avant l’entraînement. Cela permettra d’obtenir un bitext (corpus parallèle) pur et facilitera l’apprentissage informatique. En même temps que les processus propres à PangeaMT, en passant par les règles spécifiques au langage et la syntaxe ou l’étiquetage morpho-syntaxique, les données entrent dans le cycle d’entraînement du moteur.

Ceci ne constitue pas une liste exhaustive de toutes les étapes de nettoyage. Néanmoins, elle permettra aux utilisateurs de se rendre compte du type d’information qui sera extrait pour être approuvé par l’être humain avant de réintégrer le cycle d’entraînement. Tous les segments détectés comme « suspects » seront retirés de l’ensemble d’entraînement afin d’être approuvés, révisés ou modifiés au format TMX par un humain, puis seront réintroduits dans le système.

  1. Les segments présentant une différence de longueur significative entre la source et la cible
    En général, nous considérons qu’une phrase est « suspecte » lorsqu’elle est d’une longueur supérieure à 50 %, mais cela peut varier en fonction de vos besoins particuliers (le tchèque, par exemple, est généralement plus court que l’anglais, et le français est 25 % ou 30 % plus long que l’anglais, ceci n’est donc pas une indication en soi de l’existence d’un problème).
  2. Les segments où la source ou la cible contient des symboles typographiques manquants dans l’autre, tels que [ ], *, + =.
  3. Les segments où la source et la cible sont identiques.
  4. Les « segments vides », c’est-à-dire les segments avec source mais sans cible.
  5.  Les segments contenant des noms ou des expressions particulières qui font partie de la terminologie privilégiée du client.

Tous ces segments sont candidats à la révision humaine.

C’est (entre autres) ce qui distingue PangeaMT des autres offres : nous vous formerons et vous fournirons les outils pour que vous puissiez contrôler vous-même vos entraînements futurs.
Des données pures tracent la voie d’un résultat de qualité et donc, une amélioration des performances du moteur. Le concept informatique « Garbage in, Garbage out » est donc bien d’application. Grâce à nos routines de nettoyage, vous pouvez être sûr que vous disposerez d’un système qui éliminera tout contenu que vous considérez comme « douteux ». Mais même après l’installation, n’oubliez pas que vous bénéficiez d’une année complète d’assistance gratuite. Si vous constatez des résultats anormaux, si vous souhaitez appliquer ou corriger des modèles, nous sommes là pour vous aider. Il ne s’agit pas d’un système de boîte noire ou d’une entreprise qui vend des mots ou des moteurs. Notre modèle est fondé sur la « responsabilisation des utilisateurs », c’est-à-dire du transfert de technologie.

Q15 - En quoi êtes-vous différent de Google Translate ?

Nous sommes considérablement différents. Dans le cadre de sa mission d’organisation de l’information mondiale, Google considère la traduction comme une offre informative, très astucieuse, mais aussi généraliste. Son application de traduction est à la pointe de la technologie, mais elle tente de créer un portail capable de traiter les demandes de traduction pour chaque sujet.  Tout comme nous l’avons constaté lors de nos premiers développements avec la TA, Google a décidé d’abandonner l’approche de la traduction automatique basée sur des règles et a adopté des méthodologies statistiques pour la traduction. Ceci n’est pas étonnant, car les scientifiques des deux organisations sont de fervents défenseurs de la traduction automatique statistique (SMT) et qu’il y a eu un certain degré de collaboration académique entre l’équipe de R&D de PangeaMT et les meilleurs chercheurs de Google.

Alors que Google se concentre sur la mise à disposition d’un maximum d’informations générales et dispose de vastes ressources pour rassembler des milliards de mots de données, l’approche de PangeaMT consiste à créer une application personnalisée pour vos besoins particuliers avec votre terminologie, vos expressions et votre usage des mots privilégiés, c’est-à-dire une application de traduction automatique qui traduit comme vous le souhaitez. Les données d’entraînement sont généralement fournies par votre organisation et améliorées par PangeaMT. Des données linguistiques supplémentaires peuvent être ajoutées afin que le moteur dispose de ressources lexicales suffisantes. Un modèle linguistique peut être construit sur mesure ou adapté à vos besoins. En outre, le système de PangeaMT est conçu pour s’adapter aux systèmes de TA actuels et prendre en charge la traduction en formats TMX ou XLIFF, ce que Google Translate ne peut pas faire (il ne traduit que du texte brut).

En traduisant des fichiers et non du texte brut, PangeaMT se connecte directement et facilement à tout flux de localisation ou de base de connaissances. Les fichiers TMX ou XLIFF peuvent être facilement postédités en utilisant la plupart des outils de TAO (sinon tous) comme outils d’édition.

En bref, les développements de PangeaMT s’intègrent dans les environnements de traduction actuels et automatisent les processus actuels, alors que Google Translate est un moteur informatif.

Q14 – Je traite des textes qui sont remplis de codes incorporés et de balises. La plupart des systèmes SMT n’offrent que du texte brut et il faut beaucoup de temps pour copier et coller les codes incorporés et les balises à la bonne place. Avez-vous fait quelque chose pour résoudre ce problème ?

Oui, en effet. Les systèmes de traduction automatique statistique produisent généralement des données au format texte brut car c’est le format qu’ils peuvent traiter. Cependant, nous sommes impatients de voir les solutions PangeaMT pleinement opérationnelles et adaptées aux exigences les plus strictes de l’industrie linguistique. C’est pourquoi nous avons concentré nos efforts sur le développement de moteurs SMT capables de traiter les codes incorporés, caractéristiques des autres formats de contenu utilisés dans les environnements de localisation. Grâce à un analyseur de codes innovant, PangeaMT peut identifier les codes incorporés sans les traduire. Un marqueur de codes est d’abord inséré puis remplacé par les codes incorporés avant le résultat.

Si le moteur doit traiter un texte de codes incorporés très lourd, la qualité de la traduction peut en souffrir. Dans ce cas, certains clients peuvent choisir d’identifier et de présenter les codes incorporés dans une position de segment donnée (par exemple, au début ou à la fin), et de demander à leurs linguistes chargés de la postédition de replacer la balise au bon endroit. Ils peuvent également opter pour que le moteur produise les codes incorporés là où ils devraient être.

L’expérience montre qu’il s’agit là d’une mesure équitable. À notre connaissance, notre analyseur de codes incorporés constitue une innovation majeure par rapport au niveau de maturité actuel des systèmes de SMT les plus connus. De plus, les solutions de PangeaMT sont les seules à vous offrir un choix de formats de contenu (txt/TMX/XLIFF) car notre mission est double : suivre les normes ouvertes et démocratiser au maximum la traduction automatique.

Découvrez notre démo en ligne, avec laquelle vous pourrez tester notre générateur TMX ainsi que des versions simplifiées de nos moteurs de domaine dans plusieurs combinaisons linguistiques !

Q13 – Que voulez-vous dire par votre système est construit sur des normes ouvertes ? Quelle est la différence avec d’autres modèles ?

Cela signifie que nous prenons en charge des normes de l’industrie qui ne sont pas la propriété d’une seule entreprise. Nous voulons incorporer la démocratie à la traduction, et en particulier au monde de la TA. Ces deux secteurs ont été dominés par des propriétaires de technologie ayant un sens aigu des affaires, mais les faits nous indiquent clairement qu’il existait peu d’intérêt pour l’avancement du secteur.

Avec les normes ouvertes, il n’y a pas d’engagements coûteux, ni de mises à jour ou de mises à niveau onéreuses. Il sera nécessaire de mettre à jour votre système avec votre contenu postédité, mais cela fait partie de l’apprentissage du système. Un moteur se rentabilise en moins d’un an grâce aux frais de traduction réduits. Une mise à jour avec votre contenu postédité est une fraction de ce coût.

Une fois votre développement arrivé à maturité, vous n’aurez presque plus besoin de maintenance, à moins que vous ne soyez un utilisateur professionnel ayant des besoins très spécifiques. Vous pouvez alors vous concentrer sur la production d’un nombre croissant de documents traduits ou envisager de créer des moteurs plus personnalisés.

Q12 - Quels bons (meilleurs, gratuits) outils de postédition recommandez-vous ?

Oui. Tout outil de TAO deviendra un excellent environnement de postédition. Si vous suivez un flux de travail TMX basé sur des normes ouvertes, vous pourrez exploiter les correspondances de votre TA tout en profitant d’importants volumes de texte traduits.

Vous pouvez également utiliser des outils gratuits tels que xBench, qui vous aideront à postéditer les fichiers TMX et même à vérifier la cohérence entre les segments avant la relecture finale.

Q11 – Qu’en est-il de la cohérence ? Comment vous assurez-vous que la terminologie de mon entreprise prévaut statistiquement sur les autres options ?

Idéalement, vos moteurs personnalisés ne devraient contenir que vos propres données afin de garantir qu’aucun « parasite » ne perturbe votre style d’écriture ou le style de votre entreprise. En réalité, peu d’organisations disposent de tant de données. La collecte de données et le conseil sur la manière d’obtenir des données plus pertinentes sont devenus l’activité favorite de nos développeurs de SMT.

Dans le cadre de nos services de conseil, PangeaMT peut ajouter plus de force à votre ensemble initial de données afin qu’un vaste corpus linguistique vienne s’ajouter à l’entraînement (nous disposons d’outils pour construire un modèle linguistique ou faire en sorte que l’un de nos modèles linguistiques s’adapte davantage à votre style). Toutes les données que nous ajoutons seront pertinentes pour votre domaine d’activité et les moteurs seront testés avec et sans ces données afin que vous puissiez vérifier l’effet d’un plus grand nombre de données sur votre développement. (Vous pouvez trouver une version simplifiée de ce à quoi un test peut ressembler dans nos actualités d’octobre 2009. Ceci faisait partie d’un test gratuit pour plusieurs organisations.)

En général, on suppose que plus il y a de données, mieux c’est. Il y a eu certaines controverses sur la question de savoir si des ensembles de données plus petits et plus propres offrent une plus grande précision. Cela dépendra en grande partie de votre application et de la nécessité d’une « conscience universelle » pour votre système ou de l’utilisation d’un moteur pour un domaine très spécifique. Des données d’ingénierie civile de 2 millions de mots auront probablement peu d’impact si vous construisez un système pour une société de logiciels luttant contre les virus, ou un moteur médical luttant contre un type de virus très différent. C’est une erreur courante d’ajouter des données en pensant qu’elles seront utiles à un moment donné, mais nos études concluent que si ces données ne sont pas susceptibles d’être nécessaires ou réutilisées, il vaut mieux les laisser dans votre modèle linguistique.

En bref, il n’y a aucun moyen de garantir que les statistiques fonctionneront d’une manière ou d’une autre (c’est précisément le but des statistiques, elles analysent les chances que quelque chose se produise). Si le système est trop vaste, des systèmes de pré et de post-traitement peuvent être construits (une sorte d’hybridation) pour « réparer » ou « forcer » certaines expressions. Il y a d’autres façons de travailler pour augmenter les chances, par exemple, utiliser la méthode du moteur combiné ou l’hypothèse combinée (c’est-à-dire combiner des parties de résultats probables avec une grande certitude pour refaire des phrases que le moteur traite). Jusqu’à présent, nous avons eu de bons retours des linguistes chargés de la postédition utilisant les mêmes outils terminologiques que ceux de la TAO pour vérifier la cohérence terminologique.

Q10 – Pouvez-vous construire n’importe quelle combinaison de langues (par exemple, du chinois ou du japonais en espagnol ou en russe) ? Quels sont les défis à relever ?

C’est le plus grand avantage des systèmes statistiques. Tout ce dont vous avez besoin, ce sont des données mais aucune connaissance linguistique de la relation entre la langue A et la langue B. Si vous établissez des « règles » entre le japonais et le chinois et toute langue européenne, vous êtes confrontés à une tâche difficile. Les règles de transfert sont de plus en plus éloignées entre les langues non apparentées. Mais, avec un système statistique, votre moteur analyse les changements d’un mot ou d’une série de mots qui se produisent lorsque d’autres expressions apparaissent dans d’autres langues. Les systèmes de SMT fonctionnent également très bien avec des langues similaires ou « apparentées », car peu de réorganisation est nécessaire. Lorsqu’il s’agit de langues très éloignées, les processus périphériques, le prétraitement et le post-traitement deviennent très importants, ainsi que la réorganisation des mots (c’est-à-dire le fait de faire défiler la phrase). La façon dont le modèle linguistique est construit est également importante, mais la clé consiste à utiliser un bon ensemble pour le prétraitement et le post-traitement.

La réponse est donc oui, toute combinaison de langues peut être construite, et ce, beaucoup plus rapidement et efficacement qu’avec des systèmes basés sur des règles.

Q9 – Si j’utilise la TA, cela signifie-t-il que je ne peux plus utiliser mes systèmes basés sur ma mémoire de traduction ? Pouvez-vous intégrer la TA à mon logiciel basé sur la mémoire de traduction ?

Il existe plusieurs façons d’utiliser un développement de SMT au sein de votre organisation. L’un de nos derniers développements a été présenté au Localization World Barcelona 2012. Cette nouvelle version de PangeaMT propose un auto-entraînement (vous n’avez donc pas à revenir nous voir pour les mises à jour), la création automatisée de moteurs, des glossaires et bien d’autres fonctionnalités. Cliquez ici pour lire le communiqué de presse. PangeaMT offre :

–       Un service complet de TA+PE, principalement pour les utilisateurs en entreprise à la recherche d’une solution globale. Nous développons le système de TA avec vos données et nous nous chargeons du développement et de l’entraînement au changement, ainsi que de la postédition des résultats. Le moteur peut être hébergé sur n’importe quel site et il produit du texte brut. Depuis 2009, nous offrons un flux de travail TMX intégré, une compatibilité avec XLIFF depuis 2010 et depuis 2011, une intégration TTX avec reconnaissance de correspondances en % afin que vous puissiez exploiter le texte de vos mémoires de traduction existantes à l’aide de votre outil de TAO et demander ensuite au moteur de faire le travail nécessaire.

–       Services SaaS (nous développons un moteur « thématique » dans un domaine défini et la langue que vous souhaitez avec vos données et que vous pouvez utiliser via un service de paiement instantané, en achetant des résultats de TA bruts que vous pouvez ensuite postéditer en interne en format TMX, XLIFF ou TTX).  Le moteur est hébergé en interne chez PangeaMT.

Cependant, la mise en œuvre la plus populaire est notre personnalisation de moteur qui est hébergé en interne sur le serveur du client. Là encore, nous développons et entraînons un moteur qui s’adaptera à votre domaine et à vos expressions et qui utilisera vos données provenant des mémoires de traduction et les données connexes pour le construire. Ce moteur est installé sur votre serveur, avec un ensemble de modules périphériques (analyseur de balises, interface Web Intranet, scripts de transfert de données, modèle de langage, panneau de commande, etc.). Vous pouvez l’utiliser postérieurement pour la traduction autant de fois que vous le souhaitez au sein de votre organisation, le nombre de serveurs sur lesquels le moteur est installé étant limité. Il y a une période d’adaptation du moteur et de mise en place dans votre système et, bien sûr, il est fortement recommandé de procéder à un réentraînement après avoir rassemblé une certaine quantité d’informations de postédition.

Votre logiciel de traduction existant (ou tout nouveau logiciel que vous pourriez acquérir) peut devenir votre environnement de postédition. Il n’est pas nécessaire d’entamer un long apprentissage avec vos linguistes et fournisseurs actuels. Comme PangeaMT fonctionne avec un flux de travail TMX, il vous suffit d’exporter les segments que vous devez traduire (les correspondances sont généralement inférieures à 70 % ou 75 %), de faire traduire le TMX, de mettre à jour la mémoire de traduction de votre projet en appliquant les pénalités résultant de la TA. Votre logiciel de traduction s’arrêtera donc chaque fois qu’il trouvera un segment qui a été traduit par machine. Vous pouvez également utiliser les traductions existantes de votre mémoire de traduction dans un outil de TAO utilisant le format de norme ouverte XLIFF ou le format propriétaire TTX et envoyer l’ensemble de fichiers à votre moteur de PangeaMT pour la traduction.

C’est un procédé très simple, car le système peut facilement se connecter à votre environnement de traduction existant. L’avantage est qu’il n’est plus nécessaire de mettre à jour le logiciel de TAO : votre système est guidé par la TA et s’améliorera avec les données que vous générerez. En outre, le système offre l’avantage de tirer parti du pourcentage élevé de concordances à partir de votre mémoire de traduction (cela n’aurait aucun sens de l’envoyer en TA, car un humain peut rapidement repérer la différence) grâce à la puissance d’un moteur statistique spécifique au domaine.

Une alternative (en fonction du logiciel de TAO utilisé) consiste à créer une API pour se connecter à votre logiciel de traduction, segment après segment, si la concordance de la mémoire de traduction n’atteint pas un certain seuil.

Vos économies en matière de traduction sont immédiates. Vous pouvez alors produire plus de contenu et plus de texte et toucher plus de clients.

Q8 - Qu’en est-il de la « réticence des traducteurs » à devenir postéditeurs ?

Si vous vous souvenez de la réticence des traducteurs à l’utilisation des outils de TAO à la fin des années 1990, vous aurez une idée de la manière dont la postédition a été considérée à partir de 2010.

Toute « nouvelle » technologie (ou technique) rencontre toujours une réticence. Il n’y a rien que nous aimons plus que la sécurité, la certitude. Dans le monde de la traduction, cela signifie un cycle relativement long en ce qui concerne l’incorporation et l’usage des outils de TAO. Nous ne parlons pas que des outils omniprésents qui sont particulièrement bien commercialisés, mais aussi des outils moins connus qui peuvent aussi produire un travail de qualité. Certains ont fait un effort conscient pour proposer des plug-ins de TA (Swordfish, maxprograms.com) et, comme PangeaMT, sont conçus sur des normes ouvertes avec une mentalité « ouverte ». Aujourd’hui, vous demandez à vos traducteurs de « corriger » le résultat de la machine et ce, à coûts réduits. Retour aux années 1990…

En effet, il peut y avoir une certaine réticence de la part des traducteurs travaillant depuis longtemps. Les jeunes diplômés sont toujours formés à la théorie de la traduction liée aux outils assistés par ordinateur.

Cependant, maintenant que les utilisateurs finaux peuvent, dans certains contextes, utiliser les systèmes déjà construits, même s’ils ne sont pas entièrement adaptés à leur domaine, l’étape de postédition peut devenir un critère de sélection. Avant le déploiement complet, les entreprises, les organisations, les industries et les fournisseurs de services linguistiques mènent généralement des projets pilotes quantifiables pour s’habituer aux tâches de postédition, identifier les changements récurrents pour les solutions automatiques et fonder leurs attentes en matière de qualité et de prix sur des données objectives. Cela signifie que les futurs postéditeurs, qu’ils soient actuellement traducteurs ou de nouvelles recrues, doivent être impliqués lors d’une étape précédant le déploiement.

La postédition est encore une profession naissante et l’expérimentation des systèmes de TA est nécessaire pour acquérir un ensemble de compétences relatives à chaque langue. Par exemple, si vous utilisez un moteur qui manque de vocabulaire général « universel » ou de mots très courants. Cela peut être gênant dans les systèmes à grande échelle, si bien que nous utilisons des modules de dictionnaires statistiques pour ajouter des mots qui ne figuraient pas dans votre corpus d’entraînement. Néanmoins, les linguistes chargés de la postédition dans les environnements de localisation ou de documentation peuvent penser qu’il est préférable de laisser les termes inconnus dans la langue source pour ensuite lancer la fonction « rechercher et remplacer » et ainsi postéditer plus rapidement. Par conséquent, attendez-vous à la même méfiance que celle rencontrée par toute nouvelle technologie, mais expliquez-en les avantages. La traduction humaine ne peut pas résoudre les problèmes liés à la rapidité et aux coûts à l’ère du numérique. Il n’y a tout simplement pas assez de traducteurs qualifiés et même s’il y en avait, la logistique et les coûts de traduction de 50 000 mots en un jour ou deux rendraient fous les chefs de projet. Ces pressions peuvent également expliquer l’importante main d’œuvre humaine dans l’industrie de la langue. La vérité est qu’avec l’avènement des services de traduction en ligne, des services de bureautique et des moteurs de serveurs de TA, les machines traduisent déjà plus de mots que les humains.

Q7 - Quel est le retour sur investissement (RSI) d’un moteur de TA ?

Les moteurs s’amortissent généralement avant la première année de fonctionnement. La mission de PangeaMT est d’incorporer la démocratie au monde de la traduction automatique et de rendre la technologie abordable et utilisable par le plus grand nombre d’utilisateurs possible. Le coût du moteur est devenu extrêmement accessible. Ainsi, les premiers utilisateurs en profitent davantage car leurs systèmes peuvent atteindre plus rapidement leur niveau de maturité. Cela engendre des économies et la possibilité d’automatiser les processus dans un plus grand nombre de langues et de domaines.

Le graphique ci-après montre le coût d’une traduction de 750 000 nouveaux mots avec un outil de TAO à 11 cts. Deux mises à jour par an du logiciel ont été calculées.

SMT = coût de l’entraînement personnalisé (année 1), 2 mises à jour annuelles et 750 000 nouveaux mots à 60 % du taux de traduction. « Plan de protection » à partir de l’année 2.*

* Comprend les coûts de l’analyseur de codes incorporés

les coûts de traduction par TAO de 750 000 mots nouveaux par anSMT + entraînement + mise à jour + PE 750 000
Année 182 50043 912,5
Année 2 (mise à jour logicielle)85 50022 207,5
Année 382 50021 352,5
Année 4 (mise à jour logicielle)85 50021 352,5
Année 582 50021 352,5

Q6 – Qu’entendez-vous par réentraînement ? Les moteurs doivent-ils être mis à jour en permanence, comme les mémoires de traduction ? Combien cela coûte-t-il ?

Vos moteurs seront construits avec les informations que vous fournirez à PangeaMT pour l’entraînement. Sinon, nous pouvons utiliser du contenu générique que nous possédons dans la plupart des combinaisons de langues. En septembre 2019, nous disposions de 4,5 milliards de phrases alignées dans plus de 80 langues, soit 3 milliards de phrases en plus pour l’apprentissage automatique par rapport à 2018, comme indiqué dans Slator.

PangeaMT utilisera ce contenu pour affiner un modèle linguistique pour votre cas particulier (c’est-à-dire un moteur qui connaît le vocabulaire pharmaceutique comme une personne bilingue EN/FR, ou un moteur qui parle comme un ingénieur bilingue allemand, etc.). Selon le domaine particulier et la quantité de données bilingues, il se peut que vous ayez besoin de plus de contenu ou qu’il faille le générer. Ainsi, le premier moteur, aussi bon soit-il, en est à ce que nous appelons « l’étape 1 » (en réalité, nous l’appelons l’adolescence). Une fois que vous nous avez fourni des informations supplémentaires (généralement un fichier TMX avec des traductions antérieures ou du contenu postédité), nous réentraînons le moteur avec davantage de contenu dédié. Cela signifie que le moteur donnera de plus en plus de priorité à certaines expressions ou combinaisons de mots.

PangeaMT a atteint 1,2 milliard de phrases alignées pour l’apprentissage automatique en 2018 et 4,5 milliards en 2019. La collecte d’énormes ressources pour l’apprentissage automatique nous permet de créer des moteurs de traduction automatique de qualité quasi humaine avec peu de saisie de texte de la part des clients.

Le contenu spécifique au domaine est généralement ajouté au début et à la fin du cycle d’entraînement du moteur neuronal. Cela garantit que l’algorithme saisit les nuances et les caractéristiques du domaine et de la langue qu’il va traduire. Cela est particulièrement vrai lorsque le contenu est ajouté au moment du cycle d’apprentissage (la dernière période), qui est hautement prioritaire et sert donc de « filtre de domaine et de style ».

Q5 - Les économies réalisées en matière de traduction sont-elles immédiates ?

Nos moteurs passent plusieurs tests (y compris des tests de postédition) avant d’être livrés afin de s’assurer que votre investissement et le temps consacrés en valent la peine, dès le premier jour. La mise en œuvre est fluide et peut être virtualisée, installée sur un serveur dans votre organisation, fonctionner sur un Intranet ou être personnalisée en fonction de vos besoins spécifiques.

Oui, vos coûts de traduction (et surtout le délai de mise sur le marché) seront considérablement réduits. Vous pourrez le constater dès la première semaine. Néanmoins, n’oubliez pas que les moteurs s’amélioreront avec le temps et que quelques exercices de réentraînement (au moins 1 par an) sont fortement recommandés. Le contenu postédité est un très bon candidat pour le réentraînement des moteurs, car il reflète vos besoins quotidiens.

Q4 - Combien coûte la postédition ?

Les tendances du marché indiquent un taux de 60 % des honoraires de traduction intégrale pour la postédition sur la base d’une TA satisfaisante… mais cela doit être considéré comme une ligne directrice plutôt qu’une règle fixe. Il y a de nombreux cas où ce taux ne peut être appliqué. Nous ne pouvons pas dire quel est le meilleur tarif de postédition dans chaque circonstance et dans chaque domaine. Néanmoins, les fournisseurs de services linguistiques (LSP) et les rédacteurs de contenu prennent ce taux comme référence et travaillent sur des taux d’amélioration de la production. Nous savons que la postédition est également payée à la taille, au segment ou au temps.

Q3 - La TA supprimera-t-elle le besoin d’un traducteur humain ?

Absolument pas. Les outils de traduction assistée par ordinateur (TAO) n’ont pas supprimé le besoin de traducteurs humains. En fait, ils ont créé et fait croître le marché, car la traduction est devenue plus abordable. La plupart des linguistes du secteur, qui ont quelques années d’expérience dans le secteur, se souviennent encore de la réticence initiale de certains à adopter les premiers outils d’assistance à la traduction. Dans les années 1990, beaucoup les considéraient comme un gadget, une astuce pour payer moins les traducteurs, alors qu’en réalité, les traducteurs étaient très bien payés, même pour les répétitions, car il n’y avait pas moyen de les compter… sauf manuellement.

L’ère numérique a également transformé le rôle du traducteur et, pendant longtemps, les traducteurs ont dû faire face à des problèmes de formatage au sein des outils de TAO pour lesquels ils n’étaient pas formés. Les normes XLIFF et Dita sont un moyen d’aider le traducteur à faire ce qu’il fait le mieux (le transfert de langue) plutôt que de se battre avec des balises et des couleurs dans les outils de Traduction Assistée par Ordinateur. En ce sens, la TA est un outil de productivité très important.

Elle sera l’une des meilleures aides à disposition du traducteur. Elle améliore la vitesse à laquelle un traducteur travaille (en évitant d’avoir à « penser » à des traductions et des enchaînements de mots qui ont été traduits des milliers de fois auparavant). Même si elle ne permet de gagner du temps qu’au moment de taper à la machine, cela constitue déjà une amélioration. Si vous traitez un domaine particulier (ingénierie mécanique), cela aidera le traducteur à se familiariser avec la terminologie et à se concentrer sur les tâches à valeur ajoutée que seul l’homme peut accomplir.

Curieusement, la vérité est que les machines traduisent déjà plus de mots par jour (correspondant au nombre de clics sur le bouton « Traduire » sur un site Web ou sur un programme de traduction ou de serveur comme BabelFish ou GoogleTranslate pour obtenir une traduction générale et intuitive) que les humains (il y a environ 300 000 traducteurs enregistrés dans le monde, avec une production moyenne d’environ 2200 à 2800 mots par jour).

Q2 – Pourquoi la TA statistique et non la TA basée sur des règles ? Quels sont les avantages et les inconvénients ?

Toute personne ayant de l’expérience en matière de TA (ou du moins relecture ou postédition de TA) vous dira que la TA statistique fonctionne bien mieux que les systèmes traditionnels basés sur des règles (RB). Toute personne ayant étudié ou mis en œuvre de la traduction automatique statistique (SMT) vous dira que les délais de mise en œuvre et de développement sont beaucoup plus courts (d’où le retour sur investissement (RSI)). La traduction automatique sur la base de règles (RBMT) est généralement achetée comme un ensemble moins cher une fois que l’entreprise a fait toute la programmation des règles et intégré les syntaxes. L’ensemble est fermé et la personnalisation (ou l’hybridation) est un processus plus long. La TA statistique peut être améliorée en couplant la réorganisation et le décodage, et en appliquant de nombreuses autres formules mathématiques et statistiques qui détermineront avec certitude qu’un mot (ou une série ou combinaison de mots) se produit ensemble par rapport à d’autres mots. Lisez les paragraphes ci-après si vous avez besoin d’une liste exhaustive.

  • La SMT a seulement besoin d’apprendre des corpus parallèles pour générer un moteur de traduction. En revanche, la RBMT a besoin de beaucoup de connaissances externes au corpus que seuls les experts linguistiques peuvent générer, comme une catégorisation, une syntaxe et une sémantique superficielles de tous les mots d’une langue en plus des règles de transfert entre les langues. Ces dernières règles dépendent entièrement de la paire de langues concernée et ne sont généralement pas aussi étudiées que la caractérisation de chaque langue séparée. Il n’est pas facile de définir des règles de transfert générales, et il faut donc définir de multiples règles en fonction des cas individuels, en particulier entre des langues ayant des structures très différentes et/ou lorsque la langue source dispose d’une plus grande flexibilité pour la gestion des objets structurels dans une phrase.
  • Un système de SMT est développé rapidement si l’on dispose du corpus approprié, ce qui le rend plus rentable. Un système de RBMT, quant à lui, nécessite des coûts de développement et de personnalisation importants pour pouvoir atteindre le seuil de qualité souhaité. Les systèmes de RBMT ont déjà été développés au moment où l’utilisateur les achète :  la plupart des utilisateurs abordent la TA en achetant des programmes « prêts à l’emploi » ou « prêts pour le serveur ». Le programme fonctionne et fonctionnera d’une certaine manière, mais il sera extrêmement difficile de reprogrammer les modèles et les équivalences. Par-dessus tout, le déploiement de la traduction automatique sur la base de règles est généralement un processus beaucoup plus long qui implique davantage de ressources humaines. C’est l’un des points clés lorsque les entreprises calculent le coût total de la mise en œuvre.
  • La SMT est adaptée pour être automatiquement réentraînée dans des situations inédites (mots jusqu’alors inconnus, nouvelles expressions traduites différemment de la façon dont elles étaient auparavant traduites, etc.). La RBMT est « réentraînée » par l’ajout de nouvelles règles et d’un nouveau vocabulaire, entre autres, ce qui signifie plus de temps et plus de manipulation par des « experts humains ».
  • La SMT génère des traductions plus fluides (fluidité), bien que les systèmes statistiques purs puissent offrir moins de cohérence et des résultats moins prévisibles si le corpus d’entraînement est trop vaste pour l’objectif. Cependant, la RBMT peut ne pas avoir trouvé les informations syntaxiques ou les mots adaptés à l’analyse de la langue source, ou ne connaît pas le mot. Cela l’empêchera de trouver une règle appropriée.
  • Alors que la traduction automatique statistique fonctionne bien pour les traductions dans un domaine spécifique ; avec le moteur entraîné avec un corpus bilingue dans ce domaine, la traduction automatique sur la base de règles peut mieux fonctionner pour des domaines plus généraux.
  • Il est clair qu’il faut un outil informatique puissant en SMT en termes d’informations pour entraîner les modèles. Des milliards de calculs doivent être effectués pendant l’entraînement du moteur et les connaissances informatiques requises pour ce faire sont hautement spécialisées. Cependant, actuellement, le temps d’entraînement peut être réduit grâce aux ordinateurs plus puissants disponibles sur le marché. La RBMT nécessite un temps de déploiement et de compilation plus long par les experts, de sorte qu’en principe, les coûts de construction sont également plus élevés.
  • La SMT génère automatiquement des modèles statistiques, y compris un bon apprentissage des exceptions aux règles. En ce qui concerne les règles régissant le transfert des systèmes de RBMT, elles peuvent certainement être considérées comme des cas particuliers de normes statistiques. Néanmoins, elles généralisent trop et ne peuvent pas gérer les exceptions.
  • Enfin, les systèmes de SMT peuvent être mis à niveau avec des informations syntaxiques, voire sémantiques, comme pour la RBMT. Mais, dans ce cas, les modèles statistiques qu’une SMT apprendrait peuvent être considérés comme un type plus général de règles de transfert, bien qu’actuellement, l’inclusion de telles informations dans les systèmes actuels n’apporte pas d’améliorations significatives.
  • Un moteur de SMT peut générer des traductions améliorées s’il est réentraîné ou adapté à nouveau. En revanche, la RBMT génère des traductions très similaires entre différentes versions.

Q1 - Combien de mots faut-il pour construire un moteur de qualité ?

La plupart des gens vous diront que 2 millions de mots est le strict minimum que vous pouvez fournir pour un moteur de « base » et ainsi obtenir une certaine automatisation dans un domaine. N’attendez pas de grands résultats si vous traitez des textes qui peuvent inclure beaucoup de mots nouveaux et inattendus comme des mots liés à l’économie ou au journalisme. Si vous travaillez avec une langue très contrôlée et que vous ne variez que très peu de thèmes (manuels techniques, dossiers de documentation, etc.), essayez d’augmenter le plus possible la quantité de texte.

Les développements typiques de PangeaMT dans des domaines spécifiques (logiciels, électronique, automobile, ingénierie, tourisme) ont commencé à 5 millions de mots. Il existe plusieurs façons d’augmenter le nombre de mots en rassemblant des textes parallèles fiables, et PangeaMT propose des conseils et des orientations pour que vous puissiez démarrer un moteur avec le plus de mots possible. Nous utilisons l’expression « à maturité » pour un moteur de 15 ou 20 millions de mots dans un domaine, car il est susceptible de contenir la plupart de la terminologie, du vocabulaire et des expressions nécessaires pour ce domaine linguistique. Ne désespérez pas si vous ne disposez pas d’une telle quantité de données. L’important, c’est de faire démarrer le moteur. Vous pouvez ajouter du contenu postédité et d’autres contenus que vous avez acquis avec l’expérience lors de réentraînements ultérieurs.

On a beaucoup discuté de « l’efficacité déraisonnable de quantités massives de données » par rapport à « des quantités plus faibles de données bien sélectionnées ». De nombreuses personnes qui envisagent de développer leur première TA ne savent pas si elles doivent mettre autant de texte que possible (quantités massives de données) ou si elles doivent sélectionner les textes bilingues les plus précis possibles, même si cela implique de traiter des ensembles de données plus petits. Notre expérience suggère plusieurs directions

a) Si vous essayez de construire un moteur de type général, capable de traduire l’inattendu (des articles de presse aux documents économiques et à la littérature), rassemblez autant de données que possible. Vous essayez de construire un système pour faire face à tout type de situation. Aucune quantité de données ne sera suffisante. Tôt ou tard, il vous faudra y intégrer une sorte d’aide syntaxique.

b) Si vous essayez de construire un moteur qui répondra à votre domaine linguistique et à vos besoins particuliers (ou même si vous voulez un moteur qui comprend vos produits et services, mais également des informations à caractère financier et juridique), vous n’avez pas besoin de milliards de documents. Dans ce cas, il semble plus raisonnable de recueillir autant de données que possible auprès de votre organisation (ou d’une organisation similaire) et cela en vaut la peine.

Quoi qu’il en soit, ne sous-estimez pas l’effort et le travail d’équipe requis lors des étapes de collecte de données. Cela est essentiel pour un bon entraînement (et donc, des résultats) du moteur. Ce sera le début du changement dans votre adoption des technologies de TA et une bonne occasion d’impliquer les parties prenantes dans le processus.