Google Traduction est l’outil gratuit de traduction automatique le plus connu au monde. Il existe grâce à l’énorme masse de données de Google et les techniques statistiques utilisées. Pour un étranger au secteur de la traduction comme moi, Google Translate semblait représenter un grand bond en avant dans la qualité de la traduction lorsqu’il a été lancé. Cependant, depuis lors, ses améliorations de qualité semblent progresser sans cesse. Comment Google Traduction est-il devenu si bon ? Et comment peut-il éviter de plafonner en termes de qualité, et s’améliorer encore ?
Questions sur Google Traductions
Pour commencer, où Google a-t-il obtenu toutes ses données ?
Le moteur de recherche cherche simplement des pages qui semblent pouvoir être des traductions les unes des autres. Peut-être ont-elles des domaines identiques, seulement l’une se termine par /en et l’autre par /fr. Peut-être ont-elles des noms propres ou des chiffres identiques dans la même position. Le logiciel ne pondère pas une paire comme étant plus ou moins susceptible d’être une traduction ; il s’agit d’une décision binaire, ou l’une ou l’autre, en dedans ou en dehors.
Comment est-il devenu si bon ?
L’approche de Google consiste à dire qu’une approche simple sur une énorme masse de données est meilleure qu’une approche intelligente sur des données limitées. Avec autant de données, les erreurs s’annuleront, espère-t-on, dans l’énorme agrégat.
En plus de toutes ces données désordonnées non marquées, non étiquetées, Google obtient certaines données spécialisées de traducteurs professionnels : l’Office européen des brevets partage des données avec Google, par exemple.
Mais même Google a des limites sur ce que d’énormes quantités de données peuvent faire. Il existe des milliers de paires de langues potentielles parmi les quelques dizaines de langues proposées par Google Traduction. Mais pour la grande majorité de ces appariements (finnois-Zoulou, par exemple), il n’y a que peu ou pas de texte d’entraînement disponible, même sur un trillion de pages web. Ainsi, l’utilisateur qui espère traduire le finnois en zoulou sur Google Traduction devra passer par une langue « passerelle » ; certainement l’anglais.
Combattre les erreurs
Ceci amplifie bien sûr les possibilités d’erreur.
Ce qui conduit à un autre problème. Quand des traductions ratées sont utilisées comme source de données par Google Traducteur.
Google a essayé de « filigraner » électroniquement ses traductions afin que le robot d’exploration les reconnaisse et tente d’éviter de réinjecter les erreurs dans le système en entrée.
Plus de données aideraient-elles une organisation qui en a déjà tant ? Dix trillions de pages seraient-elles sensiblement meilleures qu’un trillion ?
Les efforts se sont tournés vers le fait de rendre Google Traducteur plus intelligent, en jouant avec des améliorations basées sur des règles pour voir si elles améliorent la qualité. En d’autres termes, si le premier grand bond en avant de Google Traducteur est venu des énormes données et de la puissance de calcul, pour les grandes langues, du moins, son prochain bond en avant reposera davantage sur une ingénierie logicielle intelligente. Par exemple, l’analyse syntaxique automatique peut améliorer l’ordre des mots dans les traductions.
Les réseaux neuronaux sont une voie de recherche particulièrement passionnante. Après tout, cela a été particulièrement utile dans la reconnaissance vocale de Google.
Mais il y a une autre voie : la grande entreprise de logiciels demande aux bons vieux utilisateurs de faire part de leur expertise. Si vous êtes un utilisateur fréquent de Google Traducteur, vous aurez sans doute remarqué la mention « Aidez à améliorer Google Traducteur » en bas de la page. Ces efforts menés par les utilisateurs pèsent particulièrement lourd dans les langues pour lesquelles les données sont rares et les utilisateurs sont de fervents volontaires.