Bulletin n° 16 - décembre 2017

 


Adieu au clavier et à la souris : la place des technologies de la parole dans la traduction et la traductologie d’hier et d’aujourd’hui

Julian Zapata


Résumé

L’idée de rendre les ordinateurs capables de traiter le langage humain est aussi vieille que l’ordinateur. Si, au départ, cette idée n’était qu’un objet de science-fiction, aujourd’hui, après sept longues décennies de recherche et de développement en traitement automatique des langues naturelles, le point de bascule semble enfin proche. Des systèmes permettant aux humains et aux ordinateurs d’interagir directement au moyen de la parole investissent de plus en plus notre quotidien et transforment la nature de l’interaction personne-machine. Les technologies de la parole, et particulièrement de reconnaissance vocale, arrivent enfin à maturité et leur potentiel se trouve efficacement exploité dans plusieurs domaines notamment dans les services à la clientèle et de soutien technique téléphonique et en ligne, dans les systèmes de navigation des véhicules, ainsi que dans les systèmes d’exploitation des ordinateurs personnels, des téléphones intelligents et des tablettes numériques. La traduction professionnelle n’échappe pas à cette tendance. En effet, de plus en plus de chercheurs, formateurs et praticiens de la traduction s’intéressent à ces technologies. Dans le présent article, nous ferons un survol de la place des technologies de la parole dans la traduction et la traductologie d’hier et d’aujourd’hui.

Mots-clés

technologies de la parole, reconnaissance vocale, traduction dictée, traductique, interaction personne-machine

Abstract

The idea of processing human language with computers is as old as the idea of computers themselves. In the beginning, the concept only seemed possible in science fiction. Now, after seven long decades of research and development in computing and natural language processing, the tipping point will soon be reached, at last. Systems that allow humans and computers to interact directly through speech are increasingly becoming part of our daily lives and are transforming the nature of human-computer interaction. Speech technologies and, more specifically, voice recognition technologies, have reached a point of maturity where they are now useful and effective applications in several domains. These systems can notably be found in telephone and online customer and tech support services; in-vehicle navigation systems; as well as the operating systems of personal computers, smartphones and tablets. The translation sector is now part of such developments. Indeed, certain researchers, trainers and practitioners are increasingly showing great interest in using speech technologies for translation purposes. This article presents a general overview of speech technologies in translation practice and research in the past decades to our present day.

Keywords

speech technologies, voice recognition, translation dictation, translation technologies, human-computer interaction



1.   Introduction

Les outils : nous, les êtres humains, nous en sommes toujours servi. Pour allumer du feu, pour chasser, pour se nourrir, pour bâtir, pour voyager, pour écrire, pour communiquer. En traduction, il est rare que les chercheurs se penchent sur l’utilisation d’outils tout au long de l’histoire, quoique l’on affirme, parfois satiriquement, que la traduction est l’un des deux métiers les plus anciens de l’humanité. En effet, l’histoire de la traduction remonte au développement de la capacité humaine à communiquer ; conséquemment, la traduction écrite aurait vu le jour parallèlement à la parution des alphabets, des systèmes et des outils d’écriture. La pierre de Rosette, exposée au British Museum à Londres, est l’un des artéfacts les plus anciens rendant compte de l’activité traductive dans l’Antiquité (Budge 1989). Au cours de l’histoire, les traducteurs, comme les écrivains de tout genre, ont adopté différents outils avec les avancées constantes dans les sciences et les technologies : depuis les outils de gravure, les papyrus et les plumes jusqu’aux machines à écrire et ordinateurs personnels.

Or, l’acte physique d’écrire n’est pas très satisfaisant aux yeux de nombreux traducteurs, voire des écrivains chevronnés en général ; ces derniers souhaitent que leurs mains bougent à la vitesse de leur pensée. De fait, soit par préférence ou pour des raisons de santé, certains écrivains et traducteurs optent pour la dictée, c’est-à-dire la production orale de leurs textes couplée à l’utilisation d’un appareil d’enregistrement (connu aussi sous le nom de dictaphone) pour la transcription ultérieure, ou bien directement devant un secrétaire ou un copiste professionnel qui transcrit les mots qui lui sont dictés au fur et à mesure (Gingold 1978; Hétu 2012; Jiménez Ivars et Hurtado Albir 2003; Jurafsky et Martin 2009, 285; Laroque-Divirgilio 1981). Cependant, la traduction dictée (TD), très courante dans les années 1960 et 1970, est loin de constituer aujourd’hui la norme dans le milieu traductionnel.

De nos jours, pourtant, les traducteurs se servent d’une vaste gamme d’outils technologiques arrivés avec l’énorme progrès de l’informatique et du traitement automatique des langues naturelles (TALN). Ces outils, connus en français sous le nom d’outils de traductique ou d’aide à la traduction, assistent le traducteur dans son travail parce qu’ils sont, d’une part, en mesure d’automatiser certaines tâches linguistiques et informatiques, et d’autre part, parce qu’ils facilitent l’accès à l’information dont le traducteur a besoin pour produire ses traductions. Cela dit, une pleine intégration des différents outils technologiques à la pratique traductive n’a pas encore été atteinte (Bowker, McBride et Marshman 2008; LeBlanc 2013; Taravella et Villeneuve 2011, 2013).

En dehors de la traductique, un nombre croissant de développements informatiques vise à explorer des solutions de remplacement aux modes de saisie et aux périphériques dits traditionnels tels que le clavier et la souris. Ces périphériques ont de fait caractérisé l’interaction des traducteurs et des écrivains en général avec les ordinateurs personnels depuis l’arrivée massive de ces derniers dans les années 1980. Parmi les modes d’interaction émergents se trouvent les technologies de la parole (TP), qui modifient fondamentalement notre façon d’interagir avec les machines et d’accéder à l’information, de produire et d’utiliser cette dernière. L’intérêt ⎼ parfois hésitant ⎼ envers ces technologies dans le domaine de la traduction ne date pas d’hier. Il semble pourtant se faire une place de plus en plus importante de nos jours, à l’ère du numérique. Dans le présent article, nous ferons un survol de la place des TP dans la traduction et la traductologie d’hier et d’aujourd’hui.

2.   Technologies de la parole et traduction : des alliés de longue date

Les TP comprennent la reconnaissance vocale (RV) et la synthèse vocale (SV). En bref, la RV rend un système informatique capable de reconnaître et de traiter la parole humaine, alors que la SV utilise des modèles acoustiques pour émuler cette dernière. Dans le présent article, il sera surtout question de RV (en traduction).

La RV se situe dans le domaine TALN, c’est-à-dire tout ce qui allie langage humain et informatique. Les TP (RV et SV), le traitement de textes, le parsage (ou analyse syntaxique de textes), la traduction automatique (TA), l’indexation et l’extraction automatique de termes font partie des nombreuses applications du TALN. Or, après des décennies de recherche en la matière, les TP constituent aujourd’hui l’élément le plus saillant de ces applications. Aux prémices du TALN, l’hypothèse dominante au sein de la communauté de recherche était qu’une connaissance préalable du langage aurait permis aux ordinateurs de passer aux étapes suivantes de l’apprentissage ; un processus comparable à celui de l’apprentissage chez les êtres humains depuis la petite enfance. Selon Alan Turing (1950, 460), l’un des pionniers de l’informatique, une fois les ordinateurs dotés de la capacité à traiter le langage humain, il devait être conséquemment possible d’atteindre l’intelligence artificielle.

Par suite des idées avancées par Turing, plusieurs expériences ont eu lieu pour traiter les langues naturelles et automatiser certaines tâches : le traitement et le stockage de textes, la TA et la conception d’agents conversationnels — des systèmes avec lesquels l’utilisateur peut établir une conversation. Certains agents conçus dans les décennies qui ont suivi intégraient RV et SV : ils pouvaient « reconnaître » de façon automatique ce qu’une personne disait grâce à la RV et lui répondre tout en émulant une voix humaine grâce à la SV (Llisterri 2009, 11–12). Or, on parlait déjà d’une certaine supériorité des avancées en matière de SV sur celles en RV : alors que les systèmes de reconnaissance pouvaient traiter uniquement des mots isolés et prononcés par un seul et même locuteur, les systèmes de synthèse se trouvaient déjà à l’étape d’affinement, cherchant à atteindre la vraisemblance de l’intonation. Les grands défis de la RV étaient alors l’analyse de la parole continue, en raison de la grande variabilité que peut présenter un discours selon la façon de parler et le type de locuteur, en plus des accents et des multiples timbres de voix possibles.

Dès le début des années 1990, on a commencé à imaginer et à concevoir des agents conversationnels qui avaient en plus la capacité de traduire, c’est-à-dire équipés d’un système de TA ; en d’autres mots, des interprètes artificiels. Par ailleurs, au cours de la même décennie, de nombreux laboratoires ont investi dans le développement de systèmes de RV tout en ajoutant la possibilité de diriger les machines au moyen de commandes vocales. Toutefois, malgré ces importantes avancées, les systèmes développés étaient fonctionnels uniquement dans des domaines professionnels spécifiques, aux vocabulaires limités, et dans des milieux sans bruit.

Vers le milieu des années 1990, des efforts de recherche pour l’adaptation de la RV à la traduction humaine sont déployés pour la première fois. Plusieurs études sont allées au-delà des interprètes artificiels. Dans la conception d’un outil de RV pouvant aider un traducteur humain, l’accent est mis sur la réduction des taux d’erreur de reconnaissance par le couplage de la TA et de la RV. Autrement dit, le traducteur dicte sa traduction à un système hybride de TA et RV (Brousseau et coll. 1995 ; Brown et coll. 1994 ; Dymetman et coll. 1994). Un tel système a accès au texte de départ et utilise des modèles probabilistes de TA pour améliorer la reconnaissance.

Bien que les avancées des TP en général étaient satisfaisantes pour certains chercheurs à l’époque, surtout dans le domaine des télécommunications, d’autres voyaient encore lointain le moment d’atteindre, de la manière dont l’imaginait Turing en 1950, la ressemblance totale entre la façon dont les humains et les ordinateurs traitaient la parole. En matière de traduction professionnelle, les efforts pour l’intégration des RV à la boîte à outils des traducteurs n’ont pas éveillé chez les chercheurs, les formateurs et les praticiens le même intérêt qu’ont éveillé d’autres applications du TALN. En effet, les recherches ont stagné du côté de la RV pour la traduction, mais se sont poursuivies pour la conception d’outils capables de prendre en charge d’autres tâches périphériques, permettant aux traducteurs d’atteindre une efficacité accrue ─ les outils de traductique. Bref, à la fin des années 1990, la RV n’était pas encore assez performante pour permettre d’automatiser des tâches langagières, dont la transcription de dictées.

Cela dit, au début du présent siècle, les systèmes commerciaux de RV ont commencé progressivement à faire partie de l’outillage des traducteurs, bien que la traduction ne fût pas leur principal domaine d’application ; autrement dit, ils n’étaient pas conçus spécifiquement pour des tâches traductives (Gouadec 2002, p. 133). En tout état de cause, on remarque que quelques traducteurs intégraient des logiciels commerciaux de RV à leur boîte à outils pour dicter des traductions et pour lancer des commandes à leurs ordinateurs (Benis 2002 ; Seaman 2002 ; Stroman 2002). Benis (2002), par exemple, aborde la question de l’utilisation de la RV pour dicter des traductions ; les principales difficultés qu’il expose ne sont pas liées uniquement au taux d’erreur de reconnaissance des logiciels et à la puissance des ordinateurs de l’époque, mais aussi au manque d’aptitude à la dictée de la part des utilisateurs ; son récit, ainsi que celui de ses contemporains, est toutefois parsemé de commentaires positifs envers cette technologie.

La recherche en matière de RV pour la traduction a vite repris son élan. Au cours de la décennie 2000-2010, on a fait des progrès importants dans l’optimisation des systèmes de RV : réduction des taux d’erreur de transcription, reconnaissance des caractéristiques de la parole propres à un locuteur spécifique, adaptation à certains domaines professionnels, élargissement de la gamme de commandes vocales, entre autres. Ces améliorations ont su convaincre certains chercheurs de la pertinence d’explorer les avantages de traduire à l’aide de ces systèmes. Dans la deuxième moitié de la décennie, plusieurs études scientifiques ont été menées sur le sujet. Désilets et coll. (2008), par exemple, ont effectué une expérience pour évaluer les gains de productivité chez des traducteurs canadiens ayant utilisé un système hybride de TA et RV. Ces chercheurs se sont montrés plutôt optimistes en ce qui a trait à la RV et lancent l’appel à des recherches plus poussées dans le domaine. D’autres expériences ont eu lieu dans d’autres centres de recherche et leurs résultats pointent vers l’avantage de dicter des traductions à l’aide de la RV pour gagner en productivité (Dragsted, Hansen et Sørensen 2009; Reddy et Rose 2010).

Par ailleurs, une enquête a été menée en 2009 auprès des participants de la Réunion internationale annuelle sur la traduction et la terminologie assistées par ordinateur (JIAMCATT) regroupant des représentants de grands services de traduction. L’enquête visait à déterminer l’intérêt à adopter des appareils d’enregistrement numériques et des logiciels de RV au sein de leurs organisations. L’enquête suggère que le nombre de services de traduction utilisant des logiciels de RV n’est pas négligeable et qu’une approche novatrice est à envisager : le travail en équipe de traducteurs dictant des traductions à l’aide de dictaphones numériques et de copistes transcrivant les enregistrements à l’aide de logiciels de RV (Verástegui 2009). D’ailleurs, certaines sociétés commerciales offrent des solutions logicielles permettant ce type de travail collaboratif.

L’histoire de la RV s’étend sur plusieurs décennies de recherche et développement. Cela dit, ce n’est que tout récemment que l’intérêt pour la recherche traductologique axée sur les technologies de la RV a vraiment commencé à s’éveiller (Ciobanu 2014, 2016 ; Garcia-Martinez et coll. 2014 ; Mees et coll. 2013 ; Mesa-Lao 2014; Zapata 2012 ; Zapata et Kirkedal 2015 ; Zapata et Quirion 2016), à la lumière à la fois des résultats prometteurs des études menées au cours des vingt dernières années, des exemples d’utilisation couronnée de succès de ces systèmes dans divers autres domaines, de la croissante performance de cette technologie couplée à la capacité de traitement multipliée des ordinateurs, ainsi que du besoin indiscutable de concevoir des outils de traductique ergonomiques, c’est-à-dire prenant compte du facteur humain (O’Brien 2012).

3.   Conclusion

L’historique des technologies de la parole (TP) prouve que, malgré les importantes améliorations qu’ont connues les systèmes de reconnaissance et de synthèse vocales au cours des années, l’intégration de ces technologies à la traduction professionnelle n’a pas connu de succès définitif. Pourtant, les TP atteignent actuellement un tel niveau de performance qu’il faudra leur accorder une importance considérable dans la recherche traductologique et dans le développement de nouveaux outils de traductique. Certains enseignants et chercheurs y voient même l’avenir de l’interaction traducteur-machine (Gouadec 2007, p. 363; Mees et coll. 2013; Zapata et Saint, à paraître). Faisant la preuve d’une bonne intégration et d’un bon fonctionnement dans plusieurs domaines professionnels et dans diverses situations de la vie quotidienne, les TP s’avèrent une approche prometteuse dans les efforts actuels en développement d’outils plus efficaces et ergonomiques. En effet, les TP introduisent certains éléments que d’autres applications technologiques ont ignorés par le passé, l’un de ceux-ci étant la prise en compte du facteur humain, c’est-à-dire, du traducteur et de ses besoins professionnels.

Les défis sont encore très nombreux et des recherches interdisciplinaires seraient plus que souhaitables. Une chose semble sûre et certaine : avec l’arrivée des écrans tactiles, des appareils mobiles et de l’infonuagique, les ordinateurs à clavier et à souris commencent à s’effacer progressivement. Il est temps de raviver la dictée ; de réinventer la formation à la traduction en fonction des techniques de traduction à vue et des technologies interactives émergentes ; de concevoir des outils technologiques ayant une dimension humaine, qui permettent une interaction naturelle avec les machines et avec l’information.



Références

BENIS M. Softly Spoken or Hard of Hearing?. Language International 14 : 3, 2002, p. 26–29.

BOWKER L., MCBRIDE C., MARSHMAN E., Getting More than You Paid for? Considerations in Integrating Free Technologies into Translator Training Programs. Redit 1 : 1, 2008, p. 26–47. http://www.redit.uma.es/Archiv/v1_2008/Bowker_et_al.pdf.

BROUSSEAU J. et coll., French Speech Recognition in an Automatic Dictation System for Translators: The TransTalk Project. Proceedings of Eurospeech’95, 1995. http://www.iro.umontreal.ca/~foster/papers/ttalk-eurospeech95.pdf.

BROWN P. F. et coll., Automatic Speech Recognition in Machine-Aided Translation. Computer Speech and Language 8 : 3, 1994, p. 177–187.

BUDGE E. A. W., The Rosetta Stone. New York : Dover, 1989.

CIOBANU D., Of Dragons and Speech Recognition Wizards and Apprentices. Revista Tradumàtica 12, 2014, p. 524–538.

———, Automatic Speech Recognition in the Professonal Translation Process. Translation Spaces 5 : 1, 2016, p. 124–144.

DÉSILETS A. et coll., Evaluating Productivity Gains of Hybrid ASR-MT Systems for Translation Dictation. 2008, http://www.mt-archive.info/IWSLT-2008-Desilets.pdf.

DRAGSTED B., HANSEN I. G., SØRENSEN H. S., Experts Exposed. Copenhaguen Studies in Language 38, 2009, p. 293–317.

DYMETMAN M. et coll., Towards an Automatic Dictation System for Translators: The TransTalk Project. Fourth European Conference on Speech Communication and Technology 4, 1994, http://arxiv.org/abs/cmp-lg/9409012.

GARCIA-MARTINEZ M. et coll., SEECAT: ASR & Eye-Tracking Enabled Computer-Assisted Translation. Proceedings of the 17th Annual Conference of the European Association for Machine Translation, 2014, p. 81–88.

GINGOLD K., The Use of Dictation Equipment in Translation. Dans HORGUELIN P.A., Dir,La traduction, une profession. Actes du VIIIe Congrès mondial de la Fédération internationale des traducteurs. Ottawa : Conseil des traducteurs et interprètes du Canada, 1978, p. 444–448.

GOUADEC D., Profession : Traducteur. Paris : La Maison du dictionnaire, 2002.

———, Translation as a Profession. Amsterdam : John Benjamins, 2007.

HÉTU, M.-P., Le travail au dictaphone, une solution ergonomique?. Circuit 116, 2012, p. 23.

JIMÉNEZ IVARS A., HURTADO ALBIR A., Variedades de traducción a la vista. Definición y clasificación. Trans Revista de Traductología 7, 2003, p. 47–57. http://www.trans.uma.es/trans_07.html.

JURAFSKY D., MARTIN J.H., Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. 2e éd. Upper Saddle River, New Jersey : Pearson Prentice Hall, 2009.

LAROQUE-DIVIRGILIO L., La traduction au magnétophone. Meta 26 : 4, 1981, p. 398–403. http://www.erudit.org/revue/meta/1981/v26/n4/002573ar.pdf.

LEBLANC M., Translators on Translation Memory (TM). Results of an Ethnographic Study in Three Translation Services and Agencies. The International Journal for Translation & Interpreting Research 5 : 2, 2013, p. 1–13.

LLISTERRI J., Las tecnologías del habla en las lenguas románicas ibéricas. Studies in Hispanic and Lusophone Linguistics 2 : 1, 2009, p. 133–180.

MEES I. M., DRAGSTED B., HANSEN I. G., JAKOBSEN A. L., Sound Effects in Translation. Target 25 : 1, 2013, p. 140–154. http://openurl.ingenta.com/content/xref?genre=article&issn=0924-1884&volume=25&issue=1&spage=140.

MESA-LAO B., Speech-Enabled Computer-Aided Translation: A Satisfaction Survey with Post-Editor Trainees. Workshop on Humans and Computer-Assisted Translation, 2014, p. 99–103.

O’BRIEN S., Translation as Human-Computer Interaction. Translation Spaces 1 : 1, 2012, 101–122. http://openurl.ingenta.com/content/xref?genre=article&issn=2211-3711&volume=1&issue=1&spage=101.

REDDY A., ROSE R., Integration of Statistical Models for Dictation of Document Translations in a Machine Aided Human Translation Task. IEEE Transactions on Audio, Speech and Language Processing 18 : 8, 2010, p. 1–11. http://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=05393062.

SEAMAN L., Voice Recognition for Translators, Or Why I Started Talking To My Computer. JLD Times. Newsletter of the Japanese Language Division of the American Translators Association, 2002, p. 6–8.

STROMAN J., Translation and Voice Recognition Software. JLD Times. Newsletter of the Japanese Language Division of the American Translators Association, 2002, p. 1–5.

TARAVELLA A., VILLENEUVE A., Aspects humains des technologies langagières dans l’organisation. Actes de la conférence de Tralogy, Paris, 2011, http://lodel.irevues.inist.fr/tralogy/index.php?id=134.

———, Acknowledging the Needs of Computer-Assisted Translation Tools Users: The Human Perspective in Human-Machine Translation. The Journal of Specialised Translation 19, 2013, p. 62–74. http://www.jostrans.org/issue19/art_taravella.pdf.

TURING A., Computing Machinery and Intelligence. Mind 25 : 236, 1950, p. 433–460. http://mind.oxfordjournals.org/content/LIX/236/433.

VERÁSTEGUI N., Digital Recording Survey, 2009, inédit.

ZAPATA J., Traduction dictée interactive : Intégrer la reconnaissance vocale à l’enseignement et à la pratique de la traduction professionnelle. Université d’Ottawa, 2012. http://www.ruor.uottawa.ca/en/bitstream/handle/10393/23227/Zapata Rojas_Julian_2012_these.pdf?sequence=1.

ZAPATA J., KIRKEDAL A.S., Assessing the Performance of Automatic Speech Recognition Systems When Used by Native and Non-Native Speakers of Three Major Languages in Dictation Workflows. Proceedings of the 20th Nordic Conference of Computational Linguistics, 2015, p. 201–210, http://www.aclweb.org/anthology/W15-1825.

ZAPATA J., QUIRION J., La traduction dictée interactive et sa nécessaire intégration à la formation des traducteurs. Babel 62 : 4, 2016, p. 531–551. https://benjamins.com/#catalog/journals/babel.62.4.01zap/details.

ZAPATA J., SAINT E. C., Traduire à voix haute : La traduction dictée interactive comme solution ergonomique. inTRAlinea 19, à paraitre.

ISIT - CRATIL

39 bis rue d'Assas
75006 Paris
+33 (0)1 42 22 33 16 
Design: Page18 Interactive
Le Bulletin du CRATIL - ISSN 2263-7591 2015-Tous droits réservés ©