La revitalisation des langues autochtones, un travail de longue haleine

Le Projet sur les technologies pour les langues autochtones canadiennes développe des outils de recherches linguistiques basés sur la parole pour revitaliser les langues autochtones au Canada, notamment l’inuktitut. (Marc Godbout/Radio-Canada)
Il y a près de deux ans débutait un important projet de revitalisation de quelques langues autochtones au Canada. À quelques mois de la fin de la phase 1, des chercheurs impliqués font part de certaines avancées. Tour d’horizon.

C’est grâce aux fonds obtenus d’Ottawa par le Conseil national de recherches du Canada (CNRC) que le Projet sur les technologies pour les langues autochtones canadiennes est né, à l’automne 2017.

« Nous sommes à la marge des activités menées et dirigées par des Autochtones qui veulent revitaliser leur langue, explique le chercheur Roland Kuhn, gestionnaire du projet au CNRC. On peut parfois les aider avec la technologie, mais notre rôle est de deuxième ou de troisième rang, nous sommes là pour assister quand on nous le demande. »

Il raconte comment, par exemple, il a approché dès le début du projet un professeur de mohawk bien connu dans la communauté, Brian Maracle, afin de sonder ses besoins en matière de revitalisation de la langue.

« Il nous a dit que ses étudiants ont de la misère à maîtriser les verbes mohawks, raconte M. Kuhn. Comme il y a des milliards et des milliards de formes possibles des verbes en mohawk, on ne pouvait pas imprimer un genre de Bescherelle. On a créé un logiciel qui s’appelle Kawennón:nis, un conjugueur de verbe mohawk. »

Un livre pour enfants traduit en mohawk est présenté avec la version originale anglaise dans la communauté des Six Nations, en Ontario.

Le chercheur explique qu’afin de mettre cet outil sur pied, son équipe et lui ont dû interagir très souvent avec M. Maracle et d’autres enseignants. S’en est suivi une série de tests, de rétroactions et d’essais erreurs en matière d’interface usager.

Tout ça pour en arriver à « quelque chose qui peut être utile pour enseigner le mohawk », poursuit M. Kuhn, qui rappelle que de travailler avec un expert de la communauté demeure le mode de fonctionnement idéal pour le CNRC.

Un autre outil conçu par l’équipe du CNRC permet d’aligner le texte d’un livre audio. Ainsi, quand un étudiant écoute l’enregistrement, il peut voir apparaître les mots à l’écran et celui qui est prononcé est affiché en couleur. « Un étudiant peut alors voir l’orthographe d’un mot au même moment où il est prononcé, il peut arrêter l’audio, cliquer sur le mot et l’entendre. La reconnaissance de paroles est très difficile, alors que l’alignement dont je vous parle est plutôt facile », indique le chercheur.

À noter que tous ces outils peuvent être mis à la disposition des communautés qui en font la demande.

Encore loin d’un Siri autochtone

La reconnaissance de paroles, qualifiée de difficile par le chercheur, est justement au centre du projet. Mais avant d’en arriver à créer un programme du type Siri, l’outil d’Apple, il faudra s’armer de patience.

Pour l’instant, cette partie du projet consiste à identifier, dans un enregistrement, les endroits où un locuteur s’exprime dans une langue autochtone et de les isoler afin de pouvoir les transcrire.

Nathan Brinklow, originaire de Tyendinaga, un territoire mohawk de l’Est de l’Ontario, enseigne sa langue à l’Université Queens. Il a été mandaté par le CNRC pour rassembler le plus d’enregistrements possible en mohawk.

« On utilise le temps et l’argent fourni par le CNRC pour bâtir le corpus, notre collection de textes et d’enregistrements audio, puis pour analyser ces données. C’est la partie qui demande beaucoup d’heures de travail », explique-t-il.

L’Office national du film (ONF) ainsi que la Société biblique canadienne sont deux exemples de partenaires qui ont fourni des enregistrements à M. Brinklow et son équipe. « L’équipe de traduction de la bible de Kanesatake nous a fourni leur traduction, soit plus de 67 000 mots et quantité d’heures d’enregistrements audio qui vont avec », illustre-t-il.

Le but est double : récolter le plus grand nombre d’heures d’enregistrement et développer des moyens afin d’arriver à la transcription automatique puis aussi de créer un index de tous les enregistrements afin de s’y retrouver plus facilement.

« Si quelqu’un fait des recherches à propos d’une cérémonie spécifique, explique Roland Kuhn, l’indexation audio lui permettra de le faire. »

À cette fin, un contrat a été signé avec le Centre de recherche informatique de Montréal (CRIM) très tôt dans le projet. « Le problème est que c’est extrêmement long traduire les enregistrements », explique Gilles Boulianne, chercheur au CRIM.

« Pour chaque heure de paroles, ça prend au moins 30 heures de travail. »

Gilles Boulianne, chercheur au CRIM, au sujet de la transcription

« Quand on rencontre les gens dans les communautés, c’est ce qu’ils disent vouloir : être en mesure de retrouver du matériel dans les enregistrements sans être obligé d’écouter des milliers d’heures et créer des dictionnaires plus facilement », poursuit-il.

Alors que Nathan Brinklow s’occupe du volet mohawk du projet, M. Boulianne et son équipe ont débuté leurs travaux avec le cri et l’inuktitut. « Pour le cri, on a 1400 heures d’enregistrement, mais on va en transcrire une petite partie, soit 100 heures, ce qui va nous prendre presque deux ans », indique le chercheur du CRIM.

Afin de créer un outil comme Siri, explique-t-il, il faut des millions d’heures d’enregistrement et les transcriptions associées. Aussi bien dire qu’un Siri autochtone n’est pas près de voir le jour.

Pour l’heure, le but du CRIM est de rendre disponible aux communautés les outils conçus par ses chercheurs.

Quelle suite?

Dans le budget 2017 déposé par le ministre des Finances Bill Morneau, ce sont 6 millions de dollars que s’est vu accorder le CNRC pour le Projet sur les technologies pour les langues autochtones canadiennes.

Qu’adviendra-t-il de tout ça en mars 2020, soit la fin officielle de la période de financement?

« À long terme, on veut rendre les gens autonomes, on ne veut pas les rendre dépendants des experts, donc un de mes collègues travaille à créer un genre de boîte à outils pour l’alignement des livres audio que quelqu’un avec très peu d’expérience en informatique peut utiliser lui-même, exactement comme les outils du CRIM », explique Roland Kuhn.

Cette boîte à outils sera disponible pour les communautés, ajoute-t-il.

Pour Nathan Brinklow, l’avenir est prometteur. « Notre ensemble de données sera prêt grâce à ce projet. Si un nouvel algorithme apparaît, il nous sera possible de brancher nos données dedans et de voir ce qui se passe. Au fur et à mesure que la technologie se développera, nous pourrons la tester, mais au moins, nous aurons nos données, ce qui représente beaucoup de travail », conclut-il.

Julien McEvoy, Radio-Canada

Pour d’autres nouvelles sur le Canada, visitez le site de Radio-Canada.

Vous avez remarqué une erreur ou une faute ? Cliquez ici !

Laisser un commentaire

Note: En nous soumettant vos commentaires, vous reconnaissez que Radio Canada International a le droit de les reproduire et de les diffuser, en tout ou en partie et de quelque manière que ce soit. Veuillez noter que Radio-Canada ne cautionne pas les opinions exprimées. Vos commentaires seront modérés, et publiés s’ils respectent la nétiquette.
Nétiquette »

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *