Des chercheurs de l’Inria et de Facebook Artificial Intelligence Research ont créé un réseau neuronal capable de simplifier automatiquement des textes pour qu’ils soient faciles à comprendre par les personnes ayant des déficiences mentales.
Pendant la période de confinement, le gouvernement a été contraint de renforcer considérablement sa communication, pour informer la population sur les gestes barrières et les mesures de restriction. Face au virus, il fallait évidemment pouvoir capter l’attention de toute la population, y compris les citoyens qui présentent des déficiences mentales. C’est pourquoi les principaux messages sanitaires ont également été soigneusement simplifiés selon la méthode « FALC » (Facile à lire et à comprendre).
Développée en 2009 par des associations européennes de personnes handicapées, celle-ci permet de rendre accessible l’information à tous les individus qui ont des difficultés de compréhension. Les principes sont les suivants : aller au message essentiel, faire des phrases courtes, utiliser des mots d’usage courant, clarifier la mise en page et associer des pictogrammes. Ces documents FALC, dont certains sont disponibles sur le site de l’association Unapei, sont souvent réalisés par des bénévoles.
Mais le nombre d’écrits FALC reste insuffisant. Dans l’idéal, pour que notre société soit réellement inclusive, il faudrait que tous les textes d’informations soient disponibles en FALC. Un travail de titan que l’intelligence artificielle pourrait peut-être nous faciliter, et c’est justement le but du projet Cap’FALC. Présenté à l’occasion des 5 ans d’existence du laboratoire Facebook Artificial Intelligence Research (FAIR), celui-ci est géré en partenariat avec l’Inria, l’Unapei et le secrétariat d’État en charge des personnes handicapées.
L’objectif est de créer un outil capable de transformer n’importe quel texte en texte simplifié FALC. Il s’agit donc, d’une certaine manière, d’un traducteur automatique. Mais pour créer un tel logiciel, il faut généralement avoir un grand nombre de traductions, afin de pouvoir entraîner un réseau de neurones et créer un modèle pertinent. Parmi les corpus souvent utilisés figurent les textes des institutions européennes, qui sont créés par une armée de traducteurs assermentés et qui sont accessibles gratuitement. Plutôt pratique.
Mais pour le FALC, cela ne fonctionne pas, car il n’y a pas de corpus disponible. Enfin presque. « Dans le cas de l’anglais, des chercheurs ont utilisé le Wikipedia Simplified English. Mais ce corpus est assez limité et il n’existe pas pour d’autres langues comme le français. Il fallait donc trouver autre chose », explique Louis Martin, étudiant-chercheur à l’Inria et à FAIR, qui a participé à ce projet. Les chercheurs ont donc eu l’idée de créer directement, depuis le web, un corpus de paraphrases.
Pour cela, ils se sont appuyés sur Common Crawl, une énorme base de données qui référence les contenus de plusieurs milliards de pages web et qui est régulièrement mise à jour. C’est un peu comme l’Internet Archive, qui archive les pages web dans un but historique, mais avec la possibilité de pouvoir effectuer des traitements de masse à partir de ces contenus.
Les chercheurs ont utilisé le logiciel Laser pour extraire et indexer un milliard de bouts de phrase. Puis ils se sont appuyés sur le logiciel Faiss pour identifier au sein de cet index les bouts de phrases qui ont un sens identique. Ce gigantesque dictionnaire de paraphrases a ensuite été utilisé pour entraîner un réseau neuronal dédié à la transcription. Les performances de ce réseau peuvent d’ailleurs être modulées en fonction de la longueur des phrases et de la complexité des mots utilisés, ce qui permet donc d’obtenir des phrases plus ou moins simples, en fonction des besoins. Voici quelques exemples.
D’après le chercheur, quelques documents suffisent ensuite pour caler ce système sur le degré de simplification souhaité dans le cadre de la méthode FALC. Les premiers résultats, en tous les cas, sont plutôt encourageants. Ce projet devrait être opérationnel en 2021.
Source: Arxiv.org
Aucun commentaire:
Enregistrer un commentaire