La jeune pousse, spécialiste française de l’Intelligence Artificielle, a publié le 14 février dernier FQuAD[1], un algorithme d’IA inédit. Derrière ce nom barbare, se cache la première intelligence artificielle francophone dédiée au traitement du langage naturel[2], plus spécifiquement dans le domaine du Question Answering. Sur la base de plusieurs milliers de paragraphes issus de Wikipedia, l’algorithme d’ILLUIN Technology a été entraîné à répondre à plus de 25 000 questions. Il atteint un score très proche de l’intelligence humaine, en répondant correctement à près de 9 questions sur 10 (88% contre 92%). Les ingénieurs d’ILLUIN Technology envisagent de dépasser très prochainement la performance humaine en faisant ingurgiter à l’IA les réponses à plus de 100 000 questions. Ils visent à atteindre les standards de la recherche anglophone : 95% de bonnes réponses. Cette innovation de rupture dans le domaine de l’intelligence artificielle francophone ouvre des perspectives majeures dans de très nombreux domaines. Elle va permettre notamment de révolutionner les moteurs de recherche, basés jusqu’ici sur l’indexation de mots clés. Elle sera capable d’interroger de très gros volumes de documentation technique pour obtenir des réponses précises en quelques secondes. Elle va, enfin, ouvrir de nouvelles perspectives dans l’usage de la voix pour créer de nouvelles interfaces intelligentes. Grâce à cette innovation, ILLUIN Technology s’attaque au marché colossal du traitement du langage naturel, qui devrait peser 26,4 milliards de dollars d’ici 2024[3]. Les applications concernées par ces avancées majeures représentent 15 à 20% de ce marché. La francophonie, qui regroupe 300 millions de personnes dans le monde, en représente une part très significative. Les résultats des recherches d’ILLUIN Technology sont publiés sur la plateforme de publications scientifiques ArXiv[4].

 

[1] Pour « French Question Answering Dataset »

[2] Le traitement du langage naturel ou Natural Language Processing (NLP) est un nouveau champ de recherche en intelligence artificielle. Il permet à des algorithmes de comprendre et d’analyser le langage naturel pour générer des interactions fluides, des conversations entre un humain et une IA.

[3] Research And Markets – 2019

[4] https://arxiv.org/pdf/2002.06071.pdf

 

Robert Vesoul

« Le traitement du langage naturel est un domaine très avancé dans le monde anglophone. Notre algorithme permet au monde francophone de combler très rapidement son retard. Nos équipes ont réalisé une prouesse inédite et une percée majeure dans le domaine de l’IA. L’algorithme ne se contente pas de rechercher des mots clés pertinents. L’IA est capable d’analyser de manière fine le contexte, les implications d’une question et les subtilités des tournures de phrases complexes. Les moteurs de recherche francophones, qu’ils soient grand public comme Google ou créés sur mesure pour des entreprises, vont s’en trouver totalement bouleversés dans les années à venir », se réjouit  Robert Vesoul, CEO et Co-fondateur d’ILLUIN Technology, et co-directeur de la Chaire d’Innovation digitale de CentraleSupélec.

 

 

«Nous avons été surpris par la capacité de notre algorithme. Si l’enjeu initial était d’entraîner l’IA pour qu’elle apporte une réponse précise à une question formulée en langage naturel, elle s’est révélée capable d’aller bien au-delà. L’algorithme détecte les informations principales du texte, ainsi que les relations qui les lient. Il s’est révélé tellement puissant, qu’il pourrait, par exemple, détecter dans une prescription médicale quelles sont les posologies indiquées, et s’il n’existe pas d’interactions médicamenteuses connues. Les perspectives que nous ouvrons avec cette innovation sont colossales et les champs d’application, infinis.», ajoute Wacim Belblidia, Lead Data Science d’ILLUIN Technology

 

Le champ du Natural Language Processing (NLP) connaît  une accélération sans précédent depuis deux ans aux Etats-Unis, au sein des universités les plus prestigieuses (Stanford, Berkeley, le MIT, Mellon…) et des GAFA. ILLUIN Technology est le premier acteur à mettre au point une intelligence artificielle francophone capable d’analyser et de comprendre le langage naturel pour  trouver des réponses très précises dans un corpus documentaire complexe.

 

Les champs d’application de cette nouvelle technologie sont larges. Elle pourra, à terme, permettre d’établir un diagnostic médical à partir d’informations dispersées au sein de plusieurs examens de santé, d’affiner une analyse juridique en allant puiser dans toute la jurisprudence disponible ou encore de chercher, dans le cadre d’une opération de maintenance industrielle, des informations techniques précises dans des documents de conception ou de fabrication. Ces questions seront posées dans un premier temps par écrit mais très vite la voix permettra d’interroger ces documents complexes.

 

ILLUIN Technology envisage dans un premier temps de développer, sur la base de cet algorithme, des moteurs de recherche sur mesure à destination des entreprises. Le but est de rendre plus efficace l’utilisation de l’ensemble de leurs documents internes.

 

 

FQuAD, une mécanique de précision

 

ILLUIN Technology a travaillé en collaboration avec des étudiants de CentraleSupélec à l’annotation d’un corpus inédit de 25 000 exemples de questions-réponses en français. Cette annotation humaine permet en quelque sorte de transférer à l’algorithme la richesse et la finesse du raisonnement humain.

Ce jeu de données, surnommé FQuAD (French Question Answering Dataset) en référence au jeu de données mondialement connu SQuAD (Stanford Question Answering Dataset), a permis d’entraîner un algorithme de pointe à répondre à des questions. Il intègre les dernières avancées en traitement du langage publiées par le laboratoire français de Facebook (Facebook AI Research) en novembre 2019. Ce modèle, déjà largement éprouvé pour la langue anglaise, est une première pour le monde francophone.

 

ILLUIN Technology ouvre aujourd’hui à la communauté de l’IA francophone le jeu de données complet de FQuAD, son modèle de Question Answering, ainsi qu’une publication scientifique