L’IA qui répond intelligemment à des questions humaines, possible ou non ?

 

L’intelligence artificielle semble créer un mouvement d’idées important dans le monde entier. Les états comme la Chine, la France et d’autres en font une priorité économique. Les entreprises en font une méthode de communication vis-à-vis de leurs actionnaires sans d’ailleurs avoir une idée juste de leur promesse (sauf cas exceptionnel).

Chez PALO IT, nous ne prétendons pas tout connaitre dans le domaine de l’intelligence artificielle car le sujet est très vaste et très varié. Mais depuis 2 ans, nous travaillons dans le domaine de la compréhension du langage humain écrit. Dans ce domaine,  nous voulons vous persuader que la technologie est devenue industrialisable donc utilisable. Comme il y a 3-5 ans, les réseaux de neurones dit de convolution ont permis d’immenses progrès dans la reconnaissance d’images, les réseaux de neurones de type Long short-term memory (LSTM) nous ouvrent aujourd’hui une bonne perspective dans la compréhension du langage.

OBJECTIFS DE CE POST

  1. Replacer le buzz sur l’IA à sa place de “bla-bla buzz”. En quelques mots, vous décrire ce qu’est réellement l’IA actuelle.
  2. Le travail et les difficultés rencontrées depuis 30 ans sur la compréhension du langage humain.
  3. La révolution qui se prépare, en comprendre les contours économiques et surtout en expliquer les capacités et les limites pour l’instant.

L’Intelligence artificielle une croyance ou une réalité :

La terminologie – malheureuse ! – d’Intelligence Artificielle est apparue en 1956 : L’Intelligence Artificielle (IA) est la science dont le but est de faire faire par une machine des tâches que l’homme accomplit en utilisant son intelligence.

C’est FAUX

On peut lui préférer celle de Calcul Informatique capable de simuler des tâches humaines sans présager de ce qu’est l’intelligence.

Depuis 30 ans, les chercheurs cherchent à comprendre le langage humain mais les chercheurs qui cherchent, on en trouve mais des chercheurs qui trouvent, on en cherche !

Après la dernière Guerre Mondiale, les états riches comme les Etats-Unis ont investi beaucoup d’argent sur la promesse suivante : Il suffit d’avoir un ordinateur puissant et un logiciel qui connaît tous les mots et leurs règles de liaison pour comprendre la grammaire d’un langage humain comme un programme (compilateur) interprète un programme écrit en Cobol, Java ou autres.

Raté : Le langage humain n’entre pas dans la catégorie des grammaires formelles aussi complexes soient-elles, contrairement à ce que des générations de professeurs ont voulu nous persuader. Vous connaissez les messages véhiculés par Twitter donc vous savez que le langage humain change en fonction de la culture et du contexte quitte à inventer de nouveaux concepts à chaque échange. Mais à l’époque, il n’y avait pas Twitter donc nous dirons que l’erreur est humaine.

La révolution du Word Embedding et des réseaux de neurones profonds (Deep Learning) est une histoire d’hommes qui n’ont pas lâchés leur conviction. Le résultat de leur travaux est maintenant disponible et mesurable :

La révolution est venue de l’idée que la sémantique d’un mot ne s’explique que par la connaissance de la présence possible des mots voisins dans toutes les phrases imaginables. Cette connaissance est connue par vous et par vos interlocuteurs donc vous vous comprenez. Un langage humain transporte ainsi votre culture qui est partagée par votre interlocuteur sinon vous devriez faire comme les italiens parler avec vos mains, pas simple !

Prenons un exemple :

  • un chaperon : vous comprenez que l’on parle d’une profession qui a disparu (et heureusement).
  • un chaperon rouge : vous comprenez que je parle d’une héroïne d’un conte de Charles Perrault
  • Un mot peut changer de sens en fonction des mots qui l’entourent. Et pourtant, il a toujours un sens quand il est seul. Mais ce sens pour vous vient des mots qui peuvent l’entourer dans votre culture.

Nous sommes passés du mot parmi d’autres à une représentation du mot par rapport aux autres mots. Un mot n’est plus un point dans la liste des mots mais un vecteur dans l’espace de représentation des mots.

Collobert & Weston, chercheurs américains, ont trouvé une méthode pour calculer ces vecteurs en 2008 en utilisant des réseaux de neurones alors que tout le monde avait abandonné ce type de sujet. Ensuite la communauté scientifique a largement amélioré et utilisé cette vision en utilisant les réseaux de neurones car le deep learning à base de réseaux de neurones, avait révolutionné le domaine du traitement de l’image. Le véhicule autonome est le premier résultat industriel de ce progrès technique. Plus spécifiquement, la communauté scientifique a utilisé cette vision sur les problèmes difficiles comme la réponse à des questions ouvertes sur des textes fournis.

L’université de Stanford a organisé une compétition dans ce domaine. N’hésitez pas à consulter ce site : SQUAD
Ce site donne accès à un QCM avec 100 000 questions réponses sur des textes. Chaque compétiteur est mesuré avec un jeu de données que personne ne connaît. Ci-dessous, les qualités de prédictions sur 19 mois en arrière sachant cette mesure a été faite en mars 2018. La ligne rouge est le meilleur résultat des étudiants de Stanford qui ont fait le test. En bleu, la progression des algorithmes depuis 19 mois.

Intelligence Artificielle - Graphique des qualités de prédictions

Graphique des qualités de prédictions sur 19 mois en arrière

 

On peut voir que les calculs semblent pouvoir faire mieux que l’homme sachant lire.

À partir des écrits des chercheurs, nous avons refait un modèle et fait tourner sur ce jeu de données en apprentissage et en test. Nous avons atteint la qualité de 79,6. Ouf… cela fonctionne comme dans les papiers des chercheurs.

 

Mais comment  la machine répond sur des textes particuliers et ciblés ?

Pour le tester, nous avons choisi un texte en anglais difficile à comprendre. Il s’agit du texte juridique qui régule l’utilisation des données personnelles, dit la RGPD.

Et voilà, un résultat sur ce texte de lois :

Question: “Who should infringe the regulation?”

Réponses du calcul :

  • Public authorities
  • Member States
  • The supervisory authorities

Mais surtout les réponses sont intéressantes quand on a l’article qui contient la réponse.

Vous pouvez venir tester le bot RGPD –> Ici <–  en cliquant sur “Sign Up” pour obtenir un droit d’accès.

Nous pensons vous avoir prouvé qu’il est maintenant possible de répondre à des questions ouvertes sur un texte fourni par l’homme. L’humain est le professeur et le créateur des contenus. La machine apprend et répète intelligemment en répondant à des questions ouvertes.

À lire également : L’analyse sémantique automatisée des textes et ses cas d’usage

 

Des questions sur le sujet ? N’hésitez pas ! 

CONTACTEZ-NOUS !

Share
Patrick LAFFITTE

260

Leave a Reply

Your email address will not be published. Required fields are marked *