L’analyse sémantique automatisée des textes et ses cas d’usage

 

Introduction

Les cas d’usage de l’analyse sémantique des textes sont encore peu connus car les analyseurs performants sont récents, non démocratisés et ne sont utilisés qu’à travers une poignée d’applications et d’offres plus ou moins connues. Cet article a pour but de présenter les fonctions d’analyse actuellement disponibles et leurs potentiels cas d’usage.

Si le mot “sémantique” est sur toutes les lèvres à cause de l’exploitation des données non structurées présentes dans les data lakes, les technologies mobilisées et les applications concrètes varient grandement et évoluent rapidement. L’important est de comprendre ce que l’on peut en faire.

La sémantique concerne “l’acception” des mots, des phrases et plus généralement des textes. Mais comment un programme informatique peut il comprendre la signification d’une phrase ou d’un texte ? En fait il ne s’agit pas vraiment de cela, mais plutôt de tirer des conclusions sur la signification d’un texte qu’on analyse. A titre d’exemple, l’analyseur peut dire si la signification de la phrase “Il fait très chaud” est sémantiquement proche ou non de “la température est torride”, c’est à dire si les deux phrases expriment la même idée ou non. Un analyseur sémantique construit sa représentation mathématique de la signification des phrases, qui permet ensuite de réaliser des opérations de comparaison, de classification, voire de raisonnement déductif entre textes. Un autre exemple typique est la classification en avis positifs ou négatifs, des avis remis par des utilisateurs sur un site eCommerce.

La représentation mathématique de la signification des phrases (le modèle sémantique) est plus ou moins adaptée aux déductions que l’on souhaite faire. De plus l’analyseur peut grouper dans un même traitement le modèle et l’algorithme qui conclut sur la signification des textes qui lui sont soumis.

La figure suivante présente le principe général du logiciel :

Principe général du logiciel

Exemple du principe général du logiciel 

 

L’analyseur peut donner directement la conclusion sur le texte présenté. Par exemple, le texte traité est-il un avis positif ou négatif ?

Mais il est aussi possible d’accéder au modèle sémantique et de créer le logiciel qui réalise la fonction “sémantique” du cas d’usage. La figure suivante illustre l’exemple évoqué précédemment :

Exemple d'analyse

Exemple du principe général du logiciel d’analyseur sémantique

 

La fonction de “Comparaison” utilise le modèle mathématique (modèle sémantique) représentant le sens des textes et déduit si les deux textes ont une signification équivalente ou non.

Une application typique est que le Texte 2 est fixé (La température est torride) et on compare avec le sens du Texte 1 qui lui varie. Le logiciel conventionnel va allumer la climatisation s’il reçoit la conclusion qu’il fait très chaud.

 

Les fonctions “sémantiques”

On devine qu’il existe de nombreuses fonctions de traitement des modèles sémantiques, plus ou moins évoluées. Connaître ce catalogue est une des clefs de la construction des applications sémantiques actuelles.

Chaque fonction engendre un résultat dont le type est consommable par un logiciel conventionnel. Par exemple, pour la fonction de détection de sentiment, la fonction renvoie un nombre compris entre 0 et 1 (indice de confiance). 0 correspond à un sentiment totalement négatif, 1 correspond à un sentiment totalement positif. Les fonctions peuvent renvoyer également des listes de mots, des chaînes de caractère, etc.

Fonction
Description
Détecter un sentiment Détecte si le texte traduit un sentiment positif ou négatif
Détecter l’émotion Détecte si le texte traduit une émotion (peur, joie, tristesse…)
Trouver la réponse à une question Trouve la réponse à une question dans un corpus documentaire
Comparer Compare le sens de deux textes et indique leur niveau de ressemblance sémantique
Catégoriser Classe un texte dans une catégorie (le sens du texte est proche du sens défini par la catégorie)
Trouver les synonymes A partir d’un corpus documentaire, trouve les termes synonymes
Trouver les termes polysémiques A partir d’un corpus documentaire, trouve les termes polysémiques
Traduire Traduit un texte dans une autre langue
Extraire Extrait les mots et termes portant un sens particulier
Extraire l’essentiel Extrait les concepts clefs présents dans le texte
Annoter Annote les termes ayant un même sens et les marque. Par exemple, les termes marqués peuvent être associés à une URL Wikipedia correspondant à leur définition
Nettoyer Extrait le texte utile d’un texte “bruité” comme une page web par exemple
Résumer Réduit la longueur d’un texte en conservant les éléments de sens principaux
Détecter la langue Trouve la langue dans laquelle est écrit le texte

Les cas d’usage

Ils sont innombrables, aussi nous nous limitons à citer cinq cas emblématiques :

L’analyse des contrats

Il est courant de rechercher des caractéristiques particulière dans un corpus de contrats. Par exemple, trouver les contrats où sont définies des pénalités. Ou bien, ceux qui stipulent des conditions particulières de renouvellement. Très souvent les mots clefs ne sont pas suffisants pour détecter des conditions particulières car elles ne sont pas exprimées dans un même vocabulaire. L’analyseur sémantique peut pointer les paragraphes relatifs aux pénalités.

Le routage des messages

Au sein d’une entreprise il est souvent nécessaire de faire parvenir une information à quelqu’un dont on connaît le rôle mais dont on ne connaît pas l’identité. Par exemple, un message parlant de problèmes d’ascenseur doit être vu du service de maintenance. De même les messages qui remontent des avis sur la qualité de la nourriture de la cantine doivent être routés vers le cuisinier et l’intendant. L’analyse sémantique des messages permet de trouver le thème du message et grâce à une table de correspondance entre le thème et les destinataires impliqués, le message est routé vers les bons destinataires.

L’analyse des sentiments en entreprise

Les entreprises ont souvent peu de visibilité sur l’état émotionnel de leurs employés. En analysant sémantiquement les messages qui circulent, il est possible de construire un baromètre de la satisfaction des employés et de déduire également les thèmes qui apportent satisfaction et mécontentement.

La recherche dans les textes de lois

Il est difficile de trouver les réponses à des questions précises dans un corpus documentaire juridique. A titre d’exemple, l’analyse sémantique permet de répondre à des questions précises sur la RGPD. Il suffit de poser ses questions en langage naturel à un robot qui répond avec le bon article du texte de loi ou du paragraphe d’un document pertinent. PALO IT a d’ailleurs montré cette solution en fonctionnement sur le salon Big Data Paris 2018 (ChatBot RGPD).

La surveillance des centres d’appels

Les conversations entre les opérateurs et les clients appelants sont enregistrées mais souvent peu exploitées, si ce n’est pour résoudre des litiges. L’analyse sémantique en temps réel permet de détecter des situations anormales (discours inadapté tant sur la forme que le fond), de mesurer les émotions des clients (satisfaction, énervement, colère…) et de trouver les thématiques récurrentes, bien qu’elles puissent prendre des formes de discours très variées.

 

Les designers “sémantiques”

Chez PALO IT nous pratiquons systématiquement le Design Thinking pour concevoir les Expériences Utilisateurs de nos clients. Les solutions métier que nous concevons utilisent les traitements sémantiques : interfaces conversationnelles, détection dans des flux de texte, routeurs de messages, etc. C’est grâce à la profonde connaissance des fonctions sémantiques, de leurs performances, des technologies et des offres associées (logiciels open source, SaaS, PaaS…) que nous savons faire éclore les nouveaux cas d’usage en les raccordant aux problématiques business les plus stratégiques pour les organisations. Le design nous permet également d’engager les utilisateurs dans une boucle d’habitude indispensable à l’apprentissage de la machine et donc à la qualité de ses réponses ou résultats. Nos data scientistes travaillent avec nos designers pour prévenir l’effet “Google Home” (Nabaztag ou autres bots), dont l’usage parfois mal pensé précipite les innovations au cimetière des nouvelles technologies inadaptées aux utilisateurs.

Conclusion

Nous observons déjà que l’analyse sémantique des textes révolutionne tous les domaines de l’économie car le texte est omniprésent, tant sous la forme statique de corpus documentaire (textes de lois par exemple), que sous la forme d’interactions temps réel (Tweet, Tchat…). Le champs des applications est juste sans limite, notamment sur le feedback utilisateur qui est un enjeu stratégique pour les problématiques B2B comme B2C !

 

Des questions sur le sujet ? N’hésitez pas ! 

CONTACTEZ-NOUS !

Share
Nadège BIDE & Arnaud-François FAUSSE

1557

Leave a Reply

Your email address will not be published. Required fields are marked *