Accueil » Enterprise Search

>>Recherche d’information, la pertinence en question

1er décembre 2006
Auteur : 

Pour le numéro 27 de KnowledgeNews, la lettre d’information de KnowledgeConsult, j’ai écris un article sur une notion au coeur de la recherche d’information : la pertinence. Celle-ci y est présentée suivant différents points de vue : technologique, informationnel et humain.


La pertinence d’une recherche d’information est une notion extrêmement complexe. Intimement liée au jugement des utilisateurs, la pertinence est paradoxalement évaluée par les technologies.

Mais qu’est ce que la pertinence ? Peut-on l’évaluer ? Et si oui, comment peut-on l’améliorer ?

Les grands principes du calcul de pertinence

Pour être en mesure d’offrir aux utilisateurs les informations correspondants à leurs attentes, une solution de recherche d’information doit s’appuyer sur un modèle de pertinence. Celui-ci va ainsi permettre de réaliser, pour chaque requête, un calcul de pertinence pour chacune des informations. Celles qui auront le meilleur score de pertinence seront alors présentées aux utilisateurs par ordre décroissant. On parlera de calcul de « ranking ».

Dans la majorité des cas, ce calcul repose sur une mesure de ressemblance entre la requête et les informations.

Il existe un grand nombre d’approches pour réaliser cette mesure de ressemblance.

Cependant, nous pouvons citer les critères qui sont classiquement utilisés : – nombre de termes de la requête trouvés dans les informations mis en perspective par rapport à leur localisation dans la structure des documents : titre, corps, métadonnées. Ainsi, les mots trouvés dans un titre pourront avoir plus d’importance que dans le corps du texte. De même, les mots en début de texte pourront avoir plus d’importance que les mots en milieu de texte, etc. ; – proximité des termes trouvés entre eux : plus les mots de la requête sont proches les uns des autres dans le texte, meilleur sera le classement ; – rareté relative des termes de la requête ce qui permet de privilégier les informations contenant les termes rares ; – …

Une approche qui a ses limites

Mais si cette mesure de ressemblance peut être facile à mettre en œuvre d’un point de vue technologique, elle montre rapidement ces limites en ce qui concerne l’évaluation de la pertinence.

En effet, cette approche permet d’évaluer ce que l’on peut nommer la pertinence système, c’est-à-dire la pertinence que le système a lui-même calculé. Or, ce qui est important ce n’est pas le point de vue du système mais la façon dont l’utilisateur juge de la pertinence des informations retrouvées pour son besoin d’information propre. C’est ce que l’on nomme la pertinence utilisateur.

Tout l’enjeu d’une solution de recherche d’information repose donc sur la réduction de la distance pouvant exister entre la pertinence système et la pertinence utilisateur. Cet enjeu est d’autant plus important et difficile à maîtriser que les utilisateurs ont souvent du mal à définir leurs objectifs de recherche et à exprimer leurs besoins de façon précise.

Par ailleurs, à ce problème important lié à l’utilisateur vient s’ajouter un autre problème que certains appellent « word mismatch », c’est-à-dire le fait que les auteurs de documents et les utilisateurs d’une solution de recherche d’information utilisent une grande variété de mots pour exprimer la même idée.

Ce problème est d’autant plus accentué que les utilisateurs expriment leurs besoins d’information à l’aide de requêtes brèves et incomplètes.

Le schéma suivant qui représente le processus de recherche d’information met en évidence l’importance du rôle de l’individu.

C’est en effet l’individu qui, en consultant les résultats, leur donne du sens en fonction de ses besoins et de l’information attendue. Suite à une recherche, soit l’individu est satisfait et il retourne à son activité principale, soit il tente une nouvelle recherche.

Et c’est bien parce que l’individu est au cœur de la notion de pertinence que celle-ci est particulièrement complexe.

Au cœur de la pertinence, l’individu

Le problème fondamental de la recherche d’information repose sur le fait que chaque collaborateur possède sa propre vision des contenus. De ce fait un document pertinent pour un collaborateur ne le sera pas forcément pour un autre même si la requête est la même.

Chacun d’entre nous effectue sa propre interprétation d’une information, du fait de nos connaissances personnelles et de notre expérience. Deux membres d’une même équipe avec le même niveau d’éducation et la même expérience professionnelle faisant exactement la même requête sur le même corpus documentaire auront quoi qu’il advienne une vision différente de la valeur des documents retournés.

Au final, une information pertinente pour un collaborateur ne le sera pas forcément pour un autre même si la requête est la même.

La pertinence n’est pas du tout un problème de correspondance entre une information et une requête. Elle est au contraire fortement dépendante du contexte de jugement !

De la sorte, il est possible de donner la définition suivante à la pertinence : La pertinence est l’intervalle de mesure d’un aspect de la pertinence (la pertinence absolue) existant entre une information et un contexte dans lequel la pertinence mesurée est jugé par un utilisateur.

Cette définition met avant l’importance du contexte et de l’utilisateur dans l’évaluation de la pertinence d’une recherche d’information. De ce fait, le calcul de la pertinence mis en œuvre dans les services de recherche d’information n’est pas adapté.

Plusieurs approches pour améliorer la pertinence

Pour améliorer le calcul de pertinence mis en œuvre dans une solution de recherche d’information, il est donc nécessaire de prendre en compte l’utilisateur et son contexte. Pour y parvenir, trois approches peuvent être envisagées : – l’approche centrée sur le modèle de pertinence ; – l’approche centrée sur les informations ; – l’approche centrée sur les utilisateurs.

Approche centrée sur le modèle de pertinence

L’approche centrée sur le modèle de pertinence tente d’intégrer les notions relatives au contexte et à l’utilisateur dans le calcul de pertinence.

Pour ce faire, cette approche tente de trouver certains comportements communs entre les utilisateurs. Une fois ceux-ci identifiés, ils doivent être formalisés puis intégrés au modèle de pertinence.

Il est évident qu’une telle approche est difficile à mettre en œuvre. Cependant, un certain nombre de fournisseurs de technologies ont tenté d’ajouter de nouveaux éléments aux critères classiques des algorithmes de calcul de pertinence tels que nous les avons définis plus hauts.

Parmi ces éléments, on peut citer : – la fraîcheur ; – le niveau d’autorité (est-ce que l’information est considérée comme étant une référence par rapport à la requête de l’utilisateur) ; – la popularité ; – la qualité ; – la localisation géographique ; – …

Approche centrée sur les informations

Cette approche concentre ses efforts sur l’analyse et le traitement de l’information.

La vocation d’une solution de recherche d’information est de fournir aux collaborateurs une information qui leur soit aussi utile que possible. Pour que cette information leur soit utile, il est nécessaire qu’elle soit présentée de telle manière qu’elle soit facilement utilisable. Pour ce faire, il faut que les collaborateurs puissent avoir à leur disposition deux types d’éléments : – des éléments concernant le contenu même de chaque information retrouvée ; – des éléments concernant le contenu de l’ensemble des informations retrouvées.

Dans les deux cas, cela nécessite de la part de la solution de recherche d’information une certaine compréhension des informations mises à disposition. La solution doit donc analyser les informations pour en comprendre le sens et répondre aux demandes des collaborateurs.

Cette analyse va être rendue possible grâce aux technologies de text mining. Celles-ci vont permettre de réaliser plusieurs opérations dont les plus classiques dans le cadre de la recherche d’information sont : – l’indexation automatique où l’extraction d’information permet d’identifier les mots les plus représentatifs des documents pour faciliter la création des index ; – le résumé automatique où il s’agit d’extraire les phrases les plus pertinentes d’un document vis-à-vis de la requête posée ; – la présentation de termes suggérés où l’extraction d’information permet de mettre en avant des termes représentatifs issus des résultats d’une recherche ; – le classement automatique qui permet de créer dynamiquement des catégories sans plan prédéfini ; – l’aide à la construction de modèles d’organisation de l’information : taxonomie, thésaurus ou ontologie ; – l’enrichissement de l’information par la création automatique de métadonnées.

Approche centrée sur les utilisateurs

Comme son nom l’indique, cette approche met l’utilisateur et ses préférences au centre de la recherche d’information. Il s’agira ici de considérer notamment deux types de recherche d’information : la recherche personnalisée et la recherche collaborative.

Le premier type de recherche d’information a première de ces approches consiste à personnaliser la recherche en fournissant à la solution plus d’informations sur l’utilisateur : son profil, ses préférences, etc. Une meilleure connaissance de l’utilisateur peut alors compenser la pauvreté des requêtes.

Une approche collaborative peut être ajoutée à cette personnalisation. Il s’agira alors de comparer et combiner le profil de l’utilisateur avec ceux d’autres utilisateurs proches de lui pour affiner la liste des résultats. La collaboration autour de la recherche d’information peut également prendre d’autres voies comme par exemple le social bookmarking.

Bien plus qu’une question de technologies

Lorsqu’un collaborateur recherche de l’information, il le fait dans un but précis celui de réaliser dans les meilleures conditions une tâche particulière : prendre une décision, réaliser une transaction, acquérir de nouvelles connaissances, etc.

Ainsi, vouloir améliorer la pertinence d’une solution de recherche d’information nécessite de la part de l’entreprise d’avoir avant tout une compréhension précise des besoins de ses collaborateurs.

La pertinence de la recherche d’information, et surtout la vision que peut en avoir l’entreprise, ne doivent pas uniquement reposer sur une approche technologique !


 
Syndication | Mentions légales | Plan du site | Contact
 
Les noms de produits ou de sociétés cités sur GillesBalmisse.com peuvent faire l’objet d’un dépôt de marque par leurs propriétaires respectifs.
GillesBalmisse.com n'est affilié à aucun éditeur de logiciel et agit en toute indépendance.
 
(c) 2003 - 2010 Gilles Balmisse
 
Site réalisé sous SPIP - Design adapté de RECIT-FP Partenaires