THÈSE POUR OBTENIR LE GRADE DE DOCTEUR ÉCOLE NATIONALE SUPÉRIEURE DES MINES D’A

THÈSE POUR OBTENIR LE GRADE DE DOCTEUR ÉCOLE NATIONALE SUPÉRIEURE DES MINES D’ALÈS (IMT MINES ALÈS) En Informatique École doctorale I2S – Information, Structures, Systèmes Portée par l’Université de Montpellier Unité de recherche EuroMov Digital Health in Motion Des données aux connaissances : vers des recommandations plus pertinentes, diversifiées et transparentes Présentée par Yu DU le 3 Décembre 2021 Sous la direction de Sylvie RANWEZ et Vincent RANWEZ Devant le jury composé de Catherine FARON ZUCKER, Maître de Conférences (HDR), Université Côte d’Azur Marie-Hélène ABEL, Professeur des Universités, Université de Technologie de Compiègne (UTC) Sylvie CALABRETTO, Professeur des Universités, Institut National des Sciences Appliquées (INSA Lyon) Sandra BRINGAY, Professeur des Universités, Université Paul Valéry Montpellier Raphaël TRONCY, Maître de conférences, EURECOM, Sophia Antipolis Sylvie RANWEZ, Professeur, IMT Mines Alès Vincent RANWEZ, Professeur, Institut Agro (Montpellier SupAgro) Nicolas SUTTON-CHARANI, Maître-assistant, IMT Mines Alès Rapporteur Rapporteur Examinatrice Présidente du jury Examinateur Co-directrice de thèse Co-directeur de thèse Encadrant de proximité Résumé Dans le contexte actuel de surcharge causée par l’important volume de données numé- riques accessibles, les systèmes de recommandation permettent de guider l’utilisateur dans ses activités d’apprentissages, d’achats, de loisir, d’écoute musicale, de lectures..., en lui suggérant des items personnalisés. Pour cela, ils prédisent ses préférences relative- ment aux items qu’il n’a pas encore évalués. Des approches classiques de recommanda- tion, comme le filtrage collaboratif par exemple, reposent sur les données collectées par le biais de retours d’utilisateurs, généralement sous la forme d’une matrice de notes, et tentent d’y découvrir les informations pertinentes pour caractériser et prédire les goûts des utilisateurs. En complément de ces données, les connaissances liées aux items eux- mêmes représentent également un atout majeur pour l’amélioration des performances des systèmes de recommandation. L’ingénierie des connaissances, plus spécifiquement le Web sémantique et les graphes de connaissances, peuvent y jouer un rôle central. Tel est le cadre de notre travail de recherche qui propose différentes voies d’amélioration des systèmes de recommandation, adoptant une vision transversale « des données aux connaissances », et ce sur trois aspects différents : la pertinence (accuracy), la diversifica- tion et l’explicabilité des recommandations. Notre première contribution est principalement axée sur les données. Elle concerne l’accuracy des recommandations en termes de prédiction des goûts des utilisateurs. Nous proposons EBCR (Empirical Bayes Concordance Ratio), une méthode simple et générique inspirée de l’inférence bayésienne, qui permet d’ajuster les calculs de similarité entre utilisateurs (ou entre items) mis en œuvre dans le filtrage collaboratif. Cet ajustement est réalisé en fonction du nombre d’items co-notés (ou du nombre d’utilisateurs ayant noté un même item). Les expériences menées sur des jeux de données de référence ont confirmé que cette méthode améliore systématiquement l’accuracy du filtrage collabora- tif pour toutes les mesures de similarité considérées. Notre deuxième contribution concerne la diversification des recommandations. Nous avons mené une étude approfondie visant à comparer et analyser la performance de sept modèles de recommandation incluant des modèles classiques comme le filtrage col- laboratif et le facteur latent ainsi que ceux, plus récents, se basant sur les réseaux de neurones profonds ou les plongements (embeddings) de graphe de connaissances. Nous avons évalué leur capacité à fournir des items diversifiés et proposé une approche qui per- met d’ajuster la diversité aux besoins spécifiques des utilisateurs. Afin d’estimer la diver- sité des recommandations, nous avons considéré des mesures de similarité sémantique en tirant parti des connaissances liées aux items à l’aide du Web sémantique. Enfin, notre troisième contribution concerne l’explicabilité des recommandations. Ici, nous exploitons plus en profondeur les connaissances du domaine, en proposant une approche de l’explication post-hoc des recommandations qui considère efficacement la hiérarchie des concepts au sein du graphe de connaissances de DBpedia. Les résultats de l’évaluation de notre approche basée sur une étude comprenant 155 participants sug- gèrent des améliorations significatives en termes d’engagement, de confiance et de per- suasion. Mots-clés : Système de recommandation, Filtrage collaboratif, Calibration, Diversité, Explicabilité, Ingénierie des connaissances, Graphe de connaissances, Plongement de gra- phe, DBpedia ii Abstract In the current information overload context caused by the large volume of accessible dig- ital data, recommender systems allow to guide the user in his/her learning, shopping, leisure, music listening, reading activities..., by suggesting personalized items. To do so, recommendation models predict users’ preferences for their unrated items. Classical rec- ommendation approaches, such as collaborative filtering, for example, rely on data col- lected through user feedback, usually in the form of a rating matrix, and try to discover rel- evant information to characterize and predict user tastes. In addition to the user feedback data, the knowledge related to items themselves also represents a major asset for improv- ing the performance of recommendation systems. Knowledge engineering, more specifi- cally the semantic Web and knowledge graphs, can play a central role. In this context, our research works propose different ways to improve recommendation systems, adopting a “from-data-to-knowledge" transversal vision, and consider three different recommenda- tion aspects: accuracy, diversification and explicability. Our first contribution is mainly focused on pure user feedback data. It aims at im- proving the accuracy of recommendations in terms of the prediction of users’ tastes. We propose EBCR (Empirical Bayes Concordance Ratio), a simple and generic method in- spired by Bayesian inference, which allows to adjust the similarity computations between users (or between items) in collaborative filtering, according to the number of co-rated items (or the number of users having rated the same item). Experiments conducted on benchmark datasets have confirmed that this method systematically improves the pre- dictive accuracy of collaborative filtering for all considered similarity measures. Our second contribution concerns the diversification of recommendations. We have conducted an in-depth study to compare and analyze the performance of seven recom- mendation models including classical models such as collaborative filtering and latent factor models as well as more recent ones based on deep neural networks and knowl- edge graph embeddings. We have evaluated their ability to provide diversified items and proposed an approach that allows adjusting diversity to specific user needs. In order to estimate the diversity of recommendations, we considered semantic similarity measures by leveraging the semantic Web and knowledge graphs. Finally, our third contribution concerns the explicability of recommendations. Here, we further exploit domain knowledge and propose a post-hoc recommendation expla- nation approach that effectively accounts for the hierarchy of item properties within the DBpedia knowledge graph. Evaluation results of our approach based on an online user study including 155 participants suggest significant improvements in terms of engage- ment, trust and persuasion. Keywords: Recommender system, Collaborative filtering, Calibration, Diversity, Ex- plicability, Knowledge engineering, Knowledge graph, Graph embedding, DBpedia ii Remerciements Pas comme chaque thèse, ces trois années ont témoigné les expériences qui sont particu- lièrement impactées par la pandémie lié au COVID-19, bouleversant la vie et l’habitude de chacune et de chacun. Heureusement comme chaque thèse, ces trois années passées sont, avant tout, une expérience très riche dans laquelle il y a eu de la joie, de l’émoi, de l’inquiétude, de la confusion, du challenge et surtout, de la reconnaissance. J’exprime vivement mes reconnaissances ici et remercie sincèrement toutes les per- sonnes m’ayant accompagnées durant la période de ma thèse. En premier lieu, je tiens à remercier ma directrice de thèse Sylvie Ranwez, qui m’a encadré tout au long de ma thèse avec sa gentillesses, sa patience et sa responsabilité. Je le remercie de m’avoir fait confiance et donné des conseils utiles à chaque fois où j’ai proposé de m’orienter autrement durant ces années. Je le remercie pour sa présence per- manente et toutes ses disponibilités consacrées pour l’encadrement de ma thèse. Je le remercie également pour son encouragement pendant les moments les plus durs à cause des confinements. Je tiens à remercier ensuite Vincent Ranwez, le co-directeur de ma thèse et Nicolas Sutton-Charani, l’encadrant de ma thèse. Je remercie leurs accompagnements de près pour le bon déroulement scientifique de ma thèse. Je les remercie également pour leurs conseils et propositions utiles, leurs aides pratiques et leurs présences permanentes. J’adresse tous mes remerciements à Madame Catherine Faron Zucker, Maître de confé- rences à l’Université Côte d’Azur, ainsi qu’à Madame Marie-Hélène Abel, Professeur à l’Université de Technologie de Compiègne, de l’honneur qu’elles m’ont fait en acceptant d’être rapporteurs de cette thèse. J’exprime ma gratitude à Madame Sylvie Calabretto, Professeur à l’Institut National des Sciences Appliquées, à Madame Sandra Bringay, Professeur à l’Université Paul-Valéry Montpellier 3 et à Monsieur Raphaël Troncy, Maître de conférences à l’École d’Ingénieur et Centre de recherche en Sciences du Numérique, qui ont bien voulu être examinateurs pour ce jury. Ensuite, je tiens à remercier l’ensemble des personnes de l’école et de laboratoire CE- RIS qui m’ont accompagné et ont répondu avec calme et patience aux questions quoti- diennes durant ma thèse. Particulièrement, j’adresse mes remerciements à Jacky Mont- main et Edith Teychene, pour les temps qu’ils ont consacré pour assurer le bon déroule- i ment de ma thèse en termes de l’administration; à Pierre Jean, pour ses aides techniques relatives aux serveur de calcul et déploiement des applications. Enfin, je tiens à remercier les uploads/Litterature/ du-2021-archivage.pdf

  • 18
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager