SETIT 2005 3rd International Conference: Sciences of Electronic, Technologies o

SETIT 2005 3rd International Conference: Sciences of Electronic, Technologies of Information and Telecommunications March 27-31, 2005 – TUNISIA Comment extraire la sémantique d’une image ? Alain Boucher* et Thi-Lan Le** *Institut de la Francophonie pour l’Informatique, Hanoi, Vietnam alain.boucher@auf.org **Centre de Recherche International MICA, Institut Polytechnique de Hanoi, Vietnam Thi-Lan.Le@mica.edu.vn Résumé: Dans cet article, nous présentons un état de l’art de la recherche d’images par le contenu, avec certains résultats, mais aussi les problèmes qui subsistent. Nous proposons notre système de recherche symbolique d’images basé avant tout sur la couleur et la texture. À partir des connaissances existantes sur la recherche d’images par le contenu symbolique, nous discutons de façons pour ajouter de la sémantique dans le processus d’analyse de l’image. Il existe deux méthodes pour arriver à cela : définition de concepts (ontologie) et interaction homme-machine. Nous présentons notre approche et nos résultats préliminaires et les discutons dans le but de parvenir à concevoir un système utile pour l’homme, c’est-à-dire exploitant les données au niveau sémantique. De plus, nous discutons des extensions possibles de ces mécanismes vers la recherche d’informations multimédias, où l’image côtoie la vidéo, la parole, le son et le texte. Dans cette optique, nous démontrons que la meilleure voie possible est de lier ces médias très différents via l’extraction de sémantique. Mots clés: Bases de données multimédia, Recherche d’information, Interaction, Sémantique, Traitement d’images. 1. Introduction La dernière décennie a vu une explosion du nombre d’articles publiés dans le domaine de l’indexation et de la recherche d’images. La mise à portée de chacun d’appareils photos et de caméras numériques, conjugée avec la montée en puissance et en stockage des ordinateurs, ont contribuées à créer à la fois un besoin, mais aussi certaines réponses dans ce domaine. Plusieurs équipes de recherche ont développés des travaux dans ce sens, ce qui a débouché sur plusieurs avancées dans le problème plus général du traitement d’images et de la vision par ordinateur. Ce nouveau problème, ou défi, a redéfini en des termes nouveaux les objectifs du traitement automatique des images, et cela a conduit à de nouvelles réflexions simplement par l’introduction d’une problématique légèrement différente à ce qui se faisait avant. Nous nous intéressons dans cet article à l’interprétation du contenu des images à des fins d’indexation et de recherche d’information. Deux niveaux d’interprétation d’une image sont définis : symbolique, ou bas niveau, et sémantique, ou haut niveau. L’objectif de la recherche étant d’obtenir une interprétation de l’image au niveau sémantique, afin de communiquer des résultats fidèles aux attentes des utilisateurs humains d’un tel système. Dans la section 2 de cet article nous revenons en arrière et relions l’historique des travaux en vision par ordinateur aux problèmes d’aujourd’hui en interprération, analyse et recherche d’informations au niveau sémantique de l’image. Ensuite, dans la section 3, nous discutons de recherche d’images par le contenu symbolique et présentons aussi nos résultats actuels dans le domaine. Dans la section 4, nous nous intéressons à la recherche d’information au niveau sémantique, où nous présentons les approches possibles et discutons de notre prototype dans ce domaine. Enfin, la section 5 contient des quelques réflexions sur l’évolution du domaine vers la recherche d’information multimédia. 2. Evolution de la notion de sémantique 2.1. En vision par ordinateur… La recherche en traitement d’images et en vision par ordinateur s’est orientée pendant de nombreuses années sur l’extraction d’informations et sur la reconnaissance des éléments qui constituent l’image. On retrouve ici notamment les travaux de Marr (Marr, 1982) qui a clairement défini les étapes de la vision par ordinateur en partant de la segmentation et l’extraction de caractéristiques de base (bas niveau) et SETIT2005 progressant de façon unidirectionnelle vers l’interprétation de l’image (haut niveau). Cette approche, qualifiée d’ascendante, a longtemps dominé et est encore très largement utilisé aujourd’hui. Il existe un autre courant de pensée, attestant que l’interprétation ne pouvait se faire que si elle était dirigé par un but. Il s’agit de l’approche descendante, partant du haut niveau et allant vers le bas niveau (Clouard et al., 1995). Malgré tous les efforts et les avancées qui ont été faits, le problème demeure encore entier, ou presque. Comme dans plusieurs autres domaines lorsqu’on hésite entre deux voies opposées, la solution probable se trouve probablement quelque part entre les deux. Dans cette optique, il existe aussi plusieurs travaux combinant les approches ascendante et descendante (Germond et al., 1997). L’extraction d’informations bas niveau est nécessaire, mais l’analyse « en aveugle » de l’image entière est impossible et il faut cibler un ou quelques objectifs que l’on désire accomplir par les traitements. L’analogie est facile avec la vision humaine, ou la vision sert à déterminer et à accomplir l’action. On ne fait pas que voir, tel un observateur extérieur, mais nous sommes au centre de la scène et notre survie dépend de notre vision. Cette analogie a, entre autres, motivé toute une philosophie de recherche autour de ce qu’on appelle la vision active (Aloimonos et al., 1987) et ses dérivées. Malgré de nombreuses et réelles avancées, le problème de contrôle entre le bas niveau et le haut niveau n’est toujours pas résolu aujourd’hui, et les percées vers le grand public des applications de vision haut niveau ne sont pas encore à la hauteur des attentes. Comment concilier le bas niveau, plutôt mathématique, avec le haut niveau, plutôt du domaine de l’intelligence artificielle ? Ce problème était autrefois largement vu comme un problème de contrôle uniquement (Boucher, 1999), et les efforts ciblaient l’améloration de ce contrôle dans les systèmes de vision. 2.2. … et en recherche d’images par le contenu Après tout cela est arrivé l’essor d’un nouveau domaine qu’est l’indexation et la recherche d’images. En fait, le domaine n’est pas nouveau, puisqu’il provient directement du problème, plus vaste, de la recherche d’information (Baeza-Yates et al, 1999), mais on peut dire, sans se tromper, qu’il y a eu un véritable engouement de la part des équipes de recherche de partout dans le monde vers ce domaine il y a environ une dizaine d’années seulement, pour des raisons évoquées dans l’introduction. Outre les avancées techniques, ce domaine a aussi contribué à de nouvelles réflexions sur le domaine. Le problème était redéfini, car on ne cherche plus à reconnaître les éléments constituant l’image, mais on cherche la similarité entre les images. Cette nouvelle définition de la tâche a sans doute fait naître de nombreux espoirs. De nombreux travaux ont été publiés sur la recherche d’images par le contenu symbolique, et cela a permis de nombreuses avancées sur l’utilisation de la couleur, des textures, des formes, et autres invariants de l’image. Cependant, après l’euphorie initiale, on retombe sur les mêmes vieux problèmes, mais cette fois, et c’est une nouveauté, on leur donne des noms : le fossé sensoriel et le fossé sémantique (voir figure 1). Le fossé sensoriel était déjà connu, et même très bien documenté et travaillé. Il intervient avant même l’analyse bas niveau de l’image, soit au niveau de l’acquisition de l’image. Il est défini comme « le fossé entre les objets dans le monde réel et l’information contenue dans une description (informatique) dérivée de l’enregistrement de cette scène » (Smeulders et al., 2000). Il s’agit de la projection d’une réalité, souvent 3D et continue, dans une représentation informatique discrète et 2D. Ce fossé est soit accepté par les chercheurs travaillant sur les images 2D, ou repoussé par les chercheurs travaillant sur les images 3D ou stéréoscopiques. En imagerie 2D, l’hypothèse courante de travail est que dans tous les cas, l’humain réussit à utiliser, et à interpréter, les images 2D, donc l’ordinateur pourrait très bien le faire aussi. Cette hypothèse est nécessaire dans la pratique puisque la masse d’images qui nous entoure est bien souvent qu’en 2D, ce qui fait que le besoin d’outils pour travailler, et interpréter, les images 2D est criant et bien réel. Cependant, cette hypothèse ne fait que renforcer le deuxième fossé, en limitant les informations disponibles et en repoussant une partie du traitement vers l’interprétation, soit plus haut dans la chaîne de traitement. Monde Caméra Fossé sémantique Fossé sensoriel Maison RGB = (225,0,32) Forme = 1,23 Figure 1. Le fossé sensoriel entre le monde observé et l’image acquise ainsi que le fossé sémantique entre l’analyse par l’ordinateur et l’interprétation humaine de l’image. SETIT2005 Le fossé sémantique est le plus difficile à traiter. Depuis plusieurs années, les chercheurs tournaient autour de ce fossé sans véritablement le nommer, ce qui est chose faite aujourd’hui. Le fossé sémantique est définit comme « le manque de concordance entre les informations qu’on peut extraire des données visuelles et l’interprétation qu’on ces mêmes données pour un utilisateur dans une situation déterminée » (Smeulders et al., 2000). Ce fossé n‘est ni plus ni moins que le même problème de liaison entre traitements de bas niveau et traitements de haut niveau, sauf que maintenant, il est clairement vu comme un problème de gestion d’informations et non uniquement comme un problème de contrôle. Et même si l’application en indexation et recherche d’images a permis pendant un certain temps de redéfinir l’objectif uploads/Science et Technologie/ comment-extraire-la-semantique-d-x27-une-image-alain-boucher-et-thi-lan-le.pdf

  • 11
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager