I. Hachane Nouvelle approche neuronale Faster R-CNN pour la recherche d’instanc

I. Hachane Nouvelle approche neuronale Faster R-CNN pour la recherche d’instances d’images 1 Mediterranean Telecommunications Journal Vol. 8, N° 2, July 2018 ISSN: 2458-6765  Résumé—Les caractéristiques d'images dérivées des réseaux neuronaux convolutifs (CNN) pré-entrénés sont devenues la norme dans les tâches de vision par ordinateur telle que la récupération d'instances. Ce travail explore la pertinence de la récupération de caractéristiques d'images et de régions à partir d'un CNN de détection d'objets tel que Faster R-CNN. Nous profitons des propositions d'objets appris par un RPN (Region Proposal Network) et de leurs caractéristiques associées prises d’un CNN pour construire un pipeline de recherche d'instances composées d’un filtrage puis d’un reclassement. Plus encore, nous étudions la pertinence des caractéristiques de Faster R-CNN lorsque le réseau est affiné pour les mêmes objets que ceux qu’on veut récupérer. Nous évaluons la performance du système avec les deux datasets:Oxford Buildings 5k et Paris Buildings 6k. Les résultats obtenus par notre algorithme comparé avec d’autres techniques sont encourageants. Mot clés—Traitement d’images, classification, reconnaissance d’objets, CNN, Faster R-CNN, recherche d’instances d’images. I. INTRODUCTION La prolifération des caméras a mené une explosion de contenus visuels en ligne ce qui a motivé les chercheurs à proposer des systèmes de récupération d'images efficaces basés sur le contenu. Ce travail traite le problème de recherche d'instances, comprise comme la récupération des images à partir d'une base de données contenant une ou plusieurs instances d'une requête. Récemment, il a été prouvé que les réseaux neuronaux convolutifs (CNN) atteignent des performances de pointe dans de nombreuses tâches de vision par ordinateur telle que : la classification d'images [12, 22], la détection d'objets [19] ou la segmentation sémantique [14]. Les CNN entrainés avec de grandes quantités de données ont appris à apprendre des représentations d'entités qui peuvent être suffisamment génériques pour être utilisées même pour résoudre des tâches pour lesquelles ils n'avaient pas été entrainés [18].Pour la recherche d'images en particulier,de nombreux travaux de la littérature [3, 25, 11] ont adopté des solutions basées sur des fonctionnalités standard extraites d'un CNN préétabli pour la classification d'images [12, 22, 24], atteignent des performances encourageantes. Les systèmes de recherche d'instances combinent souvent des étapes de filtrage rapides, dans lesquelles toutes les images d'une base de données sont classées selon leur similarité à la requête, avec des mécanismes plus coûteux en calcul qui ne sont appliqués qu'aux éléments les plus recherchés. La vérification géométrique et l'analyse spatiale [10, 23, 15, 20] sont des stratégies de redistribution courantes, qui sont souvent suivies d'une expansion de la requête (rétroaction de pseudo-pertinence) [1,5]. La recomposition spatiale implique généralement l'utilisation de fenêtres coulissantes à différentes échelles et rapports d'aspect sur une image. Chaque fenêtre est ensuite comparée à l'instance de requête afin de trouver l'emplacement optimal qui contient la requête nécessitant le calcul d'un descripteur visuel sur chacune des fenêtres considérées. Une telle stratégie ressemble à celle d'un algorithme de détection d'objets, qui évalue généralement de nombreux emplacements d'images et détermine la présence ou non d'objet. Imane HACHCHANE Laboratoire d’Electronique, Energie, Automatique & Traitement de l’Information (EEA&TI), Faculté des Sciences et Techniques Mohammedia, Université Hassan II Casablanca. Mohammedia, Maroc hachchaneimane@gmail.com Abdelmajid BADRI Laboratoire d’Electronique, Energie, Automatique & Traitement de l’Information (EEA&TI), Faculté des Sciences et Techniques Mohammedia, Université Hassan II Casablanca. Mohammedia, Maroc abdelmajid_badri@yahoo.fr Aïcha SAHEL Laboratoire d’Electronique, Energie, Automatique & Traitement de l’Information (EEA&TI), Faculté des Sciences et Techniques Mohammedia, Université Hassan II Casablanca. Mohammedia, Maroc sahel_ai@yahoo.fr Y. RUICHEK IRTES-Laboratoire SET, Université de Technologie de Belfort Montbéliard, Belfort, France yassine.ruichek@utbm.fr Nouvelle approche neuronale Faster R-CNN pour la recherche d’instances d’images I. Hachane Nouvelle approche neuronale Faster R-CNN pour la recherche d’instances d’images 2 Mediterranean Telecommunications Journal Vol. 8, N° 2, July 2018 ISSN: 2458-6765 Les CNN de détection d'objets [8, 9, 7, 19] ont rapidement évolué au point que l'utilisation de la recherche exhaustive avec des fenêtres glissantes ou le calcul de propositions d'objets [26, 2] n'est plus nécessaire. Actuellement, on utilise les CNN de détection de pointe [19] formés bout à bout pour apprendre simultanément les emplacements des objets et leurs labels. Ce travail explore la pertinence des fonctionnalités standard et affinées d'un CNN de détection d'objet pour la tâche de récupération d'instances. II. TRAVAUX CONNEXES CNN pour la recherche d'instances. Les caractéristiques des CNN de classification d'images pré-entraînés ont été largement utilisées. Les premiers travaux dans ce sens ont démontré que les caractéristiques des couches entièrement connectées pour la récupération d'images étaient plus appropriées [4]. Razavian et al. [18], ce qui a ultérieurement amélioré les résultats en combinant des couches entièrement connectées extraites de différents sous-patchs d'images. Une deuxième génération de travaux a exploré l'utilisation d'autres couches dans le CNN pré-entrainé et a constaté que les couches convolutionnelles surpassent de manière significative les couches entièrement connectées lors des tâches de récupération d'image [21]. CNN de détection d'objet. De nombreux travaux dans la littérature ont proposé des pipelines de détection d'objets basés sur CNN. Girshick et al., ont présenté R-CNN [8], une version d’AlexNet de Krizhevsky [12], affinée pour Pascal VOC Detection [6]. Au lieu d'images complètes, les régions d'un algorithme de proposition d'objet [26] ont été utilisées comme entrées dans le réseau. Au moment du test, des couches entièrement connectées pour toutes les fenêtres ont été extraites et utilisées pour former un régresseur et un classificateur de boîtes de délimitation. Depuis lors, de grandes améliorations ont été apportées à R- CNN, à la fois en termes de précision et de rapidité. He et al. Ont proposé SPP-net [9], utilisant une couche « Spatial Pyramid based pooling » pour améliorer la classification et la performance de détection. Girshick a plus tard publié Fast R- CNN [7], utilisant la même stratégie de vitesse que SPP-net mais, plus important encore, remplace la formation post-hoc des classificateurs SVM et des régresseurs par une solution qui permet d’entrainer le réseau de bout en bout. Ren et al. Ont introduit le Faster R-CNN [19], qui supprime la dépendance de propositions d'objets des anciens systèmes CNN de détection d'objets en introduisant un RPN (Region Proposal Network). Dans Faster R-CNN, le RPN partage des fonctions avec le réseau de détection d'objets dans [7] pour apprendre simultanément les propositions d'objets proéminentes et leurs probabilités de classes associées. Dans ce travaille nous utilisons les caractéristiques convolutif d’un CNN de détection d’objets pré-entrainé, pour extraire les caractéristiques convolutives basées sur l'image et la région dans une seule passe avant. Ensuite, nous exploitons l'architecture de détection d'objets autonome de bout en bout de Faster R-CNN pour extraire à la fois les caractéristiques d'images et de régions pour la recherche d'instances. III. MÉTHODOLOGIE A. Caractéristiques basée sur CNN Notre approche explore la pertinence d'utiliser des caractéristique extraites d’un CNN de détection d' objet pour la tâche de recherche d'instances. Dans cette configuration, les instances de requête sont définies par une zone de délimitation au-dessus de l’image requête. Nous choisissons l'architecture et les modèles pré-entrénés de Faster R-CNN [19] et nous les utilisons comme extracteur de caractéristiques à l'échelle globale et locale. Faster R-CNN est composé de deux branches qui partagent des couches convolutives. La première branche est un réseau de propositions de régions qui apprend un ensemble d'emplacements de fenêtres, et le second est un classificateur qui apprend à étiqueter chaque fenêtre comme l'une des classes de l'ensemble d'apprentissage[28]. Comme pour les autres travaux [3, 25, 11], notre but est d'extraire une représentation d'images compactes construites à partir des activations d'une couche convolutionnelle dans un CNN. Puisque Faster R-CNN fonctionne plus vite à l'échelle globale et locale. Nous proposons la stratégie de Mise en commun des activations par l'image (IPAImage-wise pooling)[28]. Afin de construire un descripteur d'images globales à partir d'activations de couches Faster R-CNN, nous ignorons toutes les couches du réseau qui fonctionnent avec des propositions d'objets et d'extraire des caractéristiques de la dernière couche convolutionnelle. Étant donné les activations d'une couche convolutionnelle extraite pour une image, nous regroupons les activations de chaque filtre pour construire un descripteur d'images de la même dimension que le nombre de filtres dans la couche convolutionnelle[28]. B. Affiner Faster R-CNN La pertinence de cette technique basée sur la méthode Faster R-CNN nous permet: 1) d’obtenir de meilleures représentations de caractéristiques pour la récupération d'images et 2) d’améliorer les performances de l'analyse spatiale et de la ré-analyse. Pour y parvenir, nous choisissons d'affiner Faster RNN pour détecter les objets de requête à récupérer par notre système. A cette effet, nous modifions l'architecture de Faster R-CNN pour afficher les coordonnées de la boîte de délimitation et les scores de classes pour chacune des instances de requête des instances testées. Les réseaux affinés qui en résultent doivent être utilisés pour extraire de meilleures représentations d'images et de régions et pour effectuer une redirection spatiale basée sur des scores de classes au lieu de similarités d'entités. C. Récupération d’images Les trois étapes du pipeline de récupération d'instances proposées sont décrites dans cette section : étape de filtrage, reclassement spatial et expansion de requête. Étape de filtrage. La stratégie IPA est utilisée pour créer des descripteurs d'images pour les uploads/Management/ 1-pb 17 .pdf

  • 20
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Apv 11, 2022
  • Catégorie Management
  • Langue French
  • Taille du fichier 0.1848MB