École doctorale : InfoMaths Numéro d’ordre : 2012-ISAL0044 Thèse Segmentation e

École doctorale : InfoMaths Numéro d’ordre : 2012-ISAL0044 Thèse Segmentation et classification dans les images de documents numérisés présentée devant L’Institut National des Sciences Appliquées de Lyon pour obtenir le grade de docteur par Asma OUJI Soutenue le 01/06/2012 devant la Commission d’examen Jury Rapporteur J.-M. OGIER Professeur, Université de La Rochelle Rapporteur C. VIARD-GAUDIN Professeur, IUT de Nantes Directeur de thèse A. BASKURT Professeur, INSA de Lyon Co-directeur de thèse F. LeBOURGEOIS Maître de conférence, INSA de Lyon Examinateur P. LAMBERT Professeur, Polytech’Savoie Annecy Membre invité P.-F BESSON Ingénieur, SPIGRAPH Laboratoire : Laboratoire d’InfoRmatique en Image et Systèmes d’information (LIRIS) Cette thèse est accessible à l'adresse : http://theses.insa-lyon.fr/publication/2012ISAL0044/these.pdf © [A. Ouji], [2012], INSA de Lyon, tous droits réservés Cette thèse est accessible à l'adresse : http://theses.insa-lyon.fr/publication/2012ISAL0044/these.pdf © [A. Ouji], [2012], INSA de Lyon, tous droits réservés INSA Direction de la Recherche - Ecoles Doctorales – Quinquennal 2011-2015 SIGLE ECOLE DOCTORALE NOM ET COORDONNEES DU RESPONSABLE CHIMIE CHIMIE DE LYON http://www.edchimie-lyon.fr Insa : R. GOURDON M. Jean Marc LANCELIN Université de Lyon – Collège Doctoral Bât ESCPE 43 bd du 11 novembre 1918 69622 VILLEURBANNE Cedex Tél : 04.72.43 13 95 directeur@edchimie-lyon.fr E.E.A. ELECTRONIQUE, ELECTROTECHNIQUE, AUTOMATIQUE http://edeea.ec-lyon.fr Secrétariat : M.C. HAVGOUDOUKIAN eea@ec-lyon.fr M. Gérard SCORLETTI Ecole Centrale de Lyon 36 avenue Guy de Collongue 69134 ECULLY Tél : 04.72.18 60 97 Fax : 04 78 43 37 17 Gerard.scorletti@ec-lyon.fr E2M2 EVOLUTION, ECOSYSTEME, MICROBIOLOGIE, MODELISATION http://e2m2.universite-lyon.fr Insa : H. CHARLES Mme Gudrun BORNETTE CNRS UMR 5023 LEHNA Université Claude Bernard Lyon 1 Bât Forel 43 bd du 11 novembre 1918 69622 VILLEURBANNE Cédex Tél : 04.72.43.12.94 e2m2@biomserv.univ-lyon1.fr EDISS INTERDISCIPLINAIRE SCIENCES- SANTE http://ww2.ibcp.fr/ediss Sec : Safia AIT CHALAL Insa : M. LAGARDE M. Didier REVEL Hôpital Louis Pradel Bâtiment Central 28 Avenue Doyen Lépine 69677 BRON Tél : 04.72.68 49 09 Fax :04 72 35 49 16 Didier.revel@creatis.uni-lyon1.fr INFOMATHS INFORMATIQUE ET MATHEMATIQUES http://infomaths.univ-lyon1.fr M. Johannes KELLENDONK Université Claude Bernard Lyon 1 INFOMATHS Bâtiment Braconnier 43 bd du 11 novembre 1918 69622 VILLEURBANNE Cedex Tél : 04.72. 44.82.94 Fax 04 72 43 16 87 infomaths@univ-lyon1.fr Matériaux MATERIAUX DE LYON Secrétariat : M. LABOUNE PM : 71.70 –Fax : 87.12 Bat. Saint Exupéry Ed.materiaux@insa-lyon.fr M. Jean-Yves BUFFIERE INSA de Lyon MATEIS Bâtiment Saint Exupéry 7 avenue Jean Capelle 69621 VILLEURBANNE Cédex Tél : 04.72.43 83 18 Fax 04 72 43 85 28 Jean-yves.buffiere@insa-lyon.fr MEGA MECANIQUE, ENERGETIQUE, GENIE CIVIL, ACOUSTIQUE Secrétariat : M. LABOUNE PM : 71.70 –Fax : 87.12 Bat. Saint Exupéry mega@insa-lyon.fr M. Philippe BOISSE INSA de Lyon Laboratoire LAMCOS Bâtiment Jacquard 25 bis avenue Jean Capelle 69621 VILLEURBANNE Cedex Tél :04.72.43.71.70 Fax : 04 72 43 72 37 Philippe.boisse@insa-lyon.fr ScSo ScSo* M. OBADIA Lionel Sec : Viviane POLSINELLI Insa : J.Y. TOUSSAINT M. OBADIA Lionel Université Lyon 2 86 rue Pasteur 69365 LYON Cedex 07 Tél : 04.78.69.72.76 Fax : 04.37.28.04.48 Lionel.Obadia@univ-lyon2.fr *ScSo : Histoire, Geographie, Aménagement, Urbanisme, Archéologie, Science politique, Sociologie, Anthropologie rien Cette thèse est accessible à l'adresse : http://theses.insa-lyon.fr/publication/2012ISAL0044/these.pdf © [A. Ouji], [2012], INSA de Lyon, tous droits réservés Remerciements J’adresse mes sincères remerciements aux Professeurs Christian Viard-Gaudin et Jean- Marc Ogier pour avoir tenu le rôle de rapporteur de ma thèse avec tout l’investissement que représente sa lecture et son annotation. Je remercie également le Professeur Patrick Lambert pour avoir participé à mon jury de thèse et M. Pierre-François Besson pour avoir été mon correspondant en entreprise. Je tiens à exprimer ma reconnaissance à la société SPIGRAPH d’avoir été si géné- reuse et accueillante durant toute ma thèse. Merci à toute l’équipe d’Aix en Provence particulièrement. Naturellement, j’exprime ma gratitude au Professeur Atilla Baskurt pour avoir dirigé ma thèse. Je suis très reconnaissante envers Frank Le Bourgeois pour ses conseils techniques, son encadrement et son aide inestimable. Je ne trouve pas les mots pour exprimer ma reconnaissance envers Yann Leydier pour toutes les connaissances que j’ai acquises grâce à lui et pour avoir suivi mes travaux durant toute leur progression. Enfin, mes pensées vont à toutes les personnes qui m’ont apporté leur soutien. Merci à Nabil Bizid, Jérôme Revaud, Jean Duong, à ma mère et mon père ainsi que toute ma famille et mes amis. Cette thèse est accessible à l'adresse : http://theses.insa-lyon.fr/publication/2012ISAL0044/these.pdf © [A. Ouji], [2012], INSA de Lyon, tous droits réservés À ma mère pour son amour et son soutien illimités Cette thèse est accessible à l'adresse : http://theses.insa-lyon.fr/publication/2012ISAL0044/these.pdf © [A. Ouji], [2012], INSA de Lyon, tous droits réservés Résumé Les travaux de cette thèse ont été effectués dans le cadre de l’analyse et du traitement d’images de documents imprimés afin d’automatiser la création de revues de presse. Les images en sortie du scanner sont traitées sans aucune information a priori ou in- tervention humaine. Ainsi, pour les caractériser, nous présentons un système d’analyse de documents composites couleur qui réalise une segmentation en zones colorimétrique- ment homogènes et qui adapte les algorithmes d’extraction de textes aux caractéristiques locales de chaque zone. Les informations colorimétriques et textuelles fournies par ce système alimentent une méthode de segmentation physique des pages de presse numérisée. Les blocs issus de cette décomposition font l’objet d’une classification permettant, entre autres, de détecter les zones publicitaires. Dans la continuité et l’expansion des travaux de classification effectués dans la première partie, nous présentons un nouveau moteur de classification et de classement générique, rapide et facile à utiliser. Cette approche se distingue de la grande majorité des méthodes existantes qui reposent sur des connaissances a priori sur les données et dépendent de paramètres abstraits et difficiles à déterminer par l’utilisateur. De la caractérisation colorimétrique au suivi des articles en passant par la détection des publicités, l’ensemble des approches présentées ont été combinées afin de mettre au point une application permettant la classification des documents de presse numérisée par le contenu. Mots clés : images scannées bruitées, analyse colorimétrique, segmentation physique, classification, classement. Cette thèse est accessible à l'adresse : http://theses.insa-lyon.fr/publication/2012ISAL0044/these.pdf © [A. Ouji], [2012], INSA de Lyon, tous droits réservés Abstract In this thesis, we deal with printed document images processing and analysis to auto- mate the press reviews. The scanner output images are processed without any prior knowledge nor human intervention. Thus, to characterize them, we present a scalable analysis system for complex documents. This characterization is based on a hybrid color segmentation suited to noisy document images. The color analysis customizes text extraction algorithms to fit the local image properties. The provided color and text information is used to perform layout segmentation in press images and to compute features on the resulting blocks. These elements are classified to detect advertisements. In the second part of this thesis, we deal with a more general purpose : clusternig and classification. We present a new clustering approach, named ACPP, which is completely automated, fast and easy to use. This approach’s main features are its independence of prior knowledge about the data and theoretical parameters that should be determined by the user. Color analysis, layout segmentation and the ACPP classification method are combined to create a complete processing chain for press images. Key words : noisy digitized document images, color analysis, layout segmentation, classification, clustering. Cette thèse est accessible à l'adresse : http://theses.insa-lyon.fr/publication/2012ISAL0044/these.pdf © [A. Ouji], [2012], INSA de Lyon, tous droits réservés Cette thèse est accessible à l'adresse : http://theses.insa-lyon.fr/publication/2012ISAL0044/these.pdf © [A. Ouji], [2012], INSA de Lyon, tous droits réservés Table des matières Introduction 1 1 Contexte de nos travaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1 Convention CIFRE . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Projet MediaBox . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2 Caractérisation des images en sortie du scanner . . . . . . . . . . . . . . . 3 3 Mise en adéquation de la chaîne de traitement vis à vis des images . . . . . 4 4 Traitement des images en couleurs . . . . . . . . . . . . . . . . . . . . . . . 4 5 Classification d’images et dans les images de document . . . . . . . . . . . 5 6 Organisation du mémoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 I Caractérisation colorimétrique 7 1 Introduction et motivations . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.1 Quel traitement pour quelle image ? . . . . . . . . . . . . . . uploads/Geographie/ these-pdf.pdf

  • 28
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager