ARTICLE DANS LA PRESSE JID : PATREC [m5G;22 novembre 2021;13:7] Lettres de reco

ARTICLE DANS LA PRESSE JID : PATREC [m5G;22 novembre 2021;13:7] Lettres de reconnaissance de modèle xxx (xxxx) xxx Listes des contenus disponibles sur ScienceDirect Lettres de reconnaissance de modèle page d'accueil Journal: www.elsevier.com/locate/patrec Approche basée sur les transformateurs pour l'écriture manuscrite conjointe et la reconnaissance d'entités nommées dans un document historique Ahmed Cheikh Rouhou une,??, Marwa Dhiaf une,b,c, Yousri Kessentini b,c, Sinda Ben Salemune une InstaDeep, Tunis, Tunisie b Centre de Recherche Numérique de Sfax, Tunisie c SM@RTS : Laboratoire Signaux, Systèmes, Intelligence Artificielle et Réseaux, Sfax, Tunisie informations sur l'article abstrait Historique des articles : Reçu le 23 juin 2021 Révisé le 6 octobre 2021 Accepté le 7 novembre 2021 Disponible en ligne xxx L'extraction d'informations pertinentes effectuée par des entités nommées dans des documents manuscrits est toujours une tâche difficile. Contrairement aux approches traditionnelles d'extraction d'informations qui font généralement face à la transcription de texte et à la reconnaissance d'entités nommées en tant que tâches ultérieures distinctes, nous proposons dans cet article une approche basée sur un transformateur de bout en bout pour effectuer conjointement ces deux tâches. L'approche proposée opère au niveau du paragraphe, ce qui apporte deux avantages principaux. Premièrement, cela permet au modèle d'éviter les erreurs précoces irrécupérables dues à la segmentation des lignes. Deuxièmement, cela permet au modèle d'exploiter des informations contextuelles bidimensionnelles plus importantes pour identifier les catégories sémantiques, atteignant une précision de prédiction finale plus élevée. Nous explorons également différents scénarios d'entraînement pour montrer leur effet sur les performances et nous démontrons qu'une stratégie d'apprentissage en deux étapes peut permettre au modèle d'atteindre une précision de prédiction finale plus élevée. A notre connaissance, ce travail présente la première approche qui adopte les réseaux de transformateurs pour la reconnaissance d'entités nommées dans des documents manuscrits. Nous atteignons la nouvelle performance de pointe dans le concours d'extraction d'informations ICDAR 2017 en utilisant la base de données Esposalles, pour la tâche complète, même si la technique proposée n'utilise aucun dictionnaire, modélisation de langage ou post-traitement. Edité par Jiwen Lu Mots clés: Reconnaissance d'entité nommée Reconnaissance de bloc de texte Transformateur Concours IEDHH © 2021 Elsevier BV Tous droits réservés. 1. Introduction Dans la littérature, les méthodes NER traditionnelles sur les images de documents adoptent principalement deux étapes de traitement [2–5]. Les informations textuelles sont d'abord extraites via le processus HTR, puis les techniques de traitement du langage naturel (NLP) sont appliquées pour analyser le texte de sortie et extraire les balises d'entité nommées. Malgré les améliorations récentes des systèmes NLP basés sur l'apprentissage profond, les performances de ces approches en deux étapes reposent toujours sur la qualité de l'étape de traitement HTR. Généralement, les erreurs de l'étage HTR dues aux analyses de faible qualité, par exemple, affectent considérablement les performances des étages NLP. La deuxième catégorie vise à effectuer conjointement la transcription et la reconnaissance d'entités nommées à partir des images du document sans étape intermédiaire HTR [6–9]. La plupart des études de cette deuxième catégorie confirment l'intérêt d'exploiter la dépendance de ces paires de tâches avec un modèle commun unique. Dans[8] un seul réseau de neurones convolutifs (CNN) est utilisé pour classer directement les images de mots en différentes catégories en sautant l'étape de reconnaissance. Cependant, cette approche n'utilise pas le contexte entourant le mot à classer, ce qui peut être essentiel pour prédire correctement les balises d'entité nommées. Dans[9] un CNN est combiné à un réseau de mémoire à long court terme (LSTM) pour intégrer un contexte plus large, obtenant de meilleurs résultats par rapport à [8]. Pourtant, dans ce travail, le contexte est limité au niveau de la ligne, ce qui affecte l'extraction des balises d'entités nommées sémantiques. Pour intégrer un contexte bidimensionnel, les auteurs en[7] pro- Au cours des dernières décennies, les chercheurs ont exploré diverses techniques de reconnaissance de documents pour récupérer des informations textuelles à partir d'images. Dernièrement, les techniques de reconnaissance optique de caractères ont atteint une grande précision dans la récupération de textes à partir de documents modernes. Cependant, ils nécessitent un certain raffinement lors du traitement des documents historiques en raison de la qualité dégradée des images et de la complexité des anciens styles d'écriture. Bien que la reconnaissance de texte manuscrit (HTR) des images de documents historiques soit une bonne étape pour récupérer des informations textuelles [1], la communauté des chercheurs s'intéresse de plus en plus à l'extraction d'informations et à la compréhension des documents pour permettre un accès sémantique significatif aux informations contenues dans les collections de documents. Dans ce contexte, la reconnaissance d'entités nommées (NER) à partir d'images de documents est l'un des problèmes les plus difficiles et pratiques, qui consiste à transcrire des contenus textuels et à les classer en catégories sémantiques (noms, organisations, lieux, etc.). ?? Auteur correspondant. Adresse e-mail: a.cheikhrouhou@instadeep.com (AC Rouhou). https://doi.org/10.1016/j.patrec.2021.11.010 0167-8655/© 2021 Elsevier BV Tous droits réservés. Veuillez citer cet article comme suit : AC Rouhou, M. Dhiaf, Y. Kessentini et al., Approche basée sur le transformateur pour l'écriture manuscrite conjointe et l'entité nommée reconnaissance dans les documents historiques, lettres de reconnaissance de modèle, https://doi.org/10.1016/j.patrec.2021.11.010 Traduit de Anglais vers Français - www.onlinedoctranslator.com ARTICLE DANS LA PRESSE JID : PATREC [m5G;22 novembre 2021;13:7] AC Rouhou, M. Dhiaf, Y. Kessentini et al. Lettres de reconnaissance de modèle xxx (xxxx) xxx posent un modèle de bout en bout qui effectue conjointement la détection de texte manuscrit, la transcription et la reconnaissance d'entités nommées au niveau de la page, capable de bénéficier de fonctionnalités partagées pour ces tâches. Cette approche présente deux inconvénients principaux. Tout d'abord, il nécessite une annotation de cadre de délimitation de mot, ce qui représente une énorme économie dans l'application réelle. Deuxièmement, le modèle multitâche proposé peut avoir des performances limitées dans les cas où une tâche spécifique est beaucoup plus difficile et sans rapport avec les autres. Récemment, inspirées par leur succès dans de nombreuses applications NLP, les approches Sequence-to-Seq (Seq2Seq) utilisant des architectures d'encodeur-décodeur basées sur l'attention ont commencé à être appliquées avec succès pour HTR. [10,11]. La plupart de ces architectures combinent encore le mécanisme d'attention avec un réseau récurrent (BLSTM ou GRU) qui affecte sévèrement l'efficacité lors du traitement de séquences plus longues en imposant des limitations de mémoire substantielles. Récemment, des auteurs de[12] proposer une architecture inspirée des transformateurs, qui dispense de tout réseau récurrent pour le HTR des images textline. L'inconvénient majeur de cette méthode est que les erreurs de segmentation des lignes sont souvent irréversibles et vont donc affecter de manière significative les performances de reconnaissance. Pour la reconnaissance de documents historiques manuscrits, le processus de segmentation des lignes est une tâche compliquée par rapport aux documents modernes. Outre la complexité des textes manuscrits (espaces incohérents entre les lignes, caractères de lignes successives pouvant se superposer, etc.), les images de texte peuvent comporter des distorsions et des pixels bruités dus à la qualité de ces documents. De nombreuses études ont tenté d'améliorer la qualité de l'image du document avant la segmentation[13] ou pour améliorer la qualité de segmentation dans les documents historiques [14–16]. Cependant, dans la plupart des cas, la segmentation est appliquée comme étape de prétraitement avant la reconnaissance. Dernièrement, les chercheurs ont examiné la reconnaissance de blocs de texte au lieu de lignes de texte sans aucune étape de segmentation [17,18], suivant deux catégories d'approches. Dans la première catégorie, les images de blocs de texte sont transformées en représentation de lignes à l'aide de couches de convolution[19] ou mécanisme d'attention [18], afin d'effectuer le décodage de la classification temporelle connexionniste (CTC). Dans la deuxième approche, l'extraction de caractéristiques conserve la représentation 2D du bloc de texte, puis, le décodage est effectué en utilisant 2D-CTC[20] ou architecture Seq2Seq basée sur l'attention [17]. Pour autant que nous le sachions, il n'y a pas eu de travaux dans la littérature appliquant l'architecture de transformateur au niveau du paragraphe pour effectuer conjointement HTR et NER. Motivés par les observations ci-dessus, nous proposons dans cet article une approche basée sur des transformateurs de bout en bout pour effectuer conjointement l'écriture manuscrite de paragraphes complets et la reconnaissance d'entités nommées dans des documents historiques. A notre connaissance, il s'agit de la première étude portant sur l'architecture du transformateur[21] pour une telle tâche. L'objectif est de dépasser les problèmes de segmentation de ligne, ainsi que de permettre au modèle d'exploiter des informations contextuelles bidimensionnelles plus larges pour identifier les balises sémantiques NE. Pour cela, notre première contribution consiste à adapter l'architecture du transformateur pour traiter la représentation 2D du bloc de texte d'entrée. Pour ce faire, les cartes de caractéristiques 2D obtenues par l'architecture ResNet sont transformées en caractéristiques séquentielles 1D à l'aide d'opérations d'aplatissement. Afin d'ajouter des informations de position, nous avons testé deux méthodes d'encodage positionnel (PE) : le PE basé sur 2D qui est effectué sur les cartes de caractéristiques 2D et le PE 1D appliqué à la séquence de caractéristiques 1D. La deuxième contribution de cet article consiste à explorer différents scénarios de formation, y compris l'apprentissage en deux étapes, l'apprentissage à données mixtes et l'apprentissage du curriculum pour montrer leur uploads/Management/ article-1.pdf

  • 24
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Jui 29, 2021
  • Catégorie Management
  • Langue French
  • Taille du fichier 1.2677MB