Vol.: (0123456789) SN Sciences Appliquées (2020) 2: 152 | https://doi.org/10.10

Vol.: (0123456789) SN Sciences Appliquées (2020) 2: 152 | https://doi.org/10.1007/s42452-019-1914-1 article de recherche Ensemble de données Pioneer et reconnaissance automatique des caractères manuscrits en ourdou à l'aide d'un auto-encodeur profond et d'un réseau neuronal convolutif Hazrat Ali 1 · Ahsan Ullah 1 · Talha Iqbal 2 · Shahid Khattak 1 Reçu le 24 août 2019 / Accepté le 13 décembre 2019 © Springer Nature Switzerland AG 2020 Abstrait La reconnaissance automatique des chiffres et des caractères manuscrits en ourdou est une tâche difficile. Il a des applications dans la lecture d'adresses postales, le traitement des chèques bancaires, la numérisation et la conservation des manuscrits manuscrits de la vieillesse. S'il existe un travail important pour la reconnaissance automatique des caractères anglais manuscrits et d'autres langues majeures du monde, le travail effectué pour la langue ourdou est extrêmement insuffisant. Ce papier a deux buts. Tout d'abord, nous introduisons un ensemble de données pionnier pour les chiffres et les caractères manuscrits de l'ourdou, contenant des échantillons de plus de 900 personnes. Deuxièmement, nous rapportons les résultats de la reconnaissance automatique des chiffres et des caractères manuscrits obtenus en utilisant un réseau d'auto-encodeur profond et un réseau de neurones convolutifs. Plus précisement, nous utilisons un réseau d'autoencodeur profond à deux et trois couches et un réseau de neurones convolutifs et évaluons les deux cadres en termes de précision de reconnaissance. Le cadre proposé du codeur automatique profond peut reconnaître avec succès les chiffres et les caractères avec une précision de 97% pour les chiffres uniquement, 81% pour les caractères uniquement et 82% pour les chiffres et les caractères simultanément. En comparaison, le cadre du réseau de neurones convolutifs a une précision de 96,7% pour les chiffres uniquement, de 86,5% pour les caractères uniquement et de 82,7% pour les chiffres et les caractères simultanément. Ces cadres peuvent servir de base pour de futures recherches sur le texte manuscrit en ourdou. Le cadre proposé du codeur automatique profond peut reconnaître avec succès les chiffres et les caractères avec une précision de 97% pour les chiffres uniquement, 81% pour les caractères uniquement et 82% pour les chiffres et les caractères simultanément. En comparaison, le cadre du réseau de neurones convolutifs a une précision de 96,7% pour les chiffres uniquement, de 86,5% pour les caractères uniquement et de 82,7% pour les chiffres et les caractères simultanément. Ces cadres peuvent servir de base pour de futures recherches sur le texte m Mots clés Autoencoder · Réseau neuronal convolutif · Ourdou · Reconnaissance de texte 1. Introduction La reconnaissance de texte manuscrit est une tâche intéressante en raison de ses formidables applications telles que la conversion de documents manuscrits en un format numérique, la lecture automatique des numéros de maison, la lecture d'adresses postales et la robotique [ 1 - 5 ]. Contrairement à un texte typique dans une seule police, la reconnaissance de texte manuscrit est difficile en raison du fait que les styles d'écriture varient d'une personne à l'autre. La langue ourdou revêt une importance extrême en tant que l'une des plus grandes langues du monde et la langue nationale du Pakistan. Le texte ourdou partage des similitudes avec l'arabe et texte persan. Ce travail présente un cadre pour la reconnaissance automatique des lettres manuscrites en ourdou. La tâche est moins explorée pour l'ourdou. L'une des principales raisons pour lesquelles il n'y avait pas de jeu de données disponible pour le texte manuscrit en ourdou. Pour résoudre ce problème, nous introduisons un nouvel ensemble de données de chiffres et de caractères manuscrits en ourdou. La motivation vient du fait qu'il n'existe pas de jeu de données standard de texte manuscrit en ourdou, ce qui peut servir de base pour les travaux de recherche. L'ourdou est l'une des plus grandes langues du monde, étant la première langue de plus de 60 millions de personnes (et plus de 329 millions de personnes si elle est combinée à l'hindi, car les deux langues sont largement les mêmes sous forme parlée). * Hazrat Ali, hazratali@cuiatd.edu.pk ; Ahsan Ullah, engr.ahsan86@gmail.com ; Talha Iqbal, t.iqbal1@nulgalway.ie ; Shahid Khattak, skhattak@cuiatd.edu.pk | 1 Département de génie électrique et informatique, Université COMSATS d'Islamabad, campus d'Abbottabad, Abbottabad, Pakistan. 2 Institut Lambe de recherche translationnelle, Université nationale d'Irlande, Galway, Irlande. Vol:. (1234567890) article de recherche SN Sciences Appliquées (2020) 2: 152 | https://doi.org/10.1007/s42452-019-1914-1 Malheureusement, il semble y avoir très peu ou pas de travail sur le traitement de la langue ourdou, principalement en raison de l'indisponibilité des ressources linguistiques. En outre, un ensemble de données standard aiderait la communauté de recherche car contrairement à l'anglais et à de nombreuses autres langues, la reconnaissance de texte en ourdou est plus difficile en raison de la présence de signes diacritiques. On trouve des signes diacritiques similaires (mais pas les mêmes) dans les langues arabe et persane, et par conséquent, tout développement de recherche sur la reconnaissance de texte en ourdou faciliterait éventuellement les progrès des travaux de recherche sur la reconnaissance de texte manuscrit de plusieurs langues. Bien qu'il y ait eu le jeu de données UCOM [ 6 ] rapporté pour le texte ourdou, plusieurs différences existent entre le jeu de données UCOM et notre jeu de données. Tout d'abord, l'ensemble de données hors ligne UCOM a été développé pour le texte continu de l'ourdou. Notre ensemble de données concerne les caractères isolés du texte écrit à la main en ourdou. Deuxièmement, l'ensemble de données UCOM, tel que décrit par les auteurs dans [ 6 ], contient du texte pour 600 pages de texte ourdou et le nombre d'individus différents qui ont écrit le texte est limité à 100, tandis que notre ensemble de données contient du texte de 900 personnes. Troisièmement, l'ensemble de données UCOM contient du texte dans le style Nasta'liq uniquement tandis que notre ensemble de données contient des échantillons manuscrits dans différents styles et variations, couvrant ainsi une gamme plus diversifiée de styles d'écriture (police). Les algorithmes d'apprentissage profond (une sous-branche de l'apprentissage automatique) sont populaires pour la reconnaissance automatique des chiffres et des caractères de différentes langues. Les réseaux profonds peuvent être formés de manière supervisée exigeant des étiquettes, ou de manière non supervisée sans exigences d'étiquettes [ 7 - 9 ]. Dans ce travail, nous utilisons un réseau d'autoencoder et un réseau de neurones convolutifs (CNN) formés avec 85% d'une partie de l'ensemble de données et testés avec les 15% restants des données. De plus, ces modèles sont évalués pour une configuration avec deux couches cachées et trois couches cachées. Le reste de l'article est organisé comme suit. Section 2 fournit une revue de la littérature sur les travaux existants effectués pour la reconnaissance de texte en ourdou. Dans la secte. 3 , nous décrivons le jeu de données développé, la source des données, les étapes de prétraitement et de segmentation. Nous décrivons l'utilisation d'un réseau d'autoencoder profond et CNN dans Sect. 4 . Les résultats sont présentés dans la section. 5 et enfin; l'article est conclu dans la section. 6 . 2 Revue de la littérature Pour la reconnaissance de caractères, des techniques d'apprentissage automatique telles que le réseau neuronal profond et CNN ont été utilisées. Arnold et al., Ont utilisé des réseaux de neurones pour la reconnaissance de caractères [ dix ]. De même dans [ 11 , 12 ], CNN a été utilisé pour la reconnaissance des caractères chinois. Un auto-encodeur de débruitage empilé a été utilisé dans [ 13 ] pour la reconnaissance des caractères ourdou hors ligne. Cependant, le travail de [ 13 ] est limité à reconnaissance optique des caractères des polices Nastaliq uniquement. Hussain et al., Ont proposé un système OCR hors ligne pour ne reconnaître que huit caractères manuscrits arabes avec un taux de précision de 77,25% [ 14 ]. Le cadre proposé par Elenwar et al. [ 15 ] utilisait une base de données de caractères arabes contenant 1814 caractères pour la formation et 435 caractères pour les tests. La base de données utilisée dans [ 16 ] est préparé par seulement quatre auteurs, ce qui conduit à une faible généralisation. Une base de données pour les caractères arabes est présentée dans [ 17 ] dans lequel les auteurs ont effectué des étapes de prétraitement pour éviter le bruit dans la base de données imprimée. Une autre base de données pour les caractères arabes comprend 28 000 caractères de langue arabe écrits par 100 écrivains différents [ 18 ]. Un travail similaire a été rapporté par [ 18 ] car ils visent la reconnaissance en ligne de caractères ourdou collectés auprès de 100 écrivains pour la reconnaissance de sept caractères seulement. Cette revue montre que la plupart des travaux effectués dans le domaine de la reconnaissance des caractères en ourdou concernent de petits ensembles de données et une capacité de généralisation très limitée. Certains progrès de la reconnaissance des scripts en ourdou sont également présentés dans [ 17 , 18 ], mais ceux-ci sont pour le texte imprimé (généralement populaire avec les applications OCR) pendant que nous développons un algorithme pour la reconnaissance de texte uploads/Ingenierie_Lourd/ article-2-ar.pdf

  • 12
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager