Compression - codage La transmission et le stockage des données coûtent de l'ar

Compression - codage La transmission et le stockage des données coûtent de l'argent. Plus il y a des données traitées, plus les couts sont élevés. Malgré cela, la plupart des données numériques ne sont pas stockées sous la forme la plus compacte. Plutôt, elles sont stockées de la manière qui les rend plus faciles à utiliser, tels que: texte ASCII provenant de traitements de texte, code binaire exécutable sur ordinateur, échantillons individuels issus d'un système d’acquisition de données, etc. En règle générale, ces méthodes de codage faciles à utiliser nécessitent des fichiers de données environ deux fois plus volumineux que nécessaire pour représenter l’information. La compression de données est le terme général pour les divers algorithmes et programmes développés pour résoudre ce problème. Un programme de compression est utilisé pour convertir des données d'un format facile à utiliser en un format optimisé pour la compacité. De même, un programme de décompression renvoie les informations dans leur forme d'origine. Supposons que nous ayons besoin de télécharger une photographie couleur numérisée via un modem 33,6 kbps d'un ordinateur. Si l'image n'est pas compressée (un fichier TIFF, par exemple), il contiendra environ 600 ko de données. Si elle a été compressée à l'aide d'une technique sans perte (telle que celle utilisée dans le format GIF), ce sera environ la moitié de cette taille, soit 300 ko. Si la compression avec perte été utilisée (un fichier JPEG), ce sera environ 50 ko. Le point est que les durées de téléchargement de ces trois fichiers sont de 142 secondes, 71 secondes et 12 secondes respectivement. La compression de données ou codage de source est l'opération informatique consistant à transformer une suite de bits A en une suite de bits B plus courte pouvant restituer les mêmes informations, ou des informations voisines, en utilisant un algorithme de décompression. C'est une opération de codage, c'est-à-dire changer la représentation de l'information, dans l'objectif de rendre la représentation compressée plus courte que la représentation originale. La décompression est l'opération inverse de la compression. Avec un algorithme de compression sans perte, la suite de bits obtenue après les opérations de compression et de décompression est strictement semblable à l'originale. Les algorithmes de compression sans perte sont utilisés pour de nombreux types de données surtout des documents, des fichiers exécutables ou des fichiers texte. Avec un algorithme de compression avec pertes, la suite de bits obtenue après les opérations de compression et de décompression est différente de l'originale, mais l'information reste sensiblement la même. Les algorithmes de compression avec perte sont utilisés pour les images, le son et la vidéo. Les formats de données tels que Zip, RAR, Gzip, ADPCM, MP3 et JPEG utilisent des algorithmes de compression de données. La théorie de la compression de donnée est issue de la théorie de l'information. Compression sans perte La compression est dite sans perte quand il n'y a aucune perte de données sur l'information d'origine. Il y a tout autant d'information après la compression qu'avant, elle est uniquement réécrite d'une manière plus concise (c'est par exemple le cas de la compression gzip pour n'importe quel type de données ou du format PNG pour des images synthétiques destinées au Web[1]). La compression sans perte est dite aussi compactage. L'information à compresser est vue comme la sortie d'une source de symboles qui produit des textes finis selon certaines règles. L'objectif est de diminuer la taille moyenne des textes obtenus après la compression tout en ayant la possibilité de retrouver précisément le message d'origine ; on trouve aussi l'expression codage de source (qui réduit la redondance) par opposition au codage de canal (qui se préoccupe de la fiabilité : codage correcteur d'erreurs). Il n'existe pas de technique de compression de données sans perte universelle, qui pourrait compresser n'importe quel fichier : si une technique sans perte compresse au moins un fichier, alors elle en «grossit» aussi au moins un. Les formats de fichier de compression sans perte sont connus grâce à l'extension ajoutée à la fin du nom de fichier («nomdefichier.zip» par exemple), d'où leur appellation particulièrement abrégée. Les formats les plus courants sont :  7z  ace  arc  arj  bz, bz2 (tar est parfois utilisé pour créer les archives de ce type)  CAB, utilisé par Microsoft  gzip, gz (qui est un fichier à une seule entrée, tar est parfois utilisé pour créer les archives de ce type)  lzh  rar  uha  Z (en particulier sous Unix)  Zip  zoo  FLAC (pour les flux audio) Les standards ouverts les plus courants sont décrits dans plusieurs RFC :  RFC 1950 (ZLIB, flux de données compressées)  RFC 1951 (système de compression par blocs «Deflate», utilisé par Zip et gz)  RFC 1952 (format de fichier compressé gzip) Compression avec pertes La compression avec pertes ne s'applique qu'aux données «perceptibles», généralement sonores ou visuelles, qui peuvent subir une modification, quelquefois importante, sans que cela ne soit perceptible par un humain. La perte d'information est irréversible, il est impossible de retrouver les données d'origine après une telle compression. La compression avec perte est pour cela quelquefois nommée compression irréversible ou non conservative. Le schéma général de compression/décompression avec perte est présenté à la figure suivante Schéma général de compression / décompression Le signal d'origine subit une transformation (TF, TC, TO…) via un opérateur mathématique. Les coefficients obtenus sont quantifiés pour réduire sensiblement le nombre de bits à coder. Pour la reconstruction, le signal est traité par un décodeur, une quantification inverse et une transformation inverse. Les divers standards de compression se différencient par la transformation, le balayage des coefficients (zigzag), la quantification ou le codage utilisés. Cette technique est fondée sur une idée simple : seul un sous-ensemble particulièrement faible de l'ensemble des images envisageables (à savoir celles qu'on obtiendrait par exemple en tirant les valeurs de chaque pixel par un générateur aléatoire) possède un caractère exploitable et informatif pour l'œil. Ce sont par conséquent ces images-là qu'on va s'attacher à coder de façon courte. Dans la pratique, l'œil a besoin pour identifier des zones qu'il existe des corrélations entre pixels voisins, c'est-à-dire qu'il existe des zones contiguës de couleurs voisines. Les programmes de compression s'attachent à découvrir ces zones ainsi qu'à les coder de la façon aussi compacte que envisageable. La norme JPEG 2000, par exemple, arrive le plus souvent à coder des images photographiques sur 1 bit par pixel sans perte visible de qualité sur un écran, soit une compression d'un facteur 24 à 1. Puisque l'œil ne perçoit pas obligatoirement l'ensemble des détails d'une image, il est envisageable de diminuer la quantité de données de telle sorte que le résultat soit particulièrement ressemblant à l'original, ou alors semblable, pour l'œil humain. La problématique de la compression avec pertes est d'identifier les transformations de l'image ou du son qui permettent de diminuer la quantité de données tout en préservant la qualité perceptible. De même, seul un sous-ensemble particulièrement faible de sons envisageables est exploitable par l'oreille, qui a besoin de régularités générant elles-mêmes une redondance (coder avec fidélité un bruit de souffle n'aurait pas grand intérêt). Un codage éliminant cette redondance et la restituant à l'arrivée reste par conséquent acceptable, même si le son restitué n'est pas en tout point semblable au son d'origine. On peut distinguer trois grandes familles de compression avec perte : Signal reconstruit Inverse transformation Inverse quantification Décodage Signal original Transformation Quantification Codage  par prédiction, par exemple l'ADPCM ;  par transformation. Ce sont les méthodes les plus efficaces et les plus utilisées. (JPEG, JPEG 2000, la totalité des normes MPEG…) ;  compression basée sur la récurrence fractale de motifs (Compression fractale). Les formats MPEG sont des formats de compression avec pertes pour les séquences vidéos. Ils incluent à ce titre des codeurs audio, comme les célèbres MP3 ou AAC, qui peuvent idéalement être utilisés indépendamment, et évidemment des codeurs vidéos — le plus souvent simplement référencés par la norme dont ils dépendent (MPEG-2, MPEG-4), mais aussi des solutions pour la synchronisation des flux audio et vidéo, et pour leur transport sur différents types de réseaux. Compression sans perte Parmi les algorithmes de compression presque sans perte, on retrouve la majorité des algorithmes de compression sans perte spécifiques à un type de données spécifique. A titre d'exemple, JPEG-LS sert à compresser presque sans perte du Windows bitmap et Monkey's Audio sert à compresser sans perte les données audio du wave PCM : il n'y a pas de perte de qualité, l'image et le morceau de musique sont précisément ceux d'origine. Les algorithmes tels que Lempel-Ziv ou le codage RLE consistent à remplacer des suites de bits utilisées plusieurs fois dans un même fichier. Dans l'algorithme de codage de Huffman plus la suite de bits est utilisée fréquemment, plus la suite qui la remplacera sera courte. Les algorithmes tels que la transformée de Burrows-Wheeler sont utilisés avec un algorithme de compression. De tels algorithmes modifient l'ordre des bits de façon à augmenter l'efficacité de l'algorithme de compression, mais sans uploads/S4/ compression-codage-mars-2021.pdf

  • 39
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Mar 28, 2022
  • Catégorie Law / Droit
  • Langue French
  • Taille du fichier 1.2858MB