MP3, AAC, OGG... Voyage au coeur de la compression audio destructive Un accrony
MP3, AAC, OGG... Voyage au coeur de la compression audio destructive Un accronyme (mé)connu de tous Publié le 10/04/15 à 14h00 par Benoît Campion (@Lino_kitsune) Entre vives critiques sur sa mauvaise qualité et nouvelles promesses de contenus de meilleure qualité, il devient difficile pour l'utilisateur de savoir ce qu'il peut réellement attendre de ce fameux "MP3". Pour éclaircir ce brouillard, nous vous proposons un point sur les différents formats audio compressés destructifs. Genèse de la compression de données audio Depuis l'avènement du numérique dans les années 80, les professionnels de l'audio travaillent avec des fichiers numériques bruts non compressés, qui se retrouvent sur les "Compact Discs" sous la forme d'un fichier audio stéréophonique. Le format de ce fichier audio, le PCM, porte l'extension .WAV sous Windows ou AIFF sous Mac OS et affiche une résolution de 16 bits ainsi qu'une fréquence d'échantillonnage de 44,1 kHz. Pour un fichier (stéréo) de 3 min 30 s, il suffit d'effectuer les opérations suivantes pour connaître sa taille et son débit : Il est évident qu'avec les débits Internet et les tailles phénoménales de stockage dont nous disposons aujourd'hui, les valeurs ci-dessus paraissent dérisoires. Cependant, à l'époque, elles présentaient un véritable enjeu : le problème principal était de pouvoir transférer et d'héberger ces fichiers avec des capacités de stockages, des bandes passantes ou des débits extrêmement réduits. Les données audio devaient donc être compressées afin de réduire la taille des fichiers... tout en conservant tant que faire se pouvait la qualité. C'est ainsi que naquirent les fameux formats compressés lossy (avec perte). // sas.render(24243); Object 1 Le fameux MP3, premier format de compression, s'imposa rapidement comme le format audio le plus populaire. Comme bon nombre d'innovations sonores, ce format provient d'un travail de recherche en communications, dont le but était d'alléger le poids des informations sonores transmisses en éliminant les fréquences jugées inutiles tout en préservant au maximum la qualité (ou tout du moins l'intelligibilité). En 1987, le centre de recherche allemand Fraunhofer Institut Integrierte Schaltungen continue ces recherches sous le projet EUREKA project EU147, Digital Audio Broadcasting (DAB) avec une équipe constituée de plusieurs chercheurs, dont Dieter Seitzer et Karlheinz Brandenburg. La chanson Tom's Diner de Suzanne Vega servit de test durant les premières recherches. Ryan McGuire, un étudiant de l'université de Virginie a d'ailleurs très récemment élaboré un projet qui vise à montrer les pertes engendrées par le MP3 en extrayant uniquement les informations perdues dans un fichier audio. Karlheinz Brandenburg, l'un des créateurs du MP3 Au fil de son avancée, l'algorithme est intégré en 1992 dans la norme du Moving Picture Expert Group (MPEG-1), suivi quelques mois plus tard de la première version du logiciel capable de convertir les fichiers MP3. Le MPEG-1 se développa et devint le MPEG-2 en 1994. Grâce aux joies d'Internet, le format et son encodage se trouvent piratés et utilisés en masse, et menacent en un temps record l'industrie du CD. En 1998, Fraunhofer réclame des droits quant à l'utilisation du MP3, mais cela n'empêche pas sa prolifération, notamment sur les sites dédiés aux artistes indépendants et des sites comme mp3.com. À gauche : le premier lecteur mp3 commercialisé, le Saehan's MPMan F10. À droite : le logo de Napster Et c'est l'effet boule de neige : arrivent ensuite les premiers lecteurs MP3 et les premiers sites et logiciels d'échange de fichiers comme Napster, avec des centaines de millions de fichiers disponibles, talonnés par tant d'autres. Le MP3 devient le vecteur incontournable du piratage de fichiers, propulsé par Internet. Son nom devient alors, par abus de langage, le seul représentant de tous les fichiers audio compressés et même des baladeurs numériques, que l'on appellera vulgairement "lecteurs MP3" ou même "MP3" tout court. Qu'est-ce que la compression audio destructive ? Mais qu'est-ce qu'un format compressé, au juste ? C'est un fichier issu d'une compression audionumérique des données qui engendre une suppression IRRÉVERSIBLE de certaines fréquences qui sont, en principe, très peu perceptibles par notre oreille. Ce format permet d'atteindre des taux de compression allant jusqu'à 30:1 et intègre plusieurs degrés de complexité en fonction du niveau de compression et du débit envisagé. Seuil de perception de l'audition humaine. Source : www.pfast.fr La compression audio par réduction de débit repose sur les caractéristiques de notre oreille : les défauts de l'audition humaine sont exploités pour créer des algorithmes permettant de supprimer les informations les moins perceptibles. Tout d'abord, rappelons que la plage des fréquences audibles, captées par nos cellules ciliées, s'étend de 20 Hz à 20 kHz à la naissance, puis s'amoindrit au fil des années. Cependant, l'oreille ne perçoit pas de manière linéaire (avec la même intensité) toutes les fréquences : pour une même pression acoustique, les médiums seront bien mieux perçus que les basses et les aigus, qui devront être boostés pour atteindre le même niveau d'intelligibilité. Beaucoup de formats profitent de cette perception moindre des fréquences extrêmes pour y déplacer les divers bruits (bruit propre, bruit de quantification...). Un autre phénomène psycho-acoustique très utilisé dans la compression de données est l'effet de masquage : chaque transitoire (pic d'amplitude) masque une certaine quantité d'informations sonores en aval, mais également en amont (pré-écho, post-écho). L'algorithme de compression détecte ces pics, applique un filtre acoustique et supprime les informations que l'oreille ne perçoit pas, informations jugées non pertinentes. On parle donc de codecs "perceptuels" : ils utilisent ainsi la perception auditive humaine et ses défauts pour optimiser leur poids, afin de faciliter transfert et stockage. Le Fraunhofer Institute à Schmallenberg Vous l'aurez deviné, c'est aux frontières de cette notion floue de "pertinence" qu'il y a débat. Si ces informations étaient entièrement inutiles, aucune différence de qualité ne se ressentirait, or nous rencontrons tous les jours des fichiers compressés qui offrent une différence de qualité absolument flagrante avec le fichier original. À l'inverse, nombre d'études en double aveugle prouvent que faire la différence entre un fichier non compressé et certaines de ses versions lossy est parfois extrêmement délicat. Il existe donc plusieurs compressions destructives, le résultat prenant plus ou moins en compte la qualité subjective de perception (que l'on ne peut correctement estimer qu'avec des enquêtes auprès d'échantillons d'auditeurs), le coût de production, les ressources de calcul, le débit numérique et les contraintes de diffusion. Codec ou contenant ? La confusion entre le codec et son extension n'est pas rare. Le codec, abréviation de codeur-décodeur, est le programme qui transforme le signal en fichier, et inversement. L'extension indique le conteneur qui encapsule le fichier, une fois celui-ci compressé. Prenons l'OGG Vorbis, par exemple : ici, le Vorbis, codec relativement récent né le 19 juillet 2002, est l'algorithme qui transforme le signal en fichier compressé, et inversement. L'OGG est le conteneur dans lequel ce fichier est encapsulé. Le codec Vorbis utilise la compression dite VBR (Variable BitRate, ou compression à débit variable), ce qui lui permet d'allouer plus d'informations à la conversion des passages complexes et à l'inverse, de ne pas octroyer d'informations inutiles à des passages plus pauvres. Ce débit variable s'oppose au CBR (Constant BitRate), technique plus simple dans laquelle le taux d'échantillonnage reste fixe quelle que soit la complexité du passage converti. Pour la petite histoire, ce codec doit son nom à un personnage de Terry Pratchett, le diacre Vorbis, dans Les Petits Dieux. L'extension est néanmoins liée au codec, certaines portant même un nom identique. C'est le cas du WMA et du MP3 bien sûr, qui ont eu plusieurs encodeurs tout au long de leur histoire (Professional et Voice pour le premier, LAME et Fraunhofer pour le second). Les codecs ont évolué au fil du temps, toujours dans le but d'affiner la qualité perceptuelle de l'encodage et d'optimiser le poids du fichier. Ainsi, certains codecs d'aujourd'hui à 128 kbits/s offrent une fidélité au morceau original jugée deux fois supérieure à celle des premiers MP3 à 320 kbits/s. Comparaison des codecs La théorie Il est bien tentant d'utiliser une courbe de réponse en fréquence pour comparer les différents formats de compression destructive, c'est un bien piètre indicateur de qualité perceptuelle. En effet, un codec peut choisir de réduire la précision des fréquences les plus élevés et les moins audibles, voire d'appliquer un coupe-haut aux alentours de 16 kHz, pour allouer une plus grande quantité de bits et donc offrir une précision accrue aux fréquences plus audibles. La courbe de réponse en fréquence peut donc être tronquée, mais la qualité améliorée. Considérons un autre outil d'analyse audio plus adapté : le spectrogramme. Cette mesure permet d'observer l'évolution de l'énergie en fonction des fréquences et du temps, et met ainsi en lumière certains défauts engendrés par la compression destructive. C'est un graphe à trois variables : la fréquence s'échelonne en ordonnée de 20 à 20 000 Hz, le temps évolue en abscisse et la puissance se lit en couleurs, de la plus froide à la plus chaude (ou du blanc au noir dans certaines représentations plus anciennes). Les castagnettes par exemple, source percussive riche, précise et rapide, trahissent particulièrement bien les problèmes d'encodage de transitoires, notamment les effets de uploads/S4/ mp3-aac-ogg-voyage-au-coeur-de-la-compression-audio-destructive-les-numeriques.pdf
Documents similaires










-
47
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Nov 14, 2022
- Catégorie Law / Droit
- Langue French
- Taille du fichier 0.1089MB