Règles de Transcription en Français Mises à jour du 07/07/2021 : (marquées en j
Règles de Transcription en Français Mises à jour du 07/07/2021 : (marquées en jaune) - 3.1. : ajout d’une ligne dédiée aux « voix non-humaines » - 3.2.f. : ajout de la règle sur le rejet des audios contenant seulement des mots modaux et ajout de Terms Alignment - 3.3.f. : changement des exemples en anglais vers le français et ajout de clarifications sur comment traiter les cas qui ne sont pas sur la liste et ceux en anglais/langues étrangères - 3.3.n : clarification de la règle concernant les voix générées par ordinateur pour n’inclure que celles de l’Assistant Google et Siri. - 3.3.q. : changement de la règle sur les mots épelés, de minuscules en majuscules Sommaire 1. Introduction à l’utilisation de la Plateforme......................................................................................................3 Explication................................................................................................................................................................3 Raccourcis clavier :...................................................................................................................................................3 2. Etapes du travail...............................................................................................................................................4 3. Directives pour l’annotation.............................................................................................................................4 3.1 Discard:..........................................................................................................................................................4 3.2 Segmentation :..............................................................................................................................................4 a) Lorsque vous coupez l’audio, ne pensez pas à la complétude de la phrase.......................................................4 b) Une partie de la zone grise n'est pas claire :.....................................................................................................4 c) Une partie de la zone grise se chevauche (2 ou plusieurs locuteurs parlent simultanément)............................4 • Garder et transcrire :.........................................................................................................................................4 d) Une partie de la zone grise est de la musique, des mélodies, des chansons, des sons d'animaux ou des sons de la nature :.....................................................................................................................................................5 • Couper :............................................................................................................................................................5 • Garder et Transcrire:.........................................................................................................................................5 e) Pause/bruit au début, au milieu et à la fin du clip audio :.................................................................................5 f) Mots modaux :..................................................................................................................................................5 g) Anglais dans l’audio :........................................................................................................................................5 h) Dialectes (mots provenant d’autres langues locales) et Langues Etrangères : il n’est pas nécessaire de les transcrire..........................................................................................................................................................6 3.3 Règles générales de transcription.....................................................................................................................6 a) Des espaces sont nécessaires entre chaque mot. Ne jamais aller à la ligne ou sauter de ligne..........................6 b) L'audio final segmenté doit contenir au moins deux mots (≥ 2). Note : un mot composé est considéré comme un seul mot même avec un trait d'union. Ex : « sourde-muette », « excusez-moi », « arc-en-ciel » sont considérés comme un seul mot.........................................................................................................................6 c) Les chiffres arabes doivent être écrits en toutes lettres. Par exemple : 1--> un................................................6 • Puisque nous ne pouvons pas utiliser de ponctuation dans le texte, nous vous recommandons de ne pas transcrire les noms d'utilisateur........................................................................................................................6 e) Les mots et les phrases répétés doivent être transcrits en respectant le nombre de fois qu'ils sont répétés....7 f) Abréviation :.....................................................................................................................................................7 g) Majuscules........................................................................................................................................................7 • Les noms propres doivent prendre la majuscule. Lieu (nom de ville, nom de rue), nom de personne, marque, zodiaque, etc....................................................................................................................................................7 h) Mots informels ou mots sans prononciation standard......................................................................................7 i) Mots prononcés à moitié :................................................................................................................................7 j) Homophones :..................................................................................................................................................8 k) Forme simplifiée/ langage oral :.......................................................................................................................8 l) Accents locaux :................................................................................................................................................8 m) Mauvais langage, mots abusifs :.......................................................................................................................8 o) Les poèmes doivent être transcrits normalement.............................................................................................8 q) Mots épelés :....................................................................................................................................................8 3.4 Mots spéciaux...................................................................................................................................................8 1. Introduction à l’utilisation de la Plateforme Couper une section contenant une parole humaine claire de l’audio et transcrire l’audio correspondant en texte. Explication • Partie grise : le morceau d'audio intercepté par défaut, nous pouvons SEULEMENT corriger la partie grise. • Partie bleue : votre segment, vous devez le transcrire. • Partie blanche : l'audio situé avant et après la partie grise, pas besoin de la transcrire ni de la segmenter ; mais vous pouvez écouter cette partie pour obtenir le contexte de la partie grise. • Catégories de l’audio : ○ Speech – parole humaine claire ○ Discard - l'audio ne répond pas aux exigences de la parole ASR. • Zone de texte : où le texte est saisi. • Vidéo : cette partie n’est pas utilisée dans ce projet. Raccourcis clavier : 1 - continuer à lire là où vous vous êtes arrêté. 2 - pause. 3 - lire l’entièreté de l'audio. 5 - lecture de l'audio sélectionné par défaut (partie grise) a - lecture de la coupe (coupe actuelle - partie bleue) s - début de la coupe. e - fin de la coupe. 2. Etapes du travail • Étape 1. Écoutez l'audio coupé par défaut (partie grise). • Étape 2. Sélectionnez la catégorie audio (speech ou discard) • Étape 3-1. Si vous choisissez la classification « discard », soumettez cette tâche directement en cliquant sur « Submit ». Il n'est pas nécessaire de modifier le texte. • Étape 3-2. Si vous choisissez la catégorie « speech », vous devez déterminer s'il faut segmenter l'audio ou non. Et enfin, transcrire l'audio. 3. Directives pour l’annotation 3.1 Discard: • L’entièreté de l'audio n'est pas en français. • L’entièreté de l'audio est constituée de paroles pas claires ou inaudibles. • L’entièreté de l'audio est une chanson avec des paroles en arrière-plan, inclut également les mélodies, les sons d'animaux et les sons de la nature. • L’entièreté de l'audio est une voix non-humaine, autre que celles provenant de l’Assistant Google et Siri. • Si l’audio n’est constitué que d’un seul mot français, il doit être rejeté (les mots composés sont considérés comme un seul mot, par exemple "sourd-muet"). • L’entièreté de l’audio est constituée de mots modaux et d’onomatopées. • L’entièreté de l'audio est constitué de dialectes d'autres provinces. Note : Si vous sélectionnez « discard », il n'est pas nécessaire de transcrire, cliquez simplement sur « Submit » et passez à l'audio suivant. 3.2 Segmentation : a) Lorsque vous coupez l’audio, ne pensez pas à la complétude de la phrase. b) Une partie de la zone grise n'est pas claire : • Un segment doit toujours commencer et terminer par des mots clairs, si la partie antérieure ou ultérieure n’est pas claire, vous devez la couper. • Si ce n'est pas clair au milieu d'une parole, veuillez couper l'un ou l'autre côté. Par exemple : « Parole claire 1 + pas clair + Parole claire 2 » -- nous conservons soit « Parole claire 1 » soit « Parole claire 2 » pour ce segment. Ne transcrivez pas les deux. Mais attention : Si la partie pas claire affecte le contenu, coupez-la, gardez le reste et transcrivez. Si la partie pas claire n’affecte pas le contenu, ignorez-la et transcrivez l’entièreté de l’audio. c) Une partie de la zone grise se chevauche (2 ou plusieurs locuteurs parlent simultanément) • Rejeter : l’entièreté de l’audio se chevauche, nous ne pouvons distinguer aucune parole. • Couper : les locuteurs parlent de différentes choses simultanément, et nous ne pouvons PAS en définir le contenu - veuillez couper cette partie et transcrire la partie claire ; • Garder et transcrire : les locuteurs disent les mêmes mots simultanément et ils sont clairs, vous devez garder cette partie et la transcrire ; ne parlent pas en même temps, l'audio doit être considéré comme un cas de locution normale et le transcrire; Il y a une voix principale dans une conversation de groupe, les autres sont faibles ou vagues, et la parole du locuteur principal n'est pas affectée par les autres. Il faut donc transcrire la voix principale, et considérer les autres comme des sons de fond ou du bruit. d) Une partie de la zone grise est de la musique, des mélodies, des chansons, des sons d'animaux ou des sons de la nature : • Discard : Si l'entièreté de l'audio est une chanson, comme de la musique, des mélodies, le son d'un animal ou de la nature, etc. rejetez cet audio. si le locuteur chante une chanson qui suit des mélodies - rejetez cet audio. • Couper : Si le son de fond est une chanson avec des paroles, coupez cette partie et gardez la partie claire contenant la voix humaine ou rejetez l'audio entier s'il est difficile de couper l'audio. ***MAIS, si le fond sonore n'affecte pas la clarté du discours du locuteur, transcrivez son discours et ignorez le bruit de fond. • Garder et Transcrire: Si le fond sonore est constitué de mélodies sans paroles et que la parole du locuteur est claire, gardez-le et transcrivez l'ensemble de l'audio. Si le locuteur chante une chanson sans mélodie - transcrivez. e) Pause/bruit au début, au milieu et à la fin du clip audio : • Si le bruit affecte le contenu, coupez-le, gardez l'audio français et transcrivez. Si le bruit n'affecte pas le contenu, l'ignorer, et transcrire l'intégralité de l'audio. ※ Par exemple : « parole 1 + pause/bruit (n'affectant pas le contenu) + parole 2 ». Transcrivez la parole 1 + la parole 2. ※ Par exemple : « parole 1 + pause/bruit (affectant le contenu) + parole 2 » --- « parole 1 » et « parole 2 » sont tous deux acceptés pour le segment. Mais ne transcrivez pas les deux. f) Mots modaux : • Sélectionnez « Discard » si l’entièreté de l’audio est composé de mots modaux et d’onomatopées. • Le discours sélectionné doit commencer par (et se terminer par) au maximum 2 mots modaux. ※ Exemple : le locuteur rit (environ 10 « ha ») au début du discours, il faut seulement en conserver une fraction (2 « ha ha ») et couper le reste. • Si vous pouvez compter clairement uploads/s3/ french-transcription-guidelines-fr-0707-keep-confidential.pdf
Documents similaires
-
11
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Oct 21, 2021
- Catégorie Creative Arts / Ar...
- Langue French
- Taille du fichier 0.2313MB