Le plan de gestion de données : contexte, enjeux et structure Toulouse, 19 mai

Le plan de gestion de données : contexte, enjeux et structure Toulouse, 19 mai 2017 Magalie MOYSAN, Bureau des archives, Université Paris Diderot Nathalie REYMONET, Direction d’Appui à la Recherche, Université Paris Diderot En collaboration avec Aurore CARTIER, et Renaud DELEMONTEZ, Service Commun de Documentation, Université Paris Descartes QU’EST CE QUE LE DATA MANAGEMENT ? BIG DATA RESEARCH DATA OPEN DATA OPEN RESEARCH DATA BIG DATA Ensembles de données qui deviennent tellement volumineux qu'ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données ou de gestion de l'information. Mise en place de nouveaux outils, méthodes et applications de gestion, traitement, analyse, visualisation et conservation des données : Big Analitics, calcul distribué, supercalculateurs, cloud-computing etc. Exemples de projets concernés :  séquençage haut débit  observatoire virtuel en astronomie  simulation en physique et énergie  imagerie médicale  données environnementales biotiques /abiotiques  données économiques (e-commerce, systèmes décisionnels)  données sociales (réseaux sociaux, bibliothèques numériques, patrimoines culturels) Open data, open research data, big data OPEN DATA Mouvement et philosophie d'accès à l'information et pratique de publication de données librement accessibles et exploitables. Considère l'information publique comme un bien commun dont la diffusion est d'intérêt public et général : enjeux démocratiques, politiques et économiques. En Europe et dans certains pays, des directives et lois imposent aux collectivités de publier certaines données publiques sous forme numérique. •Directive 2003/98/CE •Ordonnance n°2005-650 du 6 juin 2005 •Directive 2013/37/UE RESEARCH DATA Enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider des résultats de recherche. Définition de l’OCDE Définition de la donnée de recherche « Les données, ou unités d’information, qui sont créées au cours d’une recherche, subventionnée ou non, et qui sont organisées ou formatées de telle sorte qu’elles soient communicables, interprétables et adaptées à un traitement souvent informatisé ». Université de Bristol « Les données de la recherche sont des enregistrements factuels (chiffres, textes, images et sons) utilisés comme sources principales pour la recherche scientifique et généralement reconnus par la communauté scientifique comme nécessaires à la validation des résultats de recherche » Organisation de Coopération et de Développement Économiques (OCDE) « Les données de la recherche sont l’ensemble des informations et matériaux produits et reçus par des équipes de recherche et des chercheurs. Elles sont collectées et documentées à des fins de recherche scientifique. A ce titre, elles constituent une partie des archives de la recherche. » Association des archivistes français. Section « Aurore » « 1) the data, including associated metadata (i.e. the metadata describing the research data deposited), needed to validate the results presented in scientific publications ; 2) other data (i.e. curated data not directly attributable to a publication, or raw data), including associated metadata.» Commission européenne pour Horizon 2020 « Les données de la recherche sont un ensemble d’informations factuelles enregistrées sur des supports, produites ou collectées, selon divers procédés au cours d’un processus de recherche » Définition du groupe de travail P5/P7 POURQUOI GÉRER LES DONNÉES DE LA RECHERCHE ? Données exploitées pour l’élaboration des résultats Données analysées, agrégées, compilées, transformées Données primaires produites ou collectées au cours de la recherche INVISIBLES VISIBLES Améliorer la visibilité des résultats Données intégrées à titre d’illustrations ou de résultats dans une publication papier ou en ligne. Perte d’information importante au cours du processus de publication INVISIBLES Enjeux du partage des données Nouvelles sources pour la recherche Economies dans les coûts de production Valoriser la production scientifique de l’établissement Fiabiliser les résultats de recherche anticiper les besoins de gestion, protection et partage Mieux diffuser les résultats Conditions de production non reproductibles Fouille de données data mining Gestion, partage et archivage des données Gestion des données Data management Partage des données Open data Données en appui des publications ou OK pour diffusion. Autres données produites au cours du projet. Pas de diffusion. Archivage Long term preservation Mise en place d'architectures, de réglementations, de pratiques et de procédures pour gérer correctement les besoins de la recherche sur tout au long du cycle de vie des données Diffusion de manière structurée selon une méthode et une licence ouverte des données pour leur libre accès et leur réutilisation par tous, sans restriction technique, juridique ou financière Conservation à long terme des données qui présentent un intérêt scientifique, juridique ou historique. Dépôt en archives ou entrepôts ouverts Archivage auprès d’un organisme agréé Données en appui des publications ou OK pour diffusion. Autres données produites au cours du projet. Pas de diffusion. Création Description : métadonnées Stockage Diffusion Archivage Traitement Rédaction d’un DMP Le cycle de vie de la donnée Protection Réutilisation Analyse Archivage : enjeux de stockage et de conservation Planification de la préservation Sélectionner Entrée Eliminer les données inutiles 1 2 Vérifier la possibilité d’archivage Accès Gestion des données Stockage Administration Consulter 3 4 Déposer dans une plateforme d’archivage Autres donnés produites au cours du projet. Pas de diffusion. Les étapes Conserver des preuves Assurer la continuité des activités de recherche Conserver le patrimoine de l’établissement Les exigences des financeurs A l’international : US National Science Foundation, UK Research Councils, Wellcome Trust, The Netherlands Organisation for Scientific Research… « Open research data pilot » demande au chercheur : 1) produire un plan de gestion des données: Data Management Plan (DMP) 2) déposer leurs données et métadonnées dans un entrepôt de données. Plan d’action de l’ANR et appel à projets générique 2016 : les chercheurs sont encouragés à tirer parti des infrastructures et des grandes bases de données existantes ; à promouvoir leurs résultats en open access Loi sur le numérique Données de recherche Contrat édition Loi Num, Art. 30 : Réutilisation des données Loi Num, Art. 38 : fouille de texte / data mining Données de recherche OPEN Protection données perso / PI CLOSE Fouille de texte Protection données perso / PI CLOSE publi publi OPEN « II.-Dès lors que les données issues d'une activité de recherche financée au moins pour moitié par des dotations [publiques] (…) ne sont pas protégées par un droit spécifique ou une réglementation particulière et qu'elles ont été rendues publiques par le chercheur, l'établissement ou l'organisme de recherche, leur réutilisation est libre. « III.-L'éditeur d'un écrit scientifique mentionné au I ne peut limiter la réutilisation des données de la recherche rendues publiques dans le cadre de sa publication Loi Numérique, Article 30 Les copies ou reproductions numériques de la base réalisées par une personne qui y a licitement accès, en vue de fouilles de textes et de données incluses ou associées aux écrits scientifiques dans un cadre de recherche, à l'exclusion de toute finalité commerciale. Loi Numérique, Article 38 Loi Num, Art.6 : ouverture des informations publiques produites par les établissements ESR Loi Valter 2015 Loi Numérique 2016 datagouv.fr Open Data 2011 Dérogation ESR Open data par défaut Dérogation ESR Protection données perso / PI Pack conformité CNIL Données de la recherche ? OPEN OPEN CLOSE LE DATA MANAGEMENT PLAN • décrire le cycle de vie des données produites ou collectées au cours du projet de recherche. • anticiper les questions de gestion qui surviennent au cours d’une recherche et les conditions d’une diffusion et d’une conservation futures des données. Plan de gestion de données /data management plan (DMP) Document formel précisant la manière dont les données seront produites, traitées, décrites, partagées ou protégées et conservées au cours et à l’issue du projet. http://www.univ-paris-diderot.fr/sc/site.php?bc=recherche&np=Data_DMP (v1) http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_ pilot/h2020-hi-oa-data-mgt_en.pdf Ce qui change en 2017 : - Le pilote ORD est étendu à toutes les thématiques => Art.29.3 => open data par défaut - Les chercheurs peuvent se retirer du pilote : - au moment de l’appel à projets, - pendant la préparation du grant agreement - après la signature du grant agreement et - réaliser un DMP facultatif v2 P5/P7 : - Intégrer la notion FAIR - Conserver le cycle de vie - Préparer l’informatisation Le pilote H2020 – ce qui change en 2017 Horizon 2020 FAIR data management template 1. Data Summary 2. FAIR data 2.1. Making data findable, including provisions for metadata 2.2. Making data openly accessible 2.3. Making data interoperable 2.4. Increase data re-use (through clarifying licences) 3. Allocation of resources 4. Data security 5. Ethical aspects 6. Other issues FAIR Data Principles Enjeu : faciliter la découverte de connaissances Moyen : aider les humains et les machines à : - découvrir - accéder - intégrer - analyser des données scientifiques et leurs algorithmes et flux de travail associés Le DMP Online du Digital Curation Center Le DMP Tool de la California Digital Library de l’Université de Californie L’outil OPIDOR de l’INIST - CNRS Les principaux champs d’un DMP Section 1-2 : Informations générales sur le projet Section 3 : Informations générales sur les données Section 4 : Sécurité, gestion des risques et éthique Section 5 : Jeux de données Section 6 : Principes de dissémination et protection Section 7 : Archivage des données Section 8 : Ressources nécessaires Propre à chaque jeu de données uploads/Science et Technologie/ pgd-urfist-toulouse-2017.pdf

  • 26
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager