1 Ingénierie des données : Chapitre II Chapitre II : Types et sources de donnée

1 Ingénierie des données : Chapitre II Chapitre II : Types et sources de données R. Abdelfattah École Supérieure des Communications Riadh ABDELFATTAH École supérieure des Communications riadh.abdelfattah@supcom.tn 2 Ingénierie des données : Chapitre II Plan 1. Différents types des données 2. Sources des données R. Abdelfattah École Supérieure des Communications 3. Exemples d’applications 4. Identification à travers des exemples sur le rôle de l’ingénierie des données 3 Ingénierie des données : Chapitre II 1. Différents types de données Données numériques (Numerical data) Données discrète Données continues Données catégorielles (Categorical data) Données Ordinales (Ordinal data) Données nominales (Nominal data) R. Abdelfattah École Supérieure des Communications 4 Ingénierie des données : Chapitre II 1. Différents types de données R. Abdelfattah École Supérieure des Communications 5 Ingénierie des données : Chapitre II 1. Différents types de données Données numériques (Numerical data) Données discrète Données continues Données catégorielles (Categorical data) Données Ordinales (Ordinal data) Données nominales (Nominal data) Ordinal R. Abdelfattah École Supérieure des Communications Nominal 6 Ingénierie des données : Chapitre II 1. Différents types de données Une échelle de mesure est utilisée pour qualifier ou quantifier les variables de données en statistiques. Ce sont simplement des moyens de catégoriser différents types de variables et de nous aider à choisir le bon test statistique, la bonne technique de visualisation et à guider notre analyse statistique de données. R. Abdelfattah École Supérieure des Communications https://medium.com/ https://www.pinterest.com/pin 7 Ingénierie des données : Chapitre II 1. Différents types de données Résumé R. Abdelfattah École Supérieure des Communications https://medium.com/ 8 Ingénierie des données : Chapitre II 1. Différents types de données Données numériques (Numerical data) Données discrète Données continues Données catégorielles (Categorical data) Données Ordinales (Ordinal data) Données nominales (Nominal data) What is the type of data scale marked on a measuring tape? o R. Abdelfattah École Supérieure des Communications o Integer o Ratio o Nominal o Discrete https://helpfulstats.com/ 9 Ingénierie des données : Chapitre II 1. Différents types de données Données numériques (Numerical data) Données discrète Données continues Données catégorielles (Categorical data) Données Ordinales (Ordinal data) Données nominales (Nominal data) What is the data type for the Rainfall in mm data?? o R. Abdelfattah École Supérieure des Communications o Integer data, numeric o Integer data, discrete o Ratio scale, continuous o Ratio scale, discrete https://helpfulstats.com/ 10 Ingénierie des données : Chapitre II 1. Différents types de données Résumé R. Abdelfattah École Supérieure des Communications https://medium.com/ 11 Ingénierie des données : Chapitre II 1. Différentes types de données R. Abdelfattah École Supérieure des Communications 12 Ingénierie des données : Chapitre II 1. Différentes types de données Time Series Data : C’est une séquence de points de données collectés à intervalles réguliers sur une période de temps. Il s’agit de n’importe quelle donnée horodatée. Nécessité d’utiliser des bases de données de type Time Series Database R. Abdelfattah École Supérieure des Communications fr.wikipedia.org type Time Series Database 1. InfluxDB 2. Kdb+ 3. RRDTool 4. Graphite 5. OpenTSDB 6. Prometheus 7. Druid 8. KairosDB eXtremeDB 9. Riak TS 10. Hawkular Metrics 11. Blueflood 12. Axibase 13. Warp 10 14. TimescaleDB 13 Ingénierie des données : Chapitre II 1. Différentes types de données Kaggle.com R. Abdelfattah École Supérieure des Communications 14 Ingénierie des données : Chapitre II 1. Différentes types de données Roboflow Image dataset R. Abdelfattah École Supérieure des Communications 15 Ingénierie des données : Chapitre II 2. Sources des données La notion de source de données (ou nom de source de données (DSN)) est utilisée dans le contexte des bases de données et des systèmes de gestion de base de données ou de tout système qui traite principalement des données : Ca permet de spécifier l'emplacement des données. Ou de préciser d'où viennent les données. Pour réussir avec le big data, il est important que les entreprises aient le savoir-faire pour passer au crible les différentes sources de données R. Abdelfattah École Supérieure des Communications https://www.allerin.com/blog/top-5-sources-of-big-data le savoir-faire pour passer au crible les différentes sources de données disponibles et classer en conséquence leur utilisabilité et leur pertinence par rapport à un projet donnée. 16 Ingénierie des données : Chapitre II 2. Sources des données Lorsque vous créez vous-même les données que vous en avez besoin : données primaires. R. Abdelfattah École Supérieure des Communications Lorsque vous collectez des données à partir de sources appartenant à quelqu'un d'autre : données secondaires. 17 Ingénierie des données : Chapitre II 2. Sources des données Les données sont internes si une entreprise les génère, les possède et les R. Abdelfattah École Supérieure des Communications les possède et les contrôle. Les données externes sont des données publiques ou des données générées en dehors de l'entreprise ; en conséquence, la société ne les possède ni les contrôle. 18 Ingénierie des données : Chapitre II 2. Sources des données R. Abdelfattah École Supérieure des Communications 19 Ingénierie des données : Chapitre II 2. Sources des données Exemple : Types de sources de données avec des informations spatiales Rappel : R. Abdelfattah École Supérieure des Communications 20 Ingénierie des données : Chapitre II 3. Exemple d’application Projet en sciences de données : Prédire la qualité de l'air à Oakland, en Californie, à l'aide de données accessibles au public L'application Web fournit aux utilisateurs un aperçu des concentrations de R. Abdelfattah École Supérieure des Communications utilisateurs un aperçu des concentrations de polluants atmosphériques dans leur quartier, aide à identifier les zones avec une bonne qualité de l'air pour l'achat ou la location de maisons et aide à identifier les '' points chauds '' où les concentrations sont inhabituellement élevées. L’application permet de comprendre les niveaux de pollution auxquels les individus sont exposés ! 21 Ingénierie des données : Chapitre II Projet : Prédire la qualité de l'air à Oakland, en Californie, à l'aide de données accessibles au public La qualité de l'air à tout endroit dépend de plusieurs facteurs : 3. Exemple d’application R. Abdelfattah École Supérieure des Communications le trafic sur les rues et autoroutes principales, les émissions des chemins de fer, des ports et des sources industrielles, des facteurs météorologiques comme la vitesse et la direction du vent. 22 Ingénierie des données : Chapitre II 3. Exemple d’application Processus suivi pour la gestion du projet « Air quality in Oakland » R. Abdelfattah École Supérieure des Communications 23 Ingénierie des données : Chapitre II 4. Identification à travers des exemples sur le rôle de l’ingénierie des données R. Abdelfattah École Supérieure des Communications 24 Ingénierie des données : Chapitre II 4. Identification à travers des exemples sur le rôle de l’ingénierie des données Projet : Prédire la qualité de l'air à Oakland, en Californie, à l'aide de données accessibles au public Objectif métier : Objectif data-mining : R. Abdelfattah École Supérieure des Communications Prédire la qualité de l'air à n'importe quel endroit d'Oakland en fonction des conditions météorologiques locales, des sources locales d'émissions telles que les industries et du trafic sur les autoroutes Combiner l’ensemble de données collectées à partir d'échantillons répétés sur route (pour les années 2015-2016) avec l'apprentissage automatique pour prédire la qualité de l'air à différents endroits de la ville où les mesures sont effectuées. pas disponible. 25 Ingénierie des données : Chapitre II 4. Identification à travers des exemples sur le rôle de l’ingénierie des données Compréhension de données (initiales) : des concentrations de NO2, de BC et d'oxyde nitrique (NO) collectées sur une période de 150 jours entre juin R. Abdelfattah École Supérieure des Communications période de 150 jours entre juin 2015 et mai 2016 par les voitures Google Street View équipées de capteurs mobiles. Carte des concentrations annuelles moyennes de NO2 (en ppb) dans la ville d'Oakland. La collecte ou l’extraction d’ensembles de données brutes. 26 Ingénierie des données : Chapitre II 4. Identification à travers des exemples sur le rôle de l’ingénierie des données Compréhension de données : L'ensemble de données a ensuite été agrégé sur une période d'un an, et la concentration médiane a été R. Abdelfattah École Supérieure des Communications concentration médiane a été générée à une échelle d'environ 30 m pour Oakland. Carte des concentrations annuelles moyennes de NO2 (en ppb) dans la ville d'Oakland. Exploration de données. 27 Ingénierie des données : Chapitre II 4. Identification à travers des exemples sur le rôle de l’ingénierie des données Préparation de données : Comprendre comment les concentrations atmosphériques à un endroit donné (« lieu d'intérêt ») sont corrélées avec des sources de Sources ponctuelles d'émissions Trafic R. Abdelfattah École Supérieure des Communications sont corrélées avec des sources de pollution atmosphérique telles que les émissions des industries, les émissions du trafic, et les paramètres météorologiques locaux. Sélection de données (supplémentaires) Paramètres météorologiques 28 Ingénierie des données : Chapitre II 4. Identification à travers des exemples sur le rôle de l’ingénierie des données Préparation de données : Sources ponctuelles d'émissions BD de l’US EPA (2014) contenant les emplacements de toutes les principales sources ponctuelles à Oakland, R. Abdelfattah École Supérieure des Communications Trafic Nombre d'intersections de trafic dans un rayon de 300 m Proximité (distance) des autoroutes au uploads/Management/ chap2-ingenieriedonneesfinal.pdf

  • 36
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Aoû 08, 2021
  • Catégorie Management
  • Langue French
  • Taille du fichier 3.4611MB