PANORAMA DE LA DATA SCIENCE Robert Alaux, novembre 2021 IA https://www.usinenou
PANORAMA DE LA DATA SCIENCE Robert Alaux, novembre 2021 IA https://www.usinenouvelle.com/editorial/quand-une-intelligence-artificielle-devient-l-inventrice-d-un-brevet.N1132204 la data science c’est quoi? Le Data Scientist mélange trois domaines : - l’expertise mathématique - la technologie - le business Mise en œuvre d’un projet data science Etapes 1- Savoir ce que l’on cherche (cadrage) 2- Collecter les données 3- Nettoyer les données (sans perdre leur portée signifiante) 4- Stocker les données (Cloud, Datawarehouse / Datalake…) 5- Explorer les données 6- Traitement algorithmique des données pour découvrir des insights / patterns 7- Les résultats aident l’entreprise à prendre des décisions, à voir des tendances, à créer un Data Product Mise en œuvre d’un projet data science Exemples de Data Product: - moteur de recommandation pour Amazon ou Netflix - filtre anti-spam pour Gmail - vision par ordinateur pour voiture autonome CHINE et Asie: BATX GOOGLE BAIDU AMAZON ALIBABA FACEBOOK TENCENT / WECHAT APPLE XIAOMI Une masse de données • 90% des données mondiales ont été créées au cours des deux dernières années Chaque SECONDE : • 70 000GB de traffic Internet • 85 000 recherches • 80 000 vidéos YouTube vues • 3 000 000 Emails envoyés • L’accès à ces informations n’existait pas auparavant L’ensemble du process big data - intelligence artificielle https://www.lebigdata.fr/data-engineer-tout-savoir Machine Learning Big Data Objets connectés IoT Ils sont une source de plus en plus importante de données pour le Big Data* Enjeux: • Le type de communication (courte ou longue portée) • La couverture du réseau • La consommation énergétique de l’objet • Le volume de données transmises • La fréquence de captation • La fréquence de transmission • Le prix des capteurs/émetteurs. Points sensibles: données à caractère personnel et l’anonymisation Actuellement près de 30 milliards d’objets connectés Que faire avec les données? Traiter les données avec un logiciel ETL (extract, Transform, Load) qui permet au data scientist de: Extraire Transformer au bon format puis charger les datas dans un Data Warehouse Actuellement le Data Wrangling remplace l’ETL, il est utilisable par des non scientifiques DataViz Pour comprendre des données et les transmettre: La visualisation des données • Répondre à un objectif précis dans un contexte précis • Hiérarchiser les enjeux • Mise en forme graphique sert l’analyse et le message • Fournir une nouvelle perspective • Aide à la décision • Outil de communication • BtoC et DataJournalisme • Visualisation interactive ou participative Corrélation • Avec les statistiques et le big data c’est un nouveau mode d’appréhension du monde qui s’ouvre • On fait émerger une connaissance à partir des corrélations significatives sans hypothèse de départ • On peut voir émerger des réalités /corrélations contre-intuitives • Data Mining: fouiller dans une grande masse de données pour y découvrir des corrélations, des patterns, des schémas… Data Mining Data Mining: exploration massives de données sur internet par des algorithmes (statistiques, machine learning, réseaux neuronaux) complexes afin d’en extraire des connaissances, des relations, des corrélations: associations, analyses de séquences, classifications, clustering, prédictions Très utilisé en e-commerce, finance, communication, marketing pour trouver des patterns, faire de la segmentation, du profilage etc. Outils: Orange, Weka, RapidMiner , Tanagra, Licences: SPSS (IBM), Entreprise Miner (SAS), Microsoft Analysis Services Par exemple on ‘aspire’ TOUS les comptes et posts facebook, instagram, twitter … pour en tirer des profils individuels. https://www.lebigdata.fr/data-mining-definition-exemples https://www.lebigdata.fr/comment-le-big-data-revolutionne-shopping Fausses Corrélations Il est beaucoup moins couteux de chercher des corrélations que des causalités… mais Difficulté: grand risque d’établir des fausses corrélations Corrélation ≠ causalité « Quand on est malade, il ne faut surtout pas aller à l'hôpital : la probabilité de mourir dans un lit d'hôpital est 10 fois plus grande que dans son lit à la maison ». Les trois V Trois grands paramètres à gérer dans le Big Data: VOLUME de données gigantesque Trafic des centres de données en cloud dans le monde : 12 zettaoctets (12x 10 21 octets) en 2019 * Capacités de stockage Mais 1,8×1022 bits (2,25 zettaoctets) = Évaluation de la quantité d'information qui peut être stockée dans un 1 gramme d'ADN (notre ADN, 10-12 gramme, contient tout ce qu’il faut pour produire un être humain), c’est devenu une réalité: https://www.franceculture.fr/sciences/stocker-pour-50-000-ans-des-textes-historiques-sur-ADN-entrent-aux-archives-nationales * https://fr.statista.com/statistiques/729476/centres-de-donnees-cloud-trafic-volume-monde/ Les trois V Trois grands paramètres à gérer: VITESSE Production permanente de données Obligation d’analyse en temps réel Puissance de calcul Les trois V VARIÉTÉ des données: Diversité de contenus • Données structurées (Bases de données relationnelles): liste de coordonnées, relevé de températures, astrophysique, météo… • Données non structurées*: textes, images, flux vidéos, tweets… Les trois V VARIÉTÉ des données: Diversité de sources • Données internes de l’entreprise (CRM, tracking site web, navigation…) • Données externes (OpenData, Météo, indicateurs économiques…) • Données comportementales clients (achats, géolocalisation, réseaux sociaux, wearables…) • Données déclaratives clients (nom, âge, …) • Données Machine-To-Machine Les trois V Avec 4 points spatio-temporels répétitifs, on identifie 95% de la population* • Où nous dormons (domicile) • Où nous passons nos journées (travail) • Où nous nous arrêtons le matin (école pour enfants) • Autre arrêt régulier (club de sport…) * Étude du MIT, 2013 https://www.nytimes.com/interactive/2019/12/19/opinion/location-tracking-cell-phone.html Hadoop Map-Reduce Durant la phase d’acquisition des données, de nettoyage et d’exploration (avant tout véritable travail d’intelligence artificielle), des systèmes logiciels comme Tableau sont très utilisés. Il font beaucoup appel à la Data-visualisation et permettent une première analyse des données. https://www.tableau.com/fr-fr/products/desktop#video Hadoop Map-Reduce Apache Hadoop: structure logicielle (framework) open source (Apache Software Foundation) Au départ, deux modules principaux: HDFS : Hadoop Distributed File System Traitement parallèle des données sur plusieurs machines constituant un cluster (grappe) et Map-Reduce (algorithme développé initialement par Google en 2004) Yahoo possède un grand nombre de machines Hadoop avec 42000 nœuds Facebook et Amazon utilisent aussi Hadoop MapReduce reste une référence même s’il est souvent remplacé par d’autres algorithmes plus rapides comme Apache Spark car Hadoop est peu adapté au temps réel. https://www.lebigdata.fr/hadoop Big Data as a Service: AWS Amazon https://aws.amazon.com/fr/big-data/datalakes-and-analytics/ Améliorer la rapidité: Spark Apache Spark, qui était un composant de l'écosystème Hadoop, devient une plate- forme Big Data appréciée des entreprises; elles préfèrent souvent Spark à MapReduce, qui repose sur un traitement par lots et ne se prête pas aux applications interactives ni au traitement en temps réel des flux. Il est donc jusqu'à dix fois plus rapide que MapReduce pour le traitement des données et jusqu'à cent fois plus rapide pour effectuer l'analyse. Spark travaille en TEMPS RÉEL. Il reste souvent utilisé avec Hadoop. Les technologies évoluent très rapidement, il est risqué d’investir lourdement dans du matériel, d’où le succès de cloud computing. Statistiques mathématiques Statistiques et probabilités sont au cœur du traitement des Datas afin de pouvoir faire des prévisions Probabilités et monde réel Il faut disposer de beaucoup de données et appliquer un modèle de prévision probabiliste • Plus les données sont subjectives, plus les risques d’erreurs sont importants • Gros enjeux financiers souvent sur des domaines peu rationnels: sport, politique… • Les prévisions sportives sont très risquées car trop de paramètres subjectifs https://www.latribune.fr/technos-medias/coupe-du-monde-le-big-data-s-est-encore-spectaculairement-rate-dans-ses-previsions-785165.html Autres domaines des mathématiques En plus des statistiques et probabilités, plusieurs autres parties des mathématiques sont utilisées en data science Algèbre linéaire Régression linéaire Calcul matriciel Calcul matriciel Une matrice est un tableau de nombre Exemple: une matrice 1920x1080 pour une image vidéo HD N&B Théorie des graphes Transport aérien aux USA Métro New York Los Angeles Miami Qu'est-ce que l'intelligence artificielle ? L’IA se distingue donc en deux catégorie: symbolique et connexionniste • IA Symbolique: Basée sur la modélisation et la formalisation du raisonnement humain logique, sur la représentation et la manipulation de la connaissance par des symboles formels. En mathématique on utilise la LOGIQUE (= non continu) et les opérateurs booléens Exemple: appartient à ; “si X et Y sont vrais, alors Z est vrai” ou “X entraine Y” Gros développements des années 1970 à 2000. Application: systèmes experts avec moteurs de règles de fonctionnement analyse financière et scientifique. visuel: Olivier Ezratty Qu'est-ce que l'intelligence artificielle ? • IA Probabiliste:/ connexionniste: Vise l’émergence de phénomènes relevant de l’intelligence, à partir d’un agencement de mécanismes élémentaires (réaction simple à une perception) inspirés du vivant: réseaux de neurones… Un des fondateurs: Marvin Minsky Contient des aspects empiriques En mathématique on utilise l’ALGEBRE (= continu)* et les probabilités / statistiques Application: Machine Learning et Deep learning utilisé dans la vision artificielle ou la reconnaissance de la parole. Depuis 10 ans les avancées sont dans ce secteur de l’IA connexionniste (réseaux de neurones) * L’algèbre (continu) permet de faire beaucoup plus de choses que la logique (discrète) Parallèle avec l'intelligence humaine • IA Symbolique: les règles et connaissances antérieures que l’on transmet à ses enfants • IA Probabiliste/ connexionniste : ce que l’on apprend en expérimentant soi-même • L’intelligence humaine est un mélange des deux Parallèle avec l'intelligence humaine (intelligence artificielle générale = humaine) * * ontologie: mode de représentation partagée http://www.journaldunet.com/developpeur/tutoriel/theo/070403-ontologie.shtml Machine learning (En français: ‘apprentissage automatique’) C’est apprendre en assimilant des exemples (et sans être explicitement programmée) Le Machine Learning permet d’extraire des patterns dans les données massives et variées (‘Big Data’) sans avoir besoin de compter sur un humain; il permet de faire des prédictions, de la uploads/Science et Technologie/ techno-rupture-2-panorama-data-science-13.pdf
Documents similaires
-
21
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Dec 05, 2022
- Catégorie Science & technolo...
- Langue French
- Taille du fichier 6.8301MB