CLASSIFICATION SUPERVISÉE DE DONNÉES PÉDAGOGIQUES POUR LA RÉUSSITE DANS L’ENSEI

CLASSIFICATION SUPERVISÉE DE DONNÉES PÉDAGOGIQUES POUR LA RÉUSSITE DANS L’ENSEIGNEMENT SUPÉRIEUR Saker Amine, Christel Dartigues-Pallez, Rey Gaetan To cite this version: Saker Amine, Christel Dartigues-Pallez, Rey Gaetan. CLASSIFICATION SUPERVISÉE DE DON- NÉES PÉDAGOGIQUES POUR LA RÉUSSITE DANS L’ENSEIGNEMENT SUPÉRIEUR. [Rap- port de recherche] I3S, Université Côte d’Azur. 2020. hal-02486729 HAL Id: hal-02486729 https://hal.archives-ouvertes.fr/hal-02486729 Submitted on 21 Feb 2020 HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés. LABORATOIRE INFORMATIQUE, SIGNAUX ET SYSTÈMES DE SOPHIA ANTIPOLIS UMR7271 CLASSIFICATION SUPERVISÉE DE DONNÉES PÉDAGOGIQUES POUR LA RÉUSSITE DANS L’ENSEIGNEMENT SUPÉRIEUR Saker Amine, Christel Dartigues-Pallez, Rey Gaëtan EQUIPE SPARKS Rapport de Recherche Septembre-2019 Laboratoire d'Informatique, Signaux et Systèmes de Sophia-Antipolis (I3S) – UMR7271 - UNS CNRS 2000, route des Lucioles – Les Algorithmes - bât. Euclide B – 06900 Sophia Antipolis – France http://www.i3s.unice.fr CLASSIFICATION SUPERVISÉE DE DONNÉES PÉDAGOGIQUES POUR LA RÉUSSITE DANS L’ENSEIGNEMENT SUPÉRIEUR Saker Amine1, Christel Dartigues-Pallez1, Rey Gaëtan1 Équipe SPARKS Septembre-2019 - 45 pages Abstract : Research carried out in recent years, particularly in the context of supervised learning, has shown that it is possible to extract relevant knowledge from a set of data representative of a problem. At the same time, the increase over the years in the supply of university training and the massive arrival of candidates at the gates of the university poses the thorny problem of the orientation of candidates. One of the issues hidden behind this orientation corresponds to the relevance of this orientation and to the personalization / individualization of the courses at the entrance to the university. In this perspective, this project is interested in finding an adequacy between the data which characterize the candidates for higher education (marks of the candidates and of the classes, high school of origin, etc.) and the marks obtained by these same candidates during of their first year at university. Key-words : Supervised Learning, Random Forest, Educational Learning CLASSIFICATION SUPERVISÉE DE DONNÉES PÉDAGOGIQUES POUR LA RÉUSSITE DANS L’ENSEIGNEMENT SUPÉRIEUR Résumé : Les recherches effectuées ces dernières années notamment dans le cadre de l’apprentissage supervisé ont montré qu’il était possible d’extraire des connaissances pertinentes à partir d’un ensemble de données représentatives d’un problème. Dans le même temps, l’augmentation au fil des ans de l’offre de formation universitaire et l’arrivée massive de candidats aux portes de l’université pose l’épineux problème de l’orientation des candidats. Une des problématiques cachées derrière cette orientation correspond à la pertinence de cette orientation et à la personnalisation/individualisation des parcours à l’entrée de l’université. Dans cette optique, ce projet s’intéresse à trouver une adéquation entre les données qui caractérisent les candidats aux formations du supérieur (notes des candidats et de la classes, lycée d’origine, etc.) et les notes obtenues par ces mêmes candidats lors de leur première année à l’université. Mots-clefs : Apprentissage supervisé, Forêts aléatoires, Apprentissage éducatif défini. défini. Table des matières MÉTHODES INFORMATIQUES APPLIQUÉES À LA GESTION DES ENTREPRISESErreur ! Signet non MÉTHODES INFORMATIQUES APPLIQUÉES À LA GESTION DES ENTREPRISESErreur ! Signet non Introduction Générale..........................................................................................................................3 Chapitre I Cadre du projet....................................................................................................................4 1 Présentation de l’organisme d’accueil..........................................................................................4 1.1 Laboratoire d’Informatique, Signaux et Systèmes de Sophia Antipolis [1]Erreur ! Signet non défini. 1.2 Equipe SPARKS..............................................................................Erreur ! Signet non défini. 2 Contexte du projet........................................................................................................................4 2.1 Présentation du projet..........................................................................................................4 2.2 Objectif du stage...........................................................................Erreur ! Signet non défini. 2.3 Problématique......................................................................................................................4 3 Gestion de projet..........................................................................................................................4 Chapitre II Concepts fondamentaux et état de l’art.............................................................................5 1 Apprentissage automatique..........................................................................................................5 1.1 Définition..........................................................................................................................5 1.2 Apprentissage supervisé...................................................................................................5 1.3 Forêts aléatoires...............................................................................................................5 1.4 Évaluation des modèles de classification [2].....................................................................7 2 Étude de l’existant......................................................................................................................10 3 Critique de l’existant...................................................................................................................10 4 Conclusion..................................................................................................................................11 1 Chaîne du machine learning.......................................................................................................12 1.1 Pré-traitement des données...........................................................................................12 1.2 Modèle de classification..................................................................................................17 2 Approches générales...............................................................................................................18 2.1 Approche 1: Traiter séparément les subsets...................................................................19 2.2 Approche 2: Traiter conjointement les subsets..............................................................19 2.3 Approche 3: Séparer les types de variables....................................................................19 Conclusion..................................................................................................................................20 i 1 Outils et technologies utilisés.....................................................................................................21 1.1 Outils...................................................................................................................................21 1.2 Technologies.......................................................................................................................21 2 Présentation des résultats..........................................................................................................22 2.1 Résultats approche 1..........................................................................................................22 2.1.1 Constitution des datasets...............................................................................................22 2.1.2 Entraînement des modèles.............................................................................................24 2.2 Résultats Approche 2..............................................................................................................25 2.2.1 Constitution du dataset...................................................................................................25 2.2.2 Entraînement du modèle................................................................................................26 2.3 Résultats Approche 3..........................................................................................................26 2.3.1 Constitution du dataset..................................................................................................26 2.4 Comparaison et interprétation des résultats des différentes approches............................28 2.5 Chronogramme...................................................................................................................29 Conclusion..........................................................................................................................................29 Conclusion Générale et Perspectives..................................................................................................30 Bibliographie.......................................................................................................................................31 Annexes..............................................................................................................................................32 ii Introduction Générale Les recherches effectuées ces dernières années notamment dans le domaine de l’apprentissage supervisé pour la classification de données pédagogiques [3] [4] [5] ont montré qu’il est possible d’extraire des connaissances pertinentes à partir d’un ensemble de données représentatives d’un problème. C’est dans ce cadre que s’inscrit ce travail. Le présent rapport s’articule de la manière suivante:  Le premier chapitre comporte une présente le cadre général de ce projet et aborde la méthodologie de gestion de ce projet.  Le deuxième chapitre expose en premier lieu les concepts fondamentaux clés liés au projet. En second lieu, il décrit l’étude de l’existant, sa critique et décrira l’amélioration envisagée.  Le troisième chapitre détaille les étapes qui mèneront aux résultats ainsi que les approches envisagées.  Le quatrième et dernier chapitre présentera dans un premier temps les outils et technologies utilisés pour la réalisation de ce travail et enfin les résultats des approches détaillées dans le chapitre 3. Nous clôturons ce rapport de recherché par une conclusion, dans laquelle nous évaluerons les résultats atteints et nous exposerons les perspectives éventuelles du présent projet. Chapitre I Cadre du projet Dans ce premier chapitre nous nous intéresserons au cadre général de notre projet. Il s’agit d’une présentation de l’organisme d’accueil, du sujet de stage et enfin de la méthodologie de gestion de projet appliquée pour assurer le bon déroulement de ce travail. 1 Contexte du projet 1.1 Présentation du projet Cette étude s’inscrit dans le cadre d’un projet de recherche dont la finalité est d’apporter une aide, voire un conseil à l’orientation des futurs étudiants via un algorithme de Machine Learning. L’idée consiste à étudier les profils d’anciens candidats qui ont suivi la formation informatique à l’IUT de Nice. Dans cette optique, ce projet s’intéresse à trouver une adéquation entre les données qui caractérisent les candidats aux formations du supérieur (données des élèves anonymisées et enregistrées par ParcourSup1 ) et les notes obtenues par ces mêmes candidats lors de leur première année universitaire (données des étudiants enregistrées par Apogée 2) en utilisant l’algorithme de Machine Learning "RandomForest". Cette étude porte plus particulièrement sur l’aspect échec/réussite. 1.2 Problématique Chaque année, en France, près de 800 000 nouveaux bacheliers se présentent aux portes des universités. L’orientation de ces candidats pose un problème majeur au comité de sélection de l’enseignement supérieur, d’autant plus qu’au fil des ans l’offre de formation universitaire ne cesse d’augmenter. Une des problématiques cachées derrière cette orientation correspond à la pertinence de cette orientation et à la personnalisation/individualisation des parcours à l’entrée de l’université. Est-il possible d’utiliser un algorithme d’apprentissage automatique pour conseiller un étudiant en fonction de ses notes actuelles au lycée ainsi que d’autres informations enregistrées par ParcourSup? Peut-on exploiter toutes ces données? Quelles sont les pré-traitements à effectuer sur ces données? Pour répondre à ces questions, il est nécessaire d’avoir des connaissances en science des données et en apprentissage automatique. Par conséquent, il a été nécessaire d’effectuer des recherches préliminaires. Dans la suite de ce rapport nous allons essayer de répondre à ces questions en suivant la méthodologie décrite ci-dessus. 2 Bilan Dans ce chapitre, nous avons présenté le cadre général du travail, et la présentation du projet, le positionnement de la problématique de notre étude et son objectif. Et pour finir, nous avons la méthode qui va guider notre travail tout au long du projet. Dans le chapitre suivant, nous introduirons les concepts fondamentaux ainsi que le support qui serviront de base pour la suite de notre projet. 1 . Parcoursup est la plateforme nationale française de pré-inscription des lycéens en première année d’enseignement supérieur. 2 . Application Pour l’Organisation et la Gestion des Enseignements et des Étudiants. Chapitre II Concepts fondamentaux et état de l’art Ce chapitre introduit les concepts fondamentaux, qui ont servi de support pour notre travail. Nous commencerons par donner une idée générale de l’apprentissage automatique à travers un exemple d’application puis nous exposerons brièvement le travail existant avant de passer à sa critique. 1 Apprentissage automatique 1.1 Définition Nous pouvons définir l’apprentissage automatique de la façon suivante: Expliquer à une machine comment réaliser une tâche en lui procurant plusieurs exemples. Plus on dispose d’exemples mieux l’algorithme comprendra la structure des données, inférera les paramètres qui vont servir à prédire sur de nouveaux exemples. 1.2 Apprentissage supervisé L’apprentissage supervisé regroupe les taches de classification, régression et de ranking. Il s’agit en général de traiter un problème de prédiction. L’exemple suivant nous permettra de comprendre le paradigme de l’apprentissage uploads/Science et Technologie/ rapportinterne-i3s-aminesaker-2.pdf

  • 46
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager