Projet data science RAPPORT DU TP DE DATA SCIENCE EN ACTUARIAT Proposé par ALAYE Sika KABRAN Eric Elèves Ingénieurs Statisticiens et Economistes Sous la supervision de Prof Xavier MILHAUD Mai CTable des matières INTRODUCTION CHARGEMENT ET SIGNIFICATION DU

RAPPORT DU TP DE DATA SCIENCE EN ACTUARIAT Proposé par ALAYE Sika KABRAN Eric Elèves Ingénieurs Statisticiens et Economistes Sous la supervision de Prof Xavier MILHAUD Mai CTable des matières INTRODUCTION CHARGEMENT ET SIGNIFICATION DU JEU DE DONNEES STATISTIQUES DESCRIPTIVES UNIVARIEES ET BIVARIEES MODELISATION PAR ARBRE DE DECISION a- Explication des di ?érents arguments de rpart et les valeurs retournées b - Construction d ? Arbre c- Elagage de l ? arbre maximal d- Etablissement Des Prévisions b- Arbre Maximal c- Elagage d- La prédiction du coût est donnée par la variable pred sev ? -MODELISATION PAR FORET ALEATOIRE a-Explication des arguments de randomForest CONCLUSION ANNEXE CINTRODUCTION Dans le cadre d ? une mission à l ? Ecole Nationale Supérieure de Statistique et d ? Economie Appliquée il nous a été soumis un projet dont le but est de mettre en pratique les connaissances théoriques acquises en cours sur des thématiques données dans le domaine de l ? assurance C ? est aussi l ? occasion de se familiariser avec des logiciels de statistiques tels que R qui est très utilisé dans le monde scienti ?que en général et particulièrement en ?nance et en assurance car complet performant et libre Nous aborderons dans ce projet des notions générales et importantes de certaines méthodes statistiques et de leurs applications à la vie courante Ce sont les statistiques descriptives univariées et bivariées l ? implémentation d ? algorithmes d ? apprentissage statistique en R Arbres Cart et RandomForest ? qui nous initie à l ? utilisation des méthodes non paramétrique pour l ? explication et la prévision et en ?n une modélisation par réseaux de neurones CHARGEMENT ET SIGNIFICATION DU JEU DE DONNEES Dans un premier temps il s ? agira pour nous de charger le jeu de données norauto ? disponible dans la librairie CASdatasets Ensuite nous allons procéder à l ? explication des di ?érentes variables que contient notre jeu de données La signi ?cation du jeu de données Ce jeu comprend observations de pertes sur polices d'assurance automobile sur une période d'un an Il provient d'un assureur norvégien inconnu et est composé de variables qui sont Male Young Dislimit Georegion Expo claimAmount Nbclaim Male Elle représente le sexe du preneur d ? assurance elle vaut s'il s'agit d'un homme et sinon Young Elle représente l'? ge du preneur d ? assurance Nous ?xé ici l ? ? ge maximale des jeunes à ans Ainsi notre variable vaut si l ? ? ge du preneur d ? assurance est inférieur ou égal à et sinon Dislimit Elle représente la distance limite indiquée dans le contrat d'assurance autrement dit la distance maximale parcourue par le preneur d'assurance qui lui garantirait une indemnité en cas de sinistre Elle se mesure en kilomètres et comprend les modalités suivantes - aucune limite CGeoregion Elle représente la densité de la région géographique dans laquelle se situe le preneur d ? assurance Elle part de la plus forte à la moins forte et contient les modalités

  • 30
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Aucune attribution requise
Partager