Auteur: Mickaël Tits, CETIC asbl, mickael.tits@cetic.be
Ce cours, à la fois minimaliste et pratique, vous permettra :
Ce cours s’addresse donc principalement aux personnes désireuses de rapidement mettre le pied à l’étrier dans ce domaine passionnant, ou à toute personne dont l’activité professionnelle, liée de près ou de loin aux sciences des données, nécessite d’avoir un aperçu concret de ce domaine et de ce qu’il permet de faire.
Chaque chapitre, entièrement contenu dans un notebook iPython (Jupyter), est directement accessible sur la plateforme Google Colab. Google Colab est une plateforme cloud entièrement gratuite, donnant un accès direct et facile à un une interface de programmation en Python (via des notebooks Jupyter) déjà correctement pré-configurée, et disposant de nombreuses librairies pré-installées. Chaque utilisateur (connecté à un compte Google) peut disposer d’une machine virtuelle temporaire en ligne, lui permettant d’exécuter des Notebooks directement à partir d’une page Web, d’enregistrer ces Notebooks dans Google Drive, et de les partager aussi facilement qu’un autre document cloud (cfr Google Docs ou Google Sheet).
Les notebooks peuvent être visualisés simplement grâce à nbviewer:
Pour aider l’étudiant au cours de son apprentissage, voici quelques ressources utiles:
Google Colab est un service donnant gratuitement accès à une machine virtuelle, disposant déjà d’un interpréteur Python et de nombreuses librairies préinstallées. Il permet de rapidement apprendre le Python sans s’encombrer de problématiques telles que les performances d’une machine locale et la gestion de l’interpréteur Python et de nombreuses librairies.
Pour installer Python localement, la distribution Anaconda est recommandée, ainsi que l’environnement Jupyter Lab : https://www.anaconda.com/distribution/
Les librairies Python utilisées dans ce cours, et en partitulier Pandas, disposent de très nombreuses méthodes. Bien qu’une requête sur un moteur de recherche permet d’obtenir vite une réponse à une question de programmation, il reste intéressant d’avoir une idée des possibilités et limitations de ces librairies. Pour Pandas, les méthodes les plus souvent utilisées sont les méthodes des objets DataFrame, Series, et GroupBy. Toutes les librairies présentées se basent sur la librairie de calcul scientifique Numpy, et la plupart des opérations mathématiques dépendent de méthodes appliquées sur l’objet N-dimensional Array (ndarray).
Le jeu de données utilisé comme exemple dans le Chapitre 8 et est disponible sur Kaggle.
Copyright: CETIC asbl - 2019