Lectures hivernales 2018 — Deep Learning & pandas
Je souhaitais partager avec vous deux lectures Data Science. En cette fin d’année 2018 (et en prévision des repas de famille de plusieurs jours), je me suis empressé de remplir ma liseuse de livres.

Au programme :
- Deep Learning with Python - François Chollet (lien)
- Pandas cookbook - Theodore Petrou

# Deep Learning with Python — François Chollet
J’ai entendu parler de ce livre via une vidéo de Google (que je vous invite à visionner) :
- Get started with TensorFlow’s High-Level APIs (Google I/O ’18) https://www.youtube.com/watch?v=tjsHSIG8I08
J’ai littéralement dévoré ce livre. La montée en puissance est très progressive et nous arrivons à suivre François Chollet dans toutes ses explications. Pour avoir lu d’autres ouvrages sur le sujet, celui-ci est clairement à portée du plus grand nombre.

Les premiers chapitres sont très bien vulgarisés, permettant de poser des bases claires pour toute la suite du livre : Intelligence Artificielle, Machine Learning et Deep Learning. Pas encore d’équations mathématiques, simplement une présentation claire. Et si les équations vous effraient, elles ne sont pas légions dans cet ouvrage. L’auteur préfère des exemples de codes sous Keras pour expliquer comment appliquer un algorithme spécifique.
Après le premier chapitre introductif, nous entrons progressivement dans le dur du sujet, l’artillerie lourde est de sortie (excusez mes angliscimes, le livre n’est disponible qu’en anglais) : descent gradient, optimizer, perceptron …

L’auteur, François Chollet, est un français de Google, et est également le père de Keras, la bibliothèque incontournable pour faire du Deep Learning. Keras fournit des API au dessus d’autres bibliothèques de Machine Learning comme TensorFlow, CNTK et Theano. Son slogan:
Being able to go from idea to result with the least possible delay is key to doing good research.
Je vous laisse aller jeter un coup d’oeil à la doc : https://keras.io/
Revenons au livre. J’avoue avoir ralenti la vitesse plus la lecture avançait. Les accronymes et les nouveaux concepts se faisant toujours plus nombreux. Néanmoins, la théorie est toujours mise en face d’un cas d’application (avec le code Keras qui va bien).
Ce livre fait vraiment un tour d’horizon complet de la discipline. C’est le livre idéal pour se mettre au niveau de l’état de l’art.
Voici la table des matières :
I. Fundamentals of Deep Learning
I.1 What is deep learning ?
I.2 Before we begin: the mathematical building blocks of neural networks
I.3 Getting started with neural networks
I.4 Fundamentals of machine learning
II. Deep Learning In Practice
II.1 Deep learning for computer vision
II.2 Deep learning for text and sequences
II.3 Advanced deep-learning best practices
II.4 Generative deep learning
II.5 Conclusions
Ce que je retiens est la jeunesse du domaine. François en parle à plusieurs reprises, mais nous sommes dans un temps favorable (opposé à l’hiver de l’IA des années 90) et la majorité des algorithmes cités n’ont pas plus de 3 ans ! Cela laisse entrevoir des perspectives incroyables pour ce domaine !
Voici un lien pour procurer cet incontournable : https://amzn.to/2RTuRBm
# Pandas cookbook - Theodore Petrou

Après le livre passionnant sur le deep learning, j’ai voulu avoir du contenu plus appliqué. Je me suis bien évidemment tourné vers la bibliohtèque pandas.
Pour ceux qui ne connaissent pas pandas, c’est une bibliothèque python qui permet d’analyser et d’effectuer des opérations sur des données.
La documentation officielle est là : http://pandas.pydata.org/
Depuis quelques années, pandas est devenu un des outils favoris pour explorer des données et effectuer des traitements rapides.

Revenons au livre. J’ai trouvé cet ebook sur Packt : https://www.packtpub.com/big-data-and-business-intelligence/pandas-cookbook
L’approche est intéressante : des grandes thématiques dans lesquelles différentes sujets sont abordés par un cas d’usage : un besoin, les commandes pour y arriver, les explications en détails de l’utilisation de ces commandes, et une partie pour aller plus loin. Grâce à cette structure, ce livre peut facilement rester au bureau afin d’être consulté à la moindre hésitation.
L’approche orientée besoin / cas d’usage était parfaite en ce qui me concerne. En effet, jetravaillais à ce moment là sur un besoin qui nécessitait quasi exactement les besoins cités par le livre. Il me fallait des réponses claires et explicitées. Bien souvent, sur StackOverflow, les réponses ne sont pas toujours détaillées. Dans le livre, l’auteur prend le temps de revenir sur chaque commande. Et il atteint un juste équilibre : ni trop détaillée comme une doc, ni trop succint pour ne pas comprendre.
Voici la table des matières :
Chapter 1: Pandas Foundations
Chapter 2: Essential DataFrame Operations
Chapter 3: Beginning Data Analysis
Chapter 4: Selecting Subsets of Data
Chapter 5: Boolean Indexing
Chapter 6: Index Alignment
Chapter 7: Grouping for Aggregation, Filtration, and Transformation
Chapter 8: Restructuring Data in a Tidy Form
Chapter 9: Combining Pandas Objects
Chapter 10: Time Series AnalysisChapter 11: Visualization with Matplotlib, Pandas, and Seaborn
Les sujets permettent de bien comprendre les commandes nécessaires au travail d’un Data Scientist : nettoyer les données, les observer, les trier, créer de nouvelles variable, et créer des visualisations pertinentes. Tous ces aspects sont abordés avec le détail des commandes. Et comme je vous le disais plus haut, vous avez les commandes appliquées à des cas d’usage. Il est donc plus facile de transposer les exemples du livre à votre problématique.
# Prochaine lecture
Ma prochaine lecture est la suivante :
- L’intelligence artificielle ou l’enjeu du siècle : Anatomie d’un antihumanisme radical — Eric Sadin(lien)
L’avez-vous déjà lu ? Qu’en avez vous pensez ?
Je suis tombé sur cette vidéo de l’auteur : https://www.youtube.com/watch?v=VzeOnBRzDik
# Notes de lecture
Vous pouvez retrouver mes notes de lecture ici :
La bise,