Préparer et extraire des données avec Python

Pour que les données soient utiles et significatives, elles doivent être conservées et affinées. Notre formation de 3 jours vous enseignera les idées fondamentales qui se cachent derrière ces processus et vous permettra de connaître les outils et les techniques les plus populaires dans ce domaine.

Cette formation adopte une approche pratique pour équiper les débutants avec des outils d’analyse de données les plus essentiels dans les plus brefs délais. Il contient de multiples activités qui utilisent des scénarios commerciaux réels pour vous permettre de pratiquer et d’appliquer vos nouvelles compétences dans un contexte très pertinent.

Durée

.

Publics cibles

  • Développeurs
  • Intégrateurs
  • Chefs de projets
  • Consultants BI

Pré-requis

  • Connaissances de base en algorithme

Objectifs

A l'issue de cette formation, vous saurez:
  • Nettoyer, transformer et formater les données de manière efficace.
  • Utiliser des astuces Python pour transformer les données en ensembles de données utiles et significatifs.
  • Utiliser un large éventail de sources pour extraire des données.
  • Créer un scraper
  • Faire les actions d’ingestion nécessaires pour alimenter un Data Lake.

Informations

Formation organisée uniquement en classe virtuelle

Programme détaillé

Introduction à la structure des données en Python

  • Python pour les manipulations de données
  • Listes, ensembles, strings, tuples et dictionnaires

Opérations avancées sur la structure de données intégrée

  • Structures de données avancées
  • Opérations de base sur les fichiers en Python

Introduction à NumPy, Pandas et Matplotlib

  • Les tableaux NumPy
  • Les DataFrames Pandas
  • Statistiques et visualisation avec NumPy et Pandas
  • Utiliser NumPy et Pandas pour calculer des statistiques descriptives de base sur le DataFrame

Data Wrangling avec Python

  • Définition et processus
  • Sous-ensembles, filtrage et regroupement
  • Détection des valeurs extrêmes et traitement des valeurs manquantes
  • Concaténer, fusionner et joindre
  • Les méthodes utiles de Pandas
  • Compréhension avancée des listes et fonction zip
  • Formatage des données

Scraping de données avec Python

  • Définition du scraping
  • Les différents niveaux de difficulté sur plusieurs supports
  • Lecture de données provenant de différentes sources textuelles, et non textuelles.
  • Outils de scrapping
  • - Introduction à BeautifulSoup
  • - Introduction à CSS Select

Scraping avancé et collecte de données

  • Les bases du Web scraping, bibliothèques BeautifulSoup
  • Python comme solution ETL
  • Formats de données structurées : CSV, flux XML et JSON
  • Lire et écrire des fichiers
  • Exploiter des données de fichiers provenant de différentes sources
  • Fonctions pour l’accès et le chargement de données en blocs de lignes

Implémenter un scraper

  • Scraper simple avec les requêtes GET et les pages séquencées
  • Identification de la stratégie de navigation sur le site pour trouver les données
  • Construction de l’algorithme du scraper
  • Scraper complexe : envoi de données à un site Web, obtention de résultats plus complexes
  • Requêtes POST et GET
  • Parcourir un site pour trouver les données
  • Identifier la stratégie à adopter
  • Coder le scraper

Application dans la vie réelle et conclusion du cours

  • Appliquer vos connaissances à des tâches de data wrangling et data scraping de la vie réelle


Préparer et extraire des données avec Python

Interressé par cette formation ? Contactez-nous pour recevoir plus d'informations