Formation Pentaho ETL Data Integration

La formation Pentaho ETL Data Integration est une formation qui s'adresse aux personnes qui souhaitent prendre en main la brique ETL de Pentaho : Pentaho Data Integration.
Nous commencerons par une présentation de l'environnement et des premiers flux avant d'aborder des sujets plus pointus tels que les itérations et les fonctionnalités avancées.
A l'issue de cette formation vous serez capable de préparer et croiser vos données afin de créer une vision complète de votre entreprise qui génère des informations exploitables.

Objectifs de cette formation

  • Comprendre les concepts et les cas d'utilisation d'un ETL
  • Appréhender la modélisation de traitements de données avec Pentaho
  • Déployer vos traitements dans un environnement de production

Public visé

  • Tout informaticien amené à gérer des données

Pré-requis

  • Connaissance en SQL

Programme détaillé

Introduction à Pentaho Data Integration

  • Problématiques du SI
  • EAI / ETL
  • Architecture de Pentaho ETL
  • Instrallation

Découverte de l'environnement

  • Premier pas avec Penthao Data Integration
  • Vue d'ensemble des composants

Les premiers Flux

  • Les transformations
  • Les jobs
  • Generate Rows
  • Generate Random value
  • Text file Output
  • CSV Input
  • Write to log
  • Mail
  • Types de liaisons entre composants dans un Job
  • Types de liaisons entre composants dans une transformation
  • Exécuter un job
  • Exécuter une transformation

Traiter les données

  • Sort rows
  • Unique rows
  • Filter rows
  • String cut
  • Replace in string
  • Calculator
  • Join rows
  • Merge join
  • Merge rows
  • Group by

Les métadonnées

  • Vue d'ensemble
  • Créer une métadonnée BDD

Travailler avec les bases de données

  • Base de données supportées
  • Récupérer une table d'une métadonnée
  • Interaction avec la base de données
  • Mise en pratique : Jointure entre 2 tables
  • Mise en pratique : Insert / Update
  • Mise en pratique : Database

Autres composants et fonctionnalités

  • Write to log
  • Set / Get Variables
  • Copy / Get rows to result
  • Web Services Lookup
  • Propriétés d'un job et transformation

Les itérations

  • Cas général : Job
  • Cas général : Transformation
  • Mise en pratique : Itération avec paramètres et Copy rows to result
  • Mise en pratique : Itération avec Copy rows to result et Get rows from result

Gestion des logs et des erreurs

  • Plusieurs types d'erreurs
  • Gestion d'erreurs dans un job
  • Gestion d'erreurs dans une transformation
  • Paramètres de gestion d'erreurs
  • Composant Data Validation
  • Gestion des logs
  • Les niveaux de logs
  • Logs via la console
  • Logs sauvegardés en BDD

Fonctionnalités avancées

  • Déboguer notre application
  • Prévisualiser nos données
  • Ajout de points d'arrêts
  • Parallélisation des traitements

Automatisation et Documentation

  • Exporter vos travaux
  • Kitchen : l'exécuteur de jobs
  • Fichier
  • Repository
  • Tâches planifiées
  • Documenter ses jobs