Dans mon précédent article, nous nous sommes demandé quelles étaient les compétences idéales pour bien démarrer en Data Science. Aux jeunes qui veulent se lancer dans la Data Science, j’avais alors recommandé de commencer par une fonction de Data Engineering plutôt que Data Scientist directement. Aujourd’hui, je vous propose de voir quels sont les apprentissages et les formations à privilégier pour devenir Data Engineer.

Le Data Engineer maîtrise parfaitement les écosystèmes Big Data comme Spark ou Hadoop et bien entendu leur programmation. Le Data Engineer va ainsi tout particulièrement assurer les rôles suivants :

  • Rendre opérationnelle l’infrastructure Big Data
  • Assurer l’ingestion et l’exposition des données dans ou depuis l’infrastructure
  • Assurer la préparation et le recodage 1er niveau des données
  • Programmer, automatiser et optimiser les algorithmes sur l’infrastructure cible

« Un Data Engineer est d’abord un informaticien »

Un Data Engineer est d’abord un informaticien. Les formations universitaires et d’écoles d’ingénieurs classiques en informatique, en Big Data et bien entendu en Data Engineering, sont donc bien adaptées à cette fonction.

Elles doivent si possible inclure une formation la plus poussée possible en langage Python et en langage Scala. Il ne faut pas oublier non plus la maitrise poussée du SQL et de ses « variantes » modernes NoSQL comme Hive, Impala ou Spark SQL.

Les enseignements techniques (nous ne parlons pas ici des « soft skills », lesquels feront l’objet d’un article ultérieur) devront s’organiser autour de plusieurs grands axes qui seront a minima le Big Data, le Cloud, les méthodes DevOps, et bien entendu l’Intelligence Artificielle.

Concernant le Big Data, les incontournables sont bien entendu Spark et Hadoop. Hadoop englobe tout l’écosystème dit « Zookeeper », et inclut des […]

Source : Didier Gaultier – fr.blog.businessdecision.com

Lire l’article

Cet article vous a plu, partagez le sur les réseaux :

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.