Poste : Vous venez renforcer l'équipe technique déjà en place.
Missions principales : - Maintenir et améliorer les pipelines de données sur les clusters de calcul haute performance (HPC)
- S'assurer que les pipelines peuvent traiter efficacement de grandes quantités de données et évoluer en fonction des besoins
- Gérer et améliorer les systèmes décisionnels
- Mettre en place des processus pour organiser, nettoyer et déplacer les données
- Collaborer avec les analystes bio-informatiques, les data scientists, les analystes métier et les autres équipes afin de comprendre leurs besoins en données
- Suivre les meilleures pratiques pour assurer la sécurité des données et respecter les exigences de sécurité et de conformité
- Créer et mettre à jour une documentation claire des systèmes et processus de données / partager les connaissances pour aider l'équipe à comprendre le fonctionnement des systèmes
Stack:
AWS, Kubernetes (EKS), Linux, Docker, Parallelcluster, Datadog
PostgreSQL (RDS), Python, DBT, SQL, Groovy (Nextflow)
Airflow, Slurm (HPC)