Aphp Dsn logo

Data Scientist / Machine Learning Engineer

Aphp Dsn
Temps plein
Sur place
Paris, Paris, France

L’AP-HP

L’AP-HP est un centre hospitalier universitaire à dimension européenne mondialement reconnu.

Ses 38 hôpitaux accueillent chaque année 10 millions de patients : en consultation, en urgence, lors d’hospitalisations programmées ou en hospitalisation à domicile.

Elle assure un service public de santé pour tous, 24h/24, et c’est pour elle à la fois un devoir et une fierté.

L’AP-HP est le premier employeur d’Ile de-France : 95 000 personnes – médecins, chercheurs, paramédicaux, personnels administratifs et ouvriers – y travaillent. http://www.aphp.fr

L’Entrepôt de Données de Santé (EDS)

Les données massives de l’Entrepôt de Données de Santé (EDS) contiennent de très nombreuses informations d’intérêt pour améliorer les connaissances médicales et optimiser le système de santé, mais celles-ci sont souvent présentes de manière diffuse (i.e. l’information est déduite à partir de nombreuses données) et non-structurée (i.e. sous la forme de textes, d’images, de signaux). Il apparaît nécessaire de pré-traiter les données à large échelle et à l’aide d’algorithmes de data science dédiés avant de pouvoir répondre aux questions posées par les utilisateurs de l’EDS. De nombreux algorithmes de Natural Language Processing (NLP) sont en particulier développés, validés et mis en production pour rendre possible l’exploitation des dizaines de millions de comptes rendus cliniques présents dans l’EDS (par exemple la détection automatique du layout des PDF, la pseudonymisation des textes, l’extraction de variables structurées à partir des textes, l’entraînement de modèles de machine learning à large échelle, etc.).

L’équipe Data Science

L’équipe Data Science a pour objectif de faciliter l’analyse de l’Entrepôt de Données de Santé (EDS), principale base de données de santé hébergée au sein de la plateforme Données Massives de l’AP-HP. Elle contient aujourd’hui les données médicales de plus de 11 millions de patients (40 millions de dossiers médicaux, plus de 30 millions de diagnostics, 300 millions de résultats de laboratoires).

L’équipe développe des bibliothèques scientifiques Open Source et des algorithmes qui transforment les données afin de faciliter leur exploitation par les utilisateurs finaux (enrichissement des données par traitement automatique du langage, qualification automatique de la qualité de certaines données, pseudonymisation, constitution de librairies permettant de définir des variables épidémiologiques à partir des données du système d’information clinique, etc.). L’équipe science des données développe également de nombreux partenariats avec organismes de recherche afin de développer l’offre de service en Machine Learning/Deep Learning au sein du Pôle.

Votre mission

Au sein de l’équipe Data Science de la Direction des services Numériques (DSN), vous aurez pour mission de mener des travaux de recherche, d’analyse des données et de développer des algorithmes d’intérêt transverse pour la constitution de l’Entrepôt des Données de Sante (EDS). Vous contribuerez également au développement, à la validation et à la maintenance des algorithmes et librairies scientifiques facilitant l’exploitation des données de l’EDS. Ces travaux se feront en étroite collaboration avec les experts métier au travers de groupes de travail. Parmi les domaines d’application (liste non exhaustive) figurent l’oncologie, la psychiatrie, les interactions médicamenteuses, le diabète, le suivi épidémiologique et la médecine interne. Vous participerez également à la conception d’algorithmes pour l’aide au recrutement des essais cliniques, le pilotage de l’hôpital ou à l’amélioration des services aux patients.

Après vous être familiarisé.e avec la base de données de l’EDS et ses spécificités, vous contribuerez également au développement de modèles de natural language processing (NLP) pour extraire des variables d’intérêt dans les comptes rendus cliniques. Vous serez amené.e à contribuer à des articles scientifiques valorisant d’un point de vue académique ces différents travaux.

Vous serez chargé.e d’interpréter les besoins exprimés par les experts métiers, d’identifier où ces informations sont susceptibles d’être localisées dans la base de données et de développer des algorithmes pour y répondre. Des compétences avancées en modélisation de systèmes complexes seront particulièrement valorisées.

La communauté de data scientists à l’AP-HP est maintenant structurée autour d’ateliers mensuels, de collaborations nombreuses à l’occasion de projets de recherche, et au travers de bibliothèques logicielles open sources qui s’enrichissent de diverses compétences. Le service Data Science organise et anime un certain nombre de ces initiatives. L’équipe est également fortement impliquée dans diverses collaborations avec les organismes de recherche partenaires.

MISSIONS PRINCIPALES

  • Production d’algorithmes pour diverses finalités (recherche, aide au recrutement d’essais cliniques, pilotage, etc.) ;

  • Développement, validation et maintenance de bibliothèques logicielles scientifiques écrites en Python facilitant l’analyse des données de l’EDS

  • Soutien aux projets de recherche en lien étroit avec les médecins et autres experts métier ;

  • Interprétation des besoins exprimés par le métier, synthétisation, modélisation des données pour y répondre et implémentation algorithmique ;

  • Description statistique des données de santé intégrées à l’EDS ;

  • Développement, validation et maintenance des bibliothèques scientifique réalisées par l’équipe facilitant l’analyse des données structurés et textuelles ;

  • Développement de modèles de natural language processing pour extraire des variables des comptes rendus cliniques ;

  • Développement de modèles de machine learning ;

  • Contribution à l’écriture d’articles scientifiques ;

MISSIONS PONCTUELLES OU SPECIFIQUES (liste non exhaustive)

  • Support utilisateur ;

  • Formation au traitement automatique du langage;

  • Conseil interne ;