banner

Nouvelles

Nov 30, 2023

Système de santé

Nature (2023)Citer cet article

5636 accès

511 Altmétrique

Détails des métriques

Les médecins prennent chaque jour des décisions cruciales dans des délais serrés. Les modèles prédictifs cliniques peuvent aider les médecins et les administrateurs à prendre des décisions en prévoyant les événements cliniques et opérationnels. Les modèles prédictifs cliniques basés sur des données structurées existants ont une utilisation limitée dans la pratique quotidienne en raison de la complexité du traitement des données, ainsi que du développement et du déploiement des modèles1,2,3. Ici, nous montrons que les notes cliniques non structurées du dossier de santé électronique peuvent permettre la formation de modèles de langage clinique, qui peuvent être utilisés comme moteurs prédictifs cliniques polyvalents avec un développement et un déploiement à faible résistance. Notre approche s'appuie sur les avancées récentes du traitement du langage naturel4,5 pour former un grand modèle de langage pour le langage médical (NYUTron) et ensuite l'affiner sur un large éventail de tâches prédictives cliniques et opérationnelles. Nous avons évalué notre approche au sein de notre système de santé pour cinq de ces tâches : prédiction de réadmission toutes causes confondues sur 30 jours, prédiction de la mortalité hospitalière, prédiction de l'indice de comorbidité, prédiction de la durée du séjour et prédiction du refus d'assurance. Nous montrons que NYUTron a une aire sous la courbe (AUC) de 78,7 à 94,9 %, avec une amélioration de 5,36 à 14,7 % de l'AUC par rapport aux modèles traditionnels. Nous démontrons en outre les avantages de la préformation avec un texte clinique, le potentiel d'augmentation de la généralisabilité à différents sites grâce à un réglage fin et le déploiement complet de notre système dans un essai prospectif à un seul bras. Ces résultats montrent le potentiel d'utilisation de modèles de langage clinique en médecine pour lire aux côtés des médecins et fournir des conseils au point de service.

Les médecins prennent chaque jour des décisions difficiles nécessitant l'intégration d'une énorme quantité d'informations. Les informations nécessaires pour prendre ces décisions médicales sont dispersées dans divers dossiers, par exemple, les antécédents médicaux d'un patient et les rapports de laboratoire et d'imagerie. Cependant, lorsque les médecins effectuent leur travail, toutes ces informations sont finalement intégrées dans les notes écrites par les médecins pour documenter et résumer les soins aux patients.

Les modèles prédictifs cliniques sont souvent dérivés de règles qui existent depuis des décennies6,7,8,9, ainsi que de méthodes d'apprentissage automatique10,11,12, la plupart s'appuyant sur des entrées structurées tirées du dossier de santé électronique (DSE) ou du clinicien direct. contributions. Cette dépendance à des entrées structurées introduit de la complexité dans le traitement des données, ainsi que dans le développement et le déploiement de modèles, ce qui est en partie responsable de la grande majorité des algorithmes prédictifs médicaux formés, testés et publiés, mais jamais déployés pour évaluer leur impact sur la vie réelle. soins cliniques mondiaux. C'est ce qu'on appelle souvent le « problème du dernier kilomètre » (réf. 1, 2, 3).

L'un des développements récents les plus passionnants de la recherche moderne sur l'intelligence artificielle (IA) concerne les grands modèles de langage (LLM). Il a été démontré que ces réseaux de neurones massifs (avec des millions, voire des milliards de paramètres) obtiennent des résultats percutants sur un large éventail de problèmes qui reposent sur la lecture et l'interprétation du langage humain. Plusieurs styles de LLM ont été développés au cours des dernières années, allant des modèles d'encodeurs (tels que BERT4) aux modèles de décodeurs (tels que GPT3 ; réf. 5). Nous avons émis l'hypothèse que les LLM pourraient potentiellement résoudre le problème du dernier kilomètre dans l'analyse prédictive médicale en lisant simplement les notes écrites par les médecins, accédant ainsi immédiatement à une description complète de l'état de santé d'un patient pour fournir une aide à la décision au point de service dans un large éventail de tâches cliniques et opérationnelles.

Nous présentons ici les résultats du développement, de l'évaluation, du déploiement et de l'évaluation prospective de NYUTron, un système basé sur le LLM qui peut s'intégrer en temps réel aux flux de travail cliniques centrés sur la rédaction de notes et la passation de commandes électroniques. Notre approche repose sur le fait que toutes les données cliniquement utiles et les processus décisionnels des professionnels de la santé peuvent être trouvés sous forme de texte structuré ou non structuré dans le DSE (par exemple, sous forme de notes, de résultats de laboratoire et de rapports d'études). Notre approche s'appuie sur les avancées récentes dans le traitement du langage naturel qui suggèrent que des LLM suffisamment évolutifs et auto-supervisés peuvent surpasser les approches fortement supervisées sur des tâches prédictives non médicales4,5,13. Nous étudions notre hypothèse dans le NYU Langone Health System ("NYU Langone"), un grand système hospitalier multi-arrondissements avec une population de patients diversifiée à New York, avec 4 hôpitaux urbains et 350 sites de consultations externes. Nous évaluons NYUTron sur une batterie de cinq tâches, dont trois tâches cliniques et deux tâches opérationnelles (prédiction de réadmission toutes causes confondues sur 30 jours, prédiction de la mortalité à l'hôpital, prédiction de l'indice de comorbidité, prédiction de la durée du séjour (LOS) et prédiction du refus d'assurance) et fournir une analyse détaillée de notre tâche de réadmission de 30 jours pour examiner les questions d'efficacité des données, de généralisabilité, de déployabilité et d'impact clinique potentiel. En repensant l'ensemble de l'analyse prédictive médicale (voir la section Informations supplémentaires 1.1 pour les travaux précédents) comme un problème de traitement du langage naturel, nous montrons qu'il est possible d'utiliser les LLM comme moteurs de prédiction universels pour un large éventail de tâches prédictives médicales.

Notre approche basée sur un modèle de langage comporte quatre étapes : collecte de données, préformation, ajustement et déploiement. Dans la première étape (Fig. 1a), nous avons collecté un vaste ensemble de notes cliniques non étiquetées et cinq notes cliniques étiquetées spécifiques à une tâche du NYU Langone EHR. Contrairement à d'autres études, nos ensembles de données proviennent de l'ensemble du système hospitalier avec une population de patients diversifiée provenant de différents services cliniques. Notre vaste ensemble de données non étiqueté, "NYU Notes", comprend 7,25 millions de notes cliniques (par exemple, lectures radiographiques, antécédents et examens physiques) de 387 144 patients dans quatre hôpitaux, ce qui donne un corpus de 4,1 milliards de mots organisé de janvier 2011 à mai 2020. Chaque l'un de nos ensembles de réglage fin étiquetés contient 1 à 10 ans de notes cliniques d'hospitalisation (55 791 à 413 845 patients, 51 à 87 millions de mots) avec des étiquettes spécifiques aux tâches (2 à 4 classes). Voir le tableau de données étendu 1 pour les statistiques de l'ensemble de données.

a, Nous avons interrogé le NYU Langone EHR pour deux types d'ensembles de données. L'ensemble de données de préformation, NYU Notes, contient 10 ans de notes cliniques d'hospitalisation (387 144 patients, 4,1 milliards de mots). Il existe cinq ensembles de données de réglage fin. Chacun contient 1 à 10 ans de notes cliniques d'hospitalisation (55 791 à 413 845 patients, 51 à 87 millions de mots) avec des étiquettes spécifiques aux tâches (2 à 4 classes). b, Nous avons préformé un LLM de type BERT de 109 millions de paramètres, appelé NYUTron, sur l'ensemble du DSE en utilisant une tâche MLM pour créer un modèle préformé pour le langage médical contenu dans le DSE. c, Nous avons ensuite affiné le modèle pré-entraîné sur des tâches spécifiques (par exemple, la prédiction de réadmission toutes causes sur 30 jours) et l'avons validé sur des données rétrospectives retenues. d, Enfin, le modèle affiné a été compressé dans un format accéléré et chargé dans un moteur d'inférence, qui s'interface avec le NYU Langone EHR pour lire les notes de sortie lorsqu'elles sont signées par les médecins traitants.

Dans les deuxième et troisième étapes (Fig. 1b, c), nous avons préformé et affiné un LLM pour chaque tâche en aval à l'aide d'un modèle d'encodeur bidirectionnel appelé BERT (Représentation d'encodeur bidirectionnel avec transformateur) et d'un objectif de modélisation de langage masqué (MLM). sur l'ensemble de données NYU Notes11 jusqu'à ce que la perte de validation plafonne. L'objectif MLM masque de manière aléatoire des mots ou des sous-mots dans les notes cliniques et entraîne le modèle linguistique à remplir correctement le mot masqué. Ensuite, à l'aide de l'ensemble de données de réglage fin, nous avons affiné le modèle pré-entraîné (appelé « NYUTron ») pour prédire l'étiquette de la tâche en utilisant les relations apprises lors de la pré-formation avec des notes cliniques.

Dans la quatrième étape (Fig. 1d), nous avons déployé notre meilleur modèle sur un moteur d'inférence hautes performances, NYUTriton, qui s'interface avec le NYU Langone EHR. Le déploiement a permis une inférence guidée par LLM en temps réel au point de service. Dans un essai prospectif non interventionnel à un seul bras, nous avons validé les performances de NYUTron sur la prédiction de réadmission à 30 jours dans un environnement réel et évalué ses impacts cliniques potentiels.

Pour évaluer l'étendue de l'applicabilité de NYUTron, nous avons évalué rétrospectivement les performances de NYUTron sur cinq tâches. Nous nous sommes entraînés avec l'ensemble de données complet et avons évalué les performances avec deux ensembles de tests : (1) un ensemble de tests aléatoires (notes cliniques échantillonnées au même moment que les données d'apprentissage) et (2) un ensemble de tests temporels (notes cliniques échantillonnées à partir du futur de les données d'entraînement). L'ensemble de test temporel ressemble plus au scénario de déploiement, dans lequel les données d'inférence proviennent de l'avenir des données d'apprentissage. Notre batterie de tâches consistait en trois tâches cliniques et deux tâches opérationnelles, comme le montre la Fig. 2a. Nous avons comparé NYUTron à des lignes de base structurées, qui transfèrent les caractéristiques structurées utilisées par les modèles prédictifs cliniques traditionnels dans un modèle tree14 à gradient extrême.

a, Les cinq tâches comprennent trois tâches cliniques et deux tâches opérationnelles. b, Lors de la prédiction de réadmission, NYUTron avait une ASC médiane de 79,9 % ± 0,168 % avec une amélioration de 5,36 %. Sur la prédiction de la mortalité hospitalière, NYUTron avait une ASC médiane de 94,9 % ± 0,168 % avec une amélioration de 7,43 %. Lors de l'imputation de l'indice de comorbidité, NYUTron avait une ASC médiane OVR de 89,4 % ± 0,275 %. Une matrice de confusion est affichée à droite. c, Sur la prédiction LOS groupée, NYUTron avait une ASC médiane de 78,7 % ± 0,179 % avec une amélioration de 12,3 % par rapport à la ligne de base structurée. Sur la prédiction du refus d'assurance, NYUTron avait une ASC médiane de 87,2 % ± 0,246 % avec une amélioration de 14,7 %. Pour b, c, la hauteur de la barre d'erreur est l'ASC médiane et la demi-largeur de la barre d'erreur est de 1 sd Les points gris sont des points de données individuels de n = 5 expériences utilisant des graines aléatoires distinctes.

NYUTron peut être étendu à de multiples tâches cliniques et opérationnelles. La figure 2b et la figure 2c montrent que, sur les tâches de prédiction (mortalité hospitalière, réadmission, LOS et refus d'assurance), NYUTron avait une aire sous la courbe (AUC) de 78,7 à 94,9 %, avec une amélioration de 5,36 à 14,7 % de l'ASC à partir des modèles prédictifs cliniques traditionnels. Sur la tâche d'imputation de l'indice de comorbidité, NYUTron avait une ASC médiane de 89,4 % ± 0,275 %. Nous présentons d'abord nos résultats pour quatre des tâches et concluons par un examen ciblé de la prédiction de la réadmission qui aborde les questions d'efficacité des données, de généralisabilité du modèle et de déploiement dans un environnement réel.

NYUTron est capable de prédire le risque de mortalité hospitalière à l'admission et d'imputer un indice de comorbidité. La tâche de prédiction de la mortalité à l'hôpital était d'estimer (à l'admission) la probabilité de décès d'un patient au cours de la rencontre actuelle avec le patient hospitalisé. La figure 2b montre que, pour la prédiction de la mortalité hospitalière, NYUTron avait une ASC médiane de 94,9 % ± 0,168 %, avec une amélioration de 7,43 % par rapport à sa ligne de base structurée basée sur le score simplifié de physiologie aiguë (SAPS2)15 et l'évaluation de la physiologie aiguë et de la santé chronique (APACHE2)16 caractéristiques telles que l'âge et la fréquence cardiaque moyenne. La tâche d'imputation de l'indice de comorbidité était de prédire (à l'admission) l'indice de comorbidité de Charlson (ICC)17 sans caractéristiques structurées disponibles pour les maladies chroniques. Nous avons défini cela comme un problème d'imputation de données, car 22 % de notre ensemble de données manquait de scores CCI et il s'agissait d'un domaine connu pour l'amélioration de la documentation (voir la section Informations supplémentaires 2.3 pour plus de contexte). Nous avons discrétisé l'indice en quatre groupes selon les degrés de gravité de l'article original (0, aucun ; 1–2, léger ; 3–4, modéré ; ≥5, sévère). La figure 2b montre que, lors de l'imputation de la comorbidité, NYUTron avait une ASC médiane de 89,4 % ± 0,275 % et une précision de 88 % lors de l'identification des patients dont le score CCI était de 0.

NYUTron peut également être utilisé pour les paramètres opérationnels et pour prédire la durée de séjour des patients hospitalisés et le refus de réclamation d'assurance à l'admission. La tâche de prédiction de la durée de séjour était de prédire (à l'admission) la plage probable de jours qu'un patient resterait à l'hôpital. Nous avons discrétisé le LOS en quatre groupes (quantile 0–25 %, quantile 25–50 %, quantile 50–75 %, quantile > 75 %). La figure 2c montre que, pour la prédiction de la durée de séjour, NYUTron avait une ASC médiane un contre repos (OVR) de 78,7 % ± 0,179 %, avec une amélioration de 12,3 % par rapport à la ligne de base structurée, qui utilisait un sous-ensemble disponible de caractéristiques "Lisbonne Portugal"18 . La tâche de prédiction du refus de réclamation d'assurance était de prédire (à l'admission) si les réclamations d'assurance soumises pour une rencontre seraient acceptées ou initialement refusées. La figure 2c montre que, pour la prédiction du refus d'assurance, NYUTron avait une AUC médiane de 87,2 % ± 0,246 %, avec une amélioration de 14,7 % par rapport à la ligne de base structurée, qui utilisait un sous-ensemble disponible de caractéristiques de «formulaire de réclamation»19 telles que l'âge et le fournisseur d'assurance. NYUTron est également capable de prédire différents types de refus à partir des notes d'admission et des notes de sortie avec des performances similaires (Informations supplémentaires, section 2.2).

Pour mieux comprendre les performances de NYUTron, nous avons effectué une analyse détaillée de la prédiction de réadmission toutes causes confondues sur 30 jours. La tâche de prédiction de réadmission est de prédire (à la sortie) la probabilité qu'un patient revienne à l'hôpital dans les 30 jours et est un problème bien étudié dans la littérature informatique médicale (voir la section Informations supplémentaires 2.1 pour plus de détails sur la prédiction de réadmission tâche). La figure 2b montre que, pour la prédiction de réadmission toutes causes confondues sur 30 jours, NYUTron avait une ASC médiane de 79,87 % ± 0,168 %, avec une amélioration de 5,36 % par rapport à sa ligne de base structurée, qui utilisait les caractéristiques LACE20 (un mnémonique pour LOS, l'acuité de l'admission , indice de comorbidité de Charlson et nombre de visites aux urgences au cours des 6 derniers mois). Nous avons effectué cinq évaluations supplémentaires dans des contextes rétrospectifs et prospectifs : (1) une comparaison humaine avec six médecins traitants pour la prédiction de la réadmission pour 20 cas de patients échantillonnés à partir d'une répartition aléatoire, (2) une étude des propriétés de mise à l'échelle de NYUTron par rapport aux données dans lequel NYUTron et d'autres modèles ont été comparés à l'aide d'un nombre différent de points de données affinés, (3) une évaluation de la généralisabilité intersite de NYUTron à l'aide de données de préformation, d'ajustement et de test provenant de différents emplacements, (4) une étude prospective, unique bras, étude non interventionnelle pour évaluer la capacité de déploiement de NYUTron et (5) une évaluation qualitative par un panel de médecins de la performance prospective de NYUTron pour évaluer les impacts cliniques.

Sur de petits échantillons, NYUTron était compétitif avec un petit groupe de médecins pour prédire la réadmission dans les 30 jours. Nous avons testé un groupe de six médecins à différents niveaux d'ancienneté contre NYUTron dans une comparaison directe afin d'établir une difficulté de base pour prédire la réadmission toutes causes confondues dans les 30 jours au moment de la sortie. Les résumés de sortie (n = 20, dont 11 cas positifs et 9 cas négatifs) ont été échantillonnés à partir d'une répartition aléatoire et téléchargés sur une plateforme d'évaluation en ligne. La performance médiane des médecins était moins bonne que celle de NYUTron (Fig. 3a). Pour les médecins et NYUTron, le taux médian de faux positifs (FPR) était de 11,11 %, tandis que le taux médian de vrais positifs (TPR) était de 50 % pour les médecins contre 81,82 % pour NYUTron. Les médecins avaient un score F1 médian de 62,8 % et une variance substantielle de 22,2 % par rapport à NYUTron, qui avait un score F1 médian de 77,8 %.

a, Sur 20 cas échantillonnés à partir d'une répartition aléatoire, nous avons comparé le TPR et le FPR de NYUTron avec ceux de six médecins. NYUTron (triangles oranges) avait un TPR plus élevé et le même FPR par rapport à la performance médiane des médecins (cercles verts). La bande d'erreur pour AUC va du minimum au maximum, et les croix oranges indiquent TPR et FPR en utilisant tous les seuils possibles. Nous avons choisi le seuil de NYUTron sur la base des données de validation. b, Comparaison des AUC de test temporel de différents LLM pré-entraînés avec un nombre croissant d'exemples de réglage fin. Pour plus de simplicité, nous omettons la variance et ne traçons que la performance médiane de cinq essais. Les différences de performances médianes avec 100 et 1 000 exemples sont moins notables car les AUC avec peu d'exemples de réglage fin ont une variance élevée (à 100 exemples, nous avions une variance de 4,26 % à 9,56 % ; à 1 000 exemples, nous avions une variance de 0,44 % à 9,46 %) . La variance de l'AUC diminue avec plus d'exemples de réglage fin. La ligne pointillée horizontale à 0,75 correspond au seuil de performance. Voir les présentations alternatives dans les données étendues Fig. 7. c, d, Performances de test temporelles de NYUTron en utilisant des données de pré-formation, de réglage fin et de test provenant de différents sites. Pour les deux tests de Manhattan et de Brooklyn, la colonne correspondant au réglage fin local montre de meilleures performances que celle avec le réglage fin externe. Chaque entrée dans c,d est présentée comme la moyenne ± 1 sd pour n = 5 expériences utilisant des graines aléatoires distinctes.

La répartition aléatoire ne ressemble pas au scénario de déploiement, dans lequel les données de test proviennent du futur des données d'apprentissage. Nous avons donc créé une répartition temporelle pour simuler le déploiement et observé une différence significative dans les statistiques de test par rapport à la répartition aléatoire (l'AUC du test aléatoire était de 84,13 %, alors que l'AUC du test temporel était de 80,2 %), confirmant l'importance de cette deuxième phase de test ( comparaison plus poussée dans les données étendues Fig. 1).

NYUTron est compétitif avec les modèles traditionnels et autres LLM. Nous avons évalué l'efficacité de NYUTron en comparant ses performances de test sur le fractionnement temporel à celles d'un modèle traditionnel et de quatre types différents de LLM. NYUTron avait l'AUC la plus élevée lorsqu'il était affiné avec l'ensemble de données complet (Fig. 3b), avec une AUC médiane de 79,87 % ± 0,17 %, ce qui était similaire à l'AUC clinique + web-wiki + bio de 80,14 % ± 0,26 %. Par rapport aux LLM préformés avec du texte non clinique (web-wiki + bio et web-wiki), l'ASC médiane de NYUTron était de 2,37 % à 3,23 % supérieure. Comparé au modèle traditionnel qui utilise des caractéristiques structurées (lace + xgb), NYUTron avait une AUC de 5,36 % plus élevée. Comparé à un modèle utilisant l'intégration du traitement du langage naturel (PNL) traditionnel (tf-idf + xgb), NYUTron avait une ASC médiane supérieure de 12,8 % (Extended Data Fig. 2a).

Un LLM formé sur des notes cliniques non structurées s'adapte mieux aux données que les modèles structurés traditionnels. Par rapport à lace+xgb, NYUTron bénéficie d'un nombre croissant d'exemples étiquetés et a obtenu une meilleure AUC lorsqu'il a été affiné avec l'ensemble de données complet. La figure 3b montre que lace + xgb (ligne jaune pointillée) et NYUTron (ligne verte continue) avaient des AUC similaires à 100 et 1 000 exemples. Cependant, l'AUC de NYUTron s'est constamment améliorée avec plus d'exemples alors que l'AUC de lace+xgb a commencé à plafonner (de 100 à 1 000 exemples, l'AUC de NYUTron a augmenté de 7,27 % alors que celle de lace+xgb a augmenté de 3,98 % ; de 10 000 à 392 336 exemples, l'AUC de NYUTron a augmenté de 2,15 % alors que celle de lace+xgb a augmenté de 0,63 %). Avec l'ensemble de données de réglage fin complet, NYUTron avait une ASC de 7,04 % supérieure à celle de lace+xgb.

Le pré-entraînement sur une grande quantité de notes cliniques non étiquetées contribue à la performance. Comparé au LLM initialisé de manière aléatoire (random-init), NYUTron apprend à mieux généraliser à partir de moins d'exemples. La figure 3b montre que, alors que NYUTron avait besoin de 10 000 exemples pour atteindre une AUC d'environ 75 %, random-init avait besoin de 100 000 exemples. Nous avons également observé une tendance similaire dans une autre tâche de prédiction clinique : NYUTron a obtenu de meilleurs résultats que le modèle d'initialisation aléatoire (score F1 supérieur de 36,83 %) et les modèles non préformés cliniquement (score F1 supérieur de 2,06 % à 3,73 %) sur l'entité clinique nommée. reconnaissance (NER) du challenge i2b2 2012 (Extended Data Fig. 2b).

Il est intéressant de faire correspondre le domaine du corpus de préformation et le domaine du corpus de mise au point. La figure 3b montre trois éléments de preuve : les LLM préformés sur du texte non clinique (web-wiki et web-wiki + bio) avaient des performances similaires à random-init. Un LLM distinct, web-wiki + bio + clinique, avait des performances similaires à celles de NYUTron. Troisièmement, par rapport aux LLM préformés sur du texte non clinique (web-wiki et web-wiki+bio), les LLM préformés cliniquement (NYUTron et web-wiki+bio+clinical) ont appris à mieux généraliser à partir de moins d'exemples. Voir Extended Data Fig. 3 pour une comparaison du corpus de préformation.

Avoir une correspondance de domaine étroite pendant la pré-formation est particulièrement bénéfique dans le cadre de données faibles pendant le réglage fin. Nous avons comparé deux modèles linguistiques pré-entraînés sur des textes cliniques provenant de différents systèmes hospitaliers, NYUTron (NYU Langone Health) et web-wiki+bio+clinical (Université de Floride). La figure 3b montre que, à 1 000 exemples, NYUTron (le modèle dans le domaine) avait une AUC plus élevée pour la prédiction de réadmission de NYU Langone que web-wiki + bio + clinique (le modèle hors domaine). Notamment, l'avantage de NYUTron a disparu à mesure que le nombre d'exemples de réglage fin augmentait, ce qui suggère qu'un réglage fin suffisant dans le domaine peut adapter des modèles qui ont été préformés hors du domaine.

Les modèles de langage clinique montrent une généralisabilité à différents sites grâce à un ajustement local. Pour étudier la robustesse de NYUTron dans les environnements cliniques, nous avons choisi deux hôpitaux géographiquement séparés au sein du NYU Langone Health System. Par souci de concision, nous nous référons à l'hôpital Tisch de Manhattan sous le nom de « Manhattan », à l'hôpital NYU Langone–Brooklyn sous le nom de « Brooklyn » et aux quatre hôpitaux du système de santé NYU Langone (Manhattan, Brooklyn, NYU Langone Orthopaedic Hospital et NYU Langone Hospital–Long Island ) comme "tous les sites". Nous avons considéré trois LLM préformés sur différents sites : le premier a été préformé à Manhattan, le second a été préformé à Brooklyn et le troisième a été préformé sur tous les sites. Pour chacun des LLM préformés, nous avons affiné le LLM avec un ensemble de données de réadmission de Manhattan ou de Brooklyn. Enfin, nous avons demandé au LLM affiné de prédire la réadmission sur la base des notes de sortie de Manhattan ou de Brooklyn. La figure 3c,d montre que le LLM préformé sur tous les sites a obtenu les meilleures performances à la fois sur le « test Manhattan » et le « test Brooklyn ». Pour tous les LLM, un réglage fin avec l'ensemble de données local ("fine-tune Manhattan/Brooklyn") a conduit à une AUC de test plus élevée sur le site de test ("test Manhattan/Brooklyn") par rapport à un réglage fin sur un autre site (" peaufiner Brooklyn/Manhattan'). Par conséquent, un pré-entraînement avec des données de tous les sites et un réglage local est le meilleur moyen d'optimiser les performances. Nous avons effectué des analyses supplémentaires qui ont montré que NYUTron est capable de se généraliser à un système de santé différent grâce à un réglage local (Informations supplémentaires section 4.1 et données étendues Fig. 4) et comparé la robustesse de NYUTron et de lace+xgb par rapport aux sites de formation ( Informations supplémentaires section 4.2). Nous avons également constaté que NYUTron est sensible aux notes de différents services cliniques et de patients ayant des caractéristiques démographiques différentes et que ses performances fluctuent au fil des mois (Extended Data Figs. 5 et 6). Les causes des divergences peuvent être très complexes (discutées dans la section Informations supplémentaires 4.3) et seront étudiées dans des travaux futurs.

Pour évaluer les performances de NYUTron en dehors de l'environnement de développement, nous avons sélectionné un modèle sur la base des résultats de l'essai rétrospectif et mené un essai prospectif de janvier à avril 2022. Au cours de cette période, nous avons déployé NYUTron dans un format accéléré et l'avons chargé dans une inférence moteur, qui s'interface avec le DSE, pour lire les notes de sortie telles qu'elles ont été signées par les médecins traitants. Au cours de cette période, il y a eu 29 286 consultations avec sortie, avec 3 271 patients (11,17 %) revenant dans les 30 jours. NYUTron a prédit 2 692 des 3 271 réadmissions (82,30 % de rappel) avec une précision de 20,58 %. La figure 4a montre que NYUTron avait une AUC de 78,70 %.

a, NYUTron avait une ASC de 78,70 % dans un essai prospectif non interventionnel à un seul bras avec un rappel de 82,3 % et une précision de 20,6 %. b, Un panel de six médecins a examiné les résultats de NYUTron pour un impact clinique potentiel. Sur 100 réadmissions qui ont été identifiées avec succès par NYUTron, 61 % étaient des réadmissions non planifiées, 50 % auraient entraîné une sanction en vertu des directives du CMS et 27 % étaient évitables au moment de la sortie selon l'opinion consensuelle du panel de médecins multi-spécialités qui ont examiné les cas du procès prospectif. Voir la section 2.1 des informations supplémentaires pour une discussion sur l'étiquette de réadmission et l'importance pratique de la performance observée.

Pour évaluer l'impact clinique potentiel, un groupe de six médecins a effectué une évaluation qualitative de 100 cas de réadmission échantillonnés au hasard qui ont été capturés par NYUTron après la conclusion de l'essai. L'examen des médecins a suggéré que certaines prédictions vraiment positives de NYUTron sont des réadmissions cliniquement significatives et évitables. Dans l'ensemble, les patients réadmis qui devaient être réadmis étaient 6,02 fois plus susceptibles de mourir à l'hôpital et de rester 2,93 jours de plus (P < 10−4). Comme le montre la Fig. 4b, 61 % des cas prédits n'étaient pas planifiés et les probabilités moyennes prédites pour ces réadmissions non planifiées étaient inférieures à celles des réadmissions planifiées (31,9 % ± 31,1 % contre 82,1 % ± 27,3 % ; P < 10−4 ). Parmi les réadmissions non planifiées, 19,67 % des patients ont subi un événement indésirable ou un décès lors de la réadmission, 50 % de ces événements étant considérés comme évitables par le panel de médecins. D'un point de vue financier, 81,9% des réadmissions non planifiées seraient pénalisées selon les directives des Centers for Medicare and Medicaid Services (CMS). Parmi les cas pénalisables, 54 % ont été considérés comme évitables. Notamment, 3 des 27 réadmissions évitables souffraient d'entérocolite à Clostridioides difficile, une infection bactérienne contagieuse associée aux soins de santé qui provoque le décès de 1 personne sur 11 âgée de plus de 65 ans en 1 mois21.

Nous présentons notre travail de développement, de formation, de validation et de déploiement de NYUTron, un LLM à l'échelle du système de santé conçu et validé pour une utilisation clinique. Nous démontrons les performances de NYUTron sur trois tâches cliniques (prédiction de la mortalité des patients hospitalisés, prédiction de l'indice de comorbidité et prédiction de la réadmission) et deux tâches opérationnelles (prédiction du refus de réclamation d'assurance et prédiction de la durée de séjour des patients hospitalisés). Nous avons également effectué une analyse détaillée de la prédiction de la réadmission en raison de son importance clinique et opérationnelle et de son histoire bien documentée dans la littérature informatique médicale. Nous considérons la flexibilité de notre approche dans l'utilisation d'une architecture d'encodeur (BERT), qui repose uniquement sur des entrées de texte non structurées pour générer une seule prédiction, comme étant une vertu, et nous prévoyons de nombreuses tâches futures basées sur ce paradigme fondamental pour aider à de multiples aspects. des soins aux patients et l'automatisation des opérations hospitalières.

Une considération éthique dans le déploiement est que les médecins et les administrateurs pourraient trop se fier aux prédictions de NYUTron en raison de son intégration transparente avec les flux de travail médicaux existants, entraînant ainsi des résultats indésirables. Des recherches supplémentaires sont nécessaires pour optimiser les interactions homme-IA, ainsi que le développement d'évaluations standardisées pour les sources de biais ou d'autres points de défaillance inattendus. Les travaux en cours de notre groupe sur la mesure de la similarité entre les schémas de sensibilité des modèles linguistiques et ceux des médecins par le biais de perturbations symboliques des notes cliniques22 sont l'un des nombreux efforts de ce type.

Les grands LLM génératifs présentent également une opportunité unique d'intégration dans les flux de travail médicaux; cependant, ils dépendent fortement des entrées et des incitations de l'utilisateur23 et ne sont pas aussi facilement adaptés à l'automatisation des tâches cliniques et opérationnelles de base. L'intégration transparente dans les flux de travail informatiques médicaux existants est une vertu de notre approche, et nous espérons que ce travail se présentera comme une solution flexible au problème du dernier kilomètre - tout algorithme de données structurées peut être reconceptualisé et rapidement prototypé dans ce cadre. Dans le cadre de la surveillance de l'impact d'un tel système sur le comportement des médecins et sur les patients, il devrait y avoir un niveau de supervision continue pour capturer les interactions homme-machine, ainsi que pour atténuer le risque de dérive du modèle au fil du temps. Nous discutons de notre mise en œuvre d'un tel système dans la section Informations supplémentaires 5.

Notre approche consistant à utiliser un modèle de langage d'encodeur plus petit (<1 milliard de paramètres) formé sur des données hautement personnalisées représente un écart marqué par rapport à la tendance actuelle de la recherche sur les modèles de langage qui se concentre sur des modèles génératifs massifs (>1 milliard de paramètres) préformés sur de grands, non -des ensembles de données spécifiques. Néanmoins, même des LLM relativement petits, tels que ceux utilisés dans cette étude, nécessitent une quantité importante de temps de calcul pour la préformation. Notre pré-formation a utilisé 24 GPU NVIDIA A100 avec 40 Go de VRAM pendant 3 semaines, et notre réglage fin a utilisé 8 GPU A100 pendant 6 heures par exécution. Cette quantité de calculs n'est généralement pas accessible aux groupes de recherche, bien que nous notions qu'elle est inférieure à celle des projets LLM similaires régulièrement poursuivis par des groupes de recherche de l'industrie et que nos résultats indiquent qu'une préformation massive peut ne pas être nécessaire pour obtenir des modèles hautement performants. Nos résultats montrent que les ensembles de données de haute qualité pour le réglage fin sont plus précieux que la pré-formation et, sur la base de nos résultats expérimentaux, nous recommandons aux utilisateurs de peaufiner localement un modèle de langage pré-formé en externe lorsque la capacité de calcul est limitée. En ce qui concerne le choix du modèle préformé en externe, nous recommandons en outre d'utiliser un modèle préformé avec une grande quantité de texte clinique dans le domaine, bien que nous notions que les grands modèles hors domaine peuvent être très performants, en particulier lorsqu'ils sont combinés avec réglage fin du domaine. Le travail avec de plus grandes architectures basées sur des décodeurs a également démontré un avantage avec un réglage fin sur les données médicales ou un réglage rapide avec la chaîne de pensée, les instructions et les techniques connexes24,25, ce qui souligne encore la nécessité de tenir compte du changement de domaine du texte général au texte médical pour les travaux de maîtrise en sciences médicales. Bien que nous n'ayons pas comparé ces approches directement (ce qui nécessiterait plus de texte médical ou une fusion avec un texte de domaine général pour entraîner un modèle de calcul optimal26), nous pensons que cela pourrait être une direction future intéressante pour la recherche et qu'en fin de compte, des approches combinant ces différentes approches de modélisation du langage peuvent s'avérer complémentaires selon les cas d'utilisation.

La validation ultime de notre approche doit provenir d'essais contrôlés randomisés d'interventions liées à des prédictions de tâches individuelles pour évaluer leur impact clinique et des commentaires des utilisateurs alors que nous continuons à intégrer NYUTron dans les systèmes de santé. Comme nous planifions cela au sein de notre propre système de santé, nous recommandons la prise en compte de différents niveaux d'intervention en fonction du risque prévu des patients pour chaque tâche. Par exemple, pour un patient à faible risque de réadmission dans les 30 jours, des appels de suivi pourraient être programmés ; pour un patient à haut risque, il faut veiller à limiter la sortie prématurée. Toutes les interventions doivent être décidées sous la supervision d'un médecin, bien que de nombreuses utilisations opérationnelles puissent probablement être entièrement automatisées.

C'est un rêve de longue date pour les médecins d'avoir des assistants d'intelligence artificielle qui observent les soins avec eux et qui font des prédictions et des conseils. Pour faire un pas vers cette vision futuriste, nous avons formé un LLM, NYUTron, sur l'ensemble du DSE d'un grand système de santé pour lire les notes des médecins et faire plusieurs de ces prédictions dans un large éventail de tâches cliniques et opérationnelles. Nous avons déployé NYUTron dans un environnement de soins de santé en direct et démontré son efficacité à prédire la réadmission dans les 30 jours tout en étant intégré de manière transparente dans les flux de travail cliniques. Nous pensons que ce travail ouvre la porte à la traduction des progrès du traitement moderne du langage naturel et de l'apprentissage en profondeur pour améliorer la qualité et l'accessibilité des soins de santé, et nous sommes ravis de voir ce qui va suivre.

Nous avons créé cet ensemble de données de notes cliniques non étiquetées directement à partir du NYU Langone EHR. L'ensemble de données contient 387 144 patients, 7 247 694 notes et 4 112 249 482 mots au total. Nous avons construit NYU Notes comme suit : nous avons écrit des scripts de langage de requête structuré (SQL) pour interroger le NYU Langone EHR. Nous avons d'abord prototypé les requêtes avec un éditeur Web interactif (Cloudera Hue), puis nous avons téléchargé les résultats de la requête sous forme de fichiers séparés par des virgules (CSV) dans le cluster de calcul haute performance de NYU Langone. Nous avons inclus des notes signées par des professionnels de la santé (médecins, résidents, assistants médicaux, infirmières praticiennes et boursiers) de l'hôpital Tisch, de l'hôpital NYU Langone–Brooklyn, de l'hôpital NYU Langone–Long Island et de l'hôpital orthopédique NYU Langone de 2011 à 2020 (inclus). Nous avons exclu toutes les notes dérivées de la facturation, étiquetées comme non valides ou vides. Nous avons divisé les notes en trois ensembles, ensembles d'entraînement, de validation et de test, avec un ratio de 949:50:1. Enfin, nous avons masqué les jetons avec une probabilité de 15 % pour créer du texte et des étiquettes masqués.

Nous avons créé cet ensemble de données de notes cliniques non étiquetées en tant que sous-ensemble de notes NYU rédigées à l'hôpital Tisch de Manhattan. L'ensemble de données contient 256 217 patients, 4 342 602 notes et 2 381 466 993 mots au total.

Nous avons créé cet ensemble de données de notes cliniques non étiquetées en tant que sous-ensemble de notes NYU rédigées dans NYU Langone Health–Brooklyn. L'ensemble de données contient 104 521 patients, 1 337 352 notes et 1 102 078 012 mots au total.

Nous avons créé cet ensemble de données de notes de sortie étiquetées (avec des étiquettes binaires pour la réadmission) du NYU Langone EHR. La plupart des notes de cet ensemble de données sont un sous-ensemble de notes NYU, avec des notes de décharge supplémentaires à partir de 2021 pour le test temporel. L'ensemble de données contient 413 845 patients, 506 740 notes et 487 395 462 mots au total. Nous avons construit cet ensemble de données comme suit : pour chaque rencontre qui s'est terminée entre janvier 2011 et novembre 2021, nous avons inclus sa note de sortie avec une étiquette binaire pour une réadmission toutes causes confondues dans les 30 jours. Nous avons attribué l'étiquette «réadmis» si le patient avait une note d'admission dans les 30 jours suivant sa sortie. Pour nous concentrer sur la modélisation des réadmissions en soins aigus, nous avons exclu les notes de sortie des services de réadaptation, de dialyse et de soins palliatifs, car il ne s'agissait pas d'admissions en soins aigus. Nous avons divisé l'ensemble de données en quatre ensembles : ensembles d'entraînement, de validation, de test et de test temporel. Les trois premières séries étaient des notes de janvier 2011 à mai 2021, avec un ratio de 8:1:1. L'ensemble de test temporel comprenait des notes de juin à décembre 2021. Voir les données étendues Fig. 8a pour une visualisation de la répartition en quatre.

Nous avons créé cet ensemble de données de notes cliniques non étiquetées en tant que sous-ensemble de notes dans l'ensemble de données NYU Readmission qui ont été écrites à l'hôpital Tisch de Manhattan. L'ensemble de données contient 240 824 patients, 296 519 notes et 253 622 053 mots.

Nous avons créé cet ensemble de données de notes cliniques non étiquetées en tant que sous-ensemble de notes cliniques de l'ensemble de données NYU Readmission qui ont été écrites dans NYU Langone Health–Brooklyn. L'ensemble de données contient 94 653 patients, 113 275 notes et 142 767 957 mots.

Nous avons créé cet ensemble de données de notes historiques et physiques (H&P) avec des étiquettes binaires pour la mortalité hospitalière à partir du NYU Langone EHR. La plupart des notes de cet ensemble de données sont un sous-ensemble de notes NYU, avec des notes H&P supplémentaires de 2021 pour le test temporel. L'ensemble de données contient 371 922 patients, 469 162 notes et 484 467 141 mots au total. Nous avons construit cet ensemble de données comme suit : pour chaque rencontre qui s'est terminée entre janvier 2011 et novembre 2021, nous avons inclus sa note H&P avec une étiquette binaire pour la mortalité hospitalière. Nous avons attribué l'étiquette positive si la disposition de sortie du patient était « expirée ». Nous avons divisé l'ensemble de données en quatre ensembles : ensembles d'entraînement, de validation, de test et de test temporel. Les trois premiers ensembles étaient des notes de janvier 2011 à mai 2021, avec un rapport de 8:1:1, et l'ensemble de test temporel comprenait des notes de juin à décembre 2021.

Nous avons créé cet ensemble de données de notes H&P avec cinq étiquettes de classe pour l'hôpital LOS du NYU Langone EHR. La plupart des notes de cet ensemble de données étaient un sous-ensemble de notes NYU, avec des notes H&P supplémentaires de 2021 pour le test temporel. L'ensemble de données contient 327 039 patients, 403 579 notes et 422 485 417 mots au total. L'ensemble de données contient moins de rencontres étiquetées que les ensembles de données NYU Mortality et NYU Binned LOS car 22 % des rencontres n'avaient pas de codes de classification internationale des maladies (ICD) pour calculer le score CCI. Cette absence a motivé notre tâche de prédire le score CCI groupé avec un manque de codes CIM structurés. Nous avons construit cet ensemble de données comme suit : pour chaque rencontre qui s'est terminée entre janvier 2011 et novembre 2021, nous avons inclus sa note H&P avec une étiquette à cinq classes pour le score CCI regroupé. Pour générer les étiquettes, nous avons d'abord calculé l'indice de comorbidité à l'aide des codes CIM et de la fonction de notation dans la réf. 27. Nous avons ensuite discrétisé les scores en cinq classes : nous avons attribué le label 0 pour un indice de comorbidité inférieur au quantile 50 % (0 jour), le label 1 pour un indice de comorbidité compris entre le quantile 50 % et 75 % (1–2 jours), label 2 pour un index de comorbidité entre le quantile 75% et 90% (3-4 jours), label 3 pour un index de comorbidité entre le quantile 90% et 99% (4-7 jours) et label 4 pour un index de comorbidité supérieur au Quantile à 99 % (>7 jours). Nous avons divisé l'ensemble de données en quatre ensembles : ensembles d'entraînement, de validation, de test et de test temporel. Les trois premiers ensembles étaient des notes de janvier 2011 à mai 2021, avec un rapport de 8:1:1, et l'ensemble de test temporel comprenait des notes de juin à décembre 2021.

Nous avons créé cet ensemble de données de notes H&P avec des étiquettes quantiles pour la durée de séjour de l'hôpital à partir du NYU Langone EHR. La plupart des notes de cet ensemble de données étaient un sous-ensemble de notes NYU, avec des notes H&P supplémentaires de 2021 pour le test temporel. L'ensemble de données contient 371 922 patients, 469 162 notes et 484 467 141 mots au total. Nous avons construit cet ensemble de données comme suit : pour chaque rencontre qui s'est terminée entre janvier 2011 et novembre 2021, nous avons inclus sa note H&P avec une étiquette binaire et une étiquette quantile pour la LOS. Pour l'étiquette quantile, nous avons attribué l'étiquette 0 pour une DS inférieure au quantile 25 % (0-2 jours), l'étiquette 1 pour une DS entre les quantiles 25 % et 50 % (3 jours), l'étiquette 2 pour une DS entre les 50 jours % et quantile à 75 % (4 à 5 jours) et étiquette 3 pour une durée de séjour supérieure au quantile à 75 % (> 5 jours). Nous avons divisé l'ensemble de données en quatre ensembles : ensembles d'entraînement, de validation, de test et de test temporel. Les trois premiers ensembles étaient des notes de janvier 2011 à mai 2021, avec un rapport de 8:1:1, et l'ensemble de test temporel comprenait des notes de juin à décembre 2021.

Nous avons créé cet ensemble de données de notes H&P avec des étiquettes binaires indiquant si la réclamation d'assurance du patient a été initialement rejetée ou directement approuvée. L'ensemble de données contient 54 563 patients, 55 791 notes et 51 270 256 mots au total. Nous avons construit cet ensemble de données comme suit : pour chaque rencontre qui s'est produite entre le 1er mai 2021 et le 30 avril 2022, nous avons inclus sa note H&P avec une étiquette binaire pour le refus d'assurance. Nous avons attribué une étiquette positive si le statut de la réclamation d'assurance du patient était «décision finale défavorable» (la demande a été rejetée par l'assurance et a été à nouveau rejetée après l'appel) ou «détermination finale favorable» (la demande a été rejetée par l'assurance et approuvée après l'appel). Nous avons divisé l'ensemble de données en quatre ensembles : ensembles d'entraînement, de validation, de test et de test temporel. Les trois premiers ensembles étaient des notes du 1er mai 2021 au 30 février 2022, avec un rapport de 18: 1: 1. L'ensemble de test temporel comprenait des notes du 1er mars au 30 avril 2022.

Nous avons créé cet ensemble de données de notes de sortie avec des étiquettes binaires indiquant si la réclamation d'assurance du patient a été initialement rejetée ou directement approuvée. L'ensemble de données contient 54 563 patients, 55 791 notes et 49 405 133 mots au total. Nous avons construit cet ensemble de données comme suit : pour chaque rencontre survenue entre le 1er mai 2021 et le 30 avril 2022, nous avons inclus sa note de sortie avec une étiquette binaire pour le refus d'assurance. L'attribution d'étiquettes et la répartition à quatre facteurs étaient les mêmes que dans l'ensemble de données NYU Insurance Denial.

Cet ensemble de données contenait les mêmes notes que l'ensemble de données NYU Insurance Denial, mais les étiquettes étaient différentes. L'étiquette binaire indiquait si la réclamation d'assurance du patient a finalement été rejetée (même après appel) ou a finalement été approuvée (approbation directe ou approbation après appel).

Cet ensemble de données contenait les mêmes notes que l'ensemble de données NYU Insurance Denial–Discharge Notes, mais les étiquettes étaient différentes. L'étiquette binaire indiquait si la réclamation d'assurance du patient a finalement été rejetée (même après appel) ou a finalement été approuvée (approbation directe ou approbation après appel).

Il s'agit d'un ensemble de données ouvert publié par la Harvard Medical School dans le cadre d'un défi clinique annuel de la PNL28. Cet ensemble de données est une référence bien connue dans la communauté clinique de la PNL. La tâche consiste à identifier et à classer les concepts cliniques (par exemple, les traitements), les services cliniques (par exemple, la chirurgie), les occurrences d'événements (par exemple, l'admission) et les preuves (par exemple, le patient s'est plaint) à partir de notes cliniques anonymisées. du Beth Israel Medical Center à Boston. L'ensemble de données ne contient pas plus de 310 patients, 310 notes et 636 000 mots. Nous avons téléchargé l'ensemble de données sous forme de fichier tar.gz compressé à partir du portail de données n2c2 après l'approbation de notre application d'utilisation.

Il s'agit d'un ensemble de données ouvert pour un DSE d'unité de soins intensifs (USI) publié par le MIT et le Boston Beth Israel Medical Center29. Nous avons collecté un ensemble de 52 726 notes de sortie et créé une étiquette de réadmission toutes causes confondues sur 30 jours en vérifiant s'il y a eu une rencontre ultérieure dans les 30 jours. Le taux de réadmission était de 6 %. Nous divisons les données en ensembles d'entraînement, de validation et de test dans un rapport de 8:1:1.

Cet ensemble de données se compose de notes de sortie avec des étiquettes binaires pour la réadmission de notre moteur de déploiement et du NYU Langone EHR. De janvier à avril 2022, chaque fois qu'une note de sortie était signée par un médecin, la note était envoyée à notre moteur d'inférence personnalisé pour la prédiction de NYUTron. La note de sortie et la prédiction appariées ont été enregistrées dans une base de données. La base de données contenait 27 376 patients, 29 287 notes et 34 669 963 mots à la fin de la période d'étude.

Nous avons créé cet ensemble de données de fonctionnalités LACE30 structurées avec des étiquettes binaires pour la réadmission à des fins de comparaison avec les modèles non structurés. L'ensemble de données contient des caractéristiques structurées pour toutes les rencontres dans l'ensemble de données de réadmission de NYU. LACE est une règle de prédiction clinique traditionnelle pour la réadmission avec quatre caractéristiques : la durée de séjour, l'acuité de la réadmission, l'indice de comorbidité de Charlson et le nombre de visites récentes aux urgences au cours des 6 derniers mois. Nous avons construit l'ensemble de données comme suit : pour chaque rencontre dans l'ensemble de données NYU Readmission, nous avons collecté des données sur les quatre caractéristiques LACE du NYU Langone EHR. La DS était la différence (en jours) entre la date de sortie et la date d'admission. L'acuité de la réadmission était une caractéristique binaire indiquant si le patient avait été admis au service des urgences. L'indice de comorbidité a été calculé avec les codes ICD-9 ou ICD-10 pour les maladies chroniques, sur la base de l'algorithme de cartographie de la réf. 31 et la fonction de notation dans la réf. 27. Le nombre de visites aux urgences a été calculé à partir de l'historique des consultations du patient jusqu'à 6 mois avant la date d'admission.

Nous avons créé cet ensemble de données de caractéristiques LACE structurées à partir du sous-ensemble de notes de l'ensemble de données NYU Readmission–LACE qui ont été écrites à l'hôpital Tisch de Manhattan.

Nous avons créé cet ensemble de données de caractéristiques LACE structurées à partir du sous-ensemble de notes de l'ensemble de données NYU Readmission–LACE qui ont été écrites dans NYU Langone Health–Brooklyn.

Nous avons créé cet ensemble de données de fonctionnalités SAPS2 + APACHE2 structurées avec des étiquettes binaires pour la mortalité hospitalière à comparer aux données non structurées. L'ensemble de données contient un sous-ensemble de fonctionnalités SAPS2 + APACHE2 structurées pour toutes les rencontres dans l'ensemble de données NYU Mortality. Les fonctionnalités SAPS2 + APACHE2 sont un sous-ensemble des fonctionnalités utilisées dans le modèle SAPS215 et le modèle APACHE216 pour la prédiction de la mortalité en USI. Nous avons sélectionné le sous-ensemble de fonctionnalités disponibles dans le NYU Langone EHR. Nous avons inclus les 12 caractéristiques suivantes : âge (numérique), fréquence cardiaque moyenne (numérique), tension artérielle systolique (numérique), température auriculaire (numérique), concentration d'azote uréique sanguin (numérique), concentration de sodium (numérique), concentration de potassium (numérique). ), concentration de bilirubine (numérique), numération leucocytaire (numérique), pH (numérique), concentration de créatine (numérique) et hématocrite (numérique). Nous avons également inclus la spécialité du département (catégorielle). Nous avons exclu les caractéristiques suivantes en raison de leur indisponibilité : PaO2/FiO2 (rapport de la pression partielle d'oxygène artériel à l'oxygène inspiré fractionné), que le patient soit sous ventilation mécanique ou en pression positive continue (CPAP), concentration de bicarbonate, débit urinaire, coma de Glasgow Score à l'échelle, présence d'un cancer métastatique ou d'une hémopathie maligne ou du SIDA, et si l'admission était programmée.

Nous avons créé cet ensemble de données d'entités structurées "Lisbonne Portugal" avec des étiquettes binaires pour la mortalité hospitalière à comparer avec le modèle de données non structuré. L'ensemble de données contient un sous-ensemble des caractéristiques utilisées dans l'ensemble de données Lisbon Portugal18 (qui est largement utilisé dans la littérature sur la prédiction LOS) pour toutes les rencontres dans l'ensemble de données NYU Binned LOS. Nous avons sélectionné un sous-ensemble de 12 caractéristiques qui étaient disponibles dans le NYU Langone EHR : sexe (catégoriel), âge mesuré par la différence en années entre la date de naissance et la date d'admission (numérique), niveau d'éducation le plus élevé (catégoriel), pays (catégoriel), le code postal comme adresse (catégoriel), l'état civil (catégoriel), le type d'admission (catégoriel), le type de service d'admission (catégoriel), l'ID du fournisseur (catégoriel), la spécialité du service (catégoriel), le nom de la procédure (catégoriel) et le numéro des admissions précédentes (numérique). Nous avons laissé de côté le diagnostic car il n'est pas toujours disponible au moment de la rédaction des notes H&P. Nous avons exclu les trois caractéristiques suivantes en raison de la difficulté à les trouver dans le NYU Langone EHR : code de diagnostic de groupe homogène, grande catégorie de diagnostic et traitement.

Nous avons créé cet ensemble de données structuré basé sur l'ensemble de données NYU Insurance Denial à des fins de comparaison avec le modèle de données non structuré. L'ensemble de données contient des caractéristiques structurées pour toutes les rencontres dans l'ensemble de données NYU Insurance Denial et a les mêmes divisions que l'ensemble de données NYU Insurance Denial. La sélection des caractéristiques structurées était basée sur les caractéristiques de la réf. 19, qui a construit un modèle qui prédit le refus de réclamation d'assurance à partir de caractéristiques démographiques et liées aux soins trouvées dans le formulaire de réclamation. Nous avons trouvé huit fonctionnalités disponibles dans le NYU Langone EHR : nom du patient (catégoriel), âge (numérique), sexe (catégoriel), code postal en tant que généralisation de l'adresse (catégoriel), marque d'assurance (catégoriel), nom du premier régime d'assurance (catégoriel). ), l'ID du fournisseur (catégoriel) et le type de fournisseur (catégoriel). Nous avons en outre ajouté quatre fonctionnalités basées sur les entrées du clinicien : deuxième code de régime d'assurance (catégoriel), un indicateur binaire pour les cas chirurgicaux (catégoriel), un indicateur binaire pour les cas des services d'urgence (catégoriel) et un indicateur binaire pour la rémunération à l'acte de Medicare. utilisateurs (catégoriel). Nous avons laissé de côté six fonctionnalités dans la réf. 19 en raison de la difficulté à les rechercher : lien de parenté du patient avec l'assuré, type de réseau, si la demande était une réintroduction, indice de diagnostic, responsable du service et numéro d'autorisation préalable.

À l'aide de ces ensembles de données, nous avons formé un tokenizer de mots BERT sans boîtier avec une taille de vocabulaire de 50 000 jetons, une longueur de séquence maximale de 512 jetons et des jetons spéciaux [SEP], [PAD], [UNK], [MASK] et [CLS]. Étant donné que la plupart des notes cliniques comportaient plus de 512 jetons, nous avons divisé chaque note longue en morceaux sans chevauchement qui étaient inférieurs à la longueur de séquence maximale. Plus précisément, nous avons divisé chaque note en phrases à l'aide de la boîte à outils de langage naturel (nltk)32 et nous avons symbolisé chaque phrase. Pour les phrases de plus de 512 jetons, nous les avons tronquées. Ensuite, pour toutes les phrases tokenisées dans la même note, nous les avons concaténées en groupes de sorte que chaque groupe ait exactement la longueur de séquence maximale. Nous avons écarté tout groupe restant (d'une longueur strictement inférieure au maximum) d'une note longue.

À l'aide du tokenizer formé avec NYU Notes, nous avons d'abord tokenisé la note de sortie. Nous avons tronqué les notes qui dépassaient la longueur de séquence maximale de 512 jetons. Nous laissons à l'avenir la conception d'un modèle de langage qui lit efficacement des notes cliniques plus longues (voir Extended Data Fig. 8b pour l'impact de la longueur des notes sur les performances du modèle de langage).

Nous avons d'abord décompressé les fichiers tar.gz dans des dossiers de fichiers xml. Nous avons ensuite converti les fichiers xml au format brat. Ensuite, nous avons converti les fichiers brat en fichiers bio. Enfin, nous avons écrit un chargeur de données HuggingFace33 personnalisé pour convertir le dossier des fichiers bio en un jeu de données HuggingFace. Notre code de prétraitement est disponible sur GitHub.

Nous avons d'abord nettoyé les notes en supprimant les artefacts html. Nous avons ensuite tokenisé la note de décharge à l'aide du tokenizer de NYUTron. Nous avons tronqué les notes qui dépassaient la longueur de séquence maximale de 512 jetons.

Lorsqu'il manquait une caractéristique numérique (par exemple, la fréquence cardiaque moyenne était NaN), nous remplissions la caractéristique en tant que caractéristique moyenne sur l'ensemble d'entraînement. Pour les caractéristiques catégorielles manquantes (par exemple, le département d'admission était « non spécifié »), nous les avons laissées dans la catégorie « aucune ».

Nous avons pré-entraîné un modèle BERT de 109 millions de paramètres à l'aide de notes NYU prétraitées et de l'objectif MLM pendant 3 semaines (96 époques) sur 24 GPU NVIDIA A100 répartis sur trois nœuds de calcul jusqu'à ce que la perte de validation commence à plafonner. Le modèle a 12 couches cachées de dimension 768, avec 12 têtes d'attention par couche. Nous avons utilisé une taille de lot de formation par appareil de 64 et enregistré toutes les 2 000 étapes. Nous avons utilisé l'optimiseur Zero Redundancy AdamW (une amélioration par rapport à l'optimiseur Adam) avec un taux d'apprentissage constant de 5 × 10−5, une précision mixte FP16 et une parallélisation de niveau 234,35,36.

Nous avons remplacé le classificateur MLM formé par un classificateur linéaire initialisé de manière aléatoire après la dernière couche cachée du modèle BERT pré-formé. Nous avons affiné le modèle de bout en bout en utilisant l'ensemble de formation de l'ensemble de données NYU Readmission pour dix époques, en évaluant l'AUC de validation toutes les demi-époques et en nous arrêtant tôt avec une patience de cinq. Nous avons utilisé les hyperparamètres suivants du réglage manuel basé sur l'AUC de validation : un taux d'apprentissage de 2 × 10−5, une décroissance de poids de 0,01 et une taille de lot par appareil de 4. Nous avons optimisé la perte d'entropie croisée à l'aide de l'optimiseur AdamW . Tout en faisant varier la taille de l'ensemble de données (N ∈ {102, 103, 104, 105, 3,92336 × 105}), nous avons affiné le modèle pré-entraîné à l'aide de sous-échantillons de l'ensemble de données NYU Readmission et évalué leur AUC sur l'ensemble de test temporel. Pour chaque taille de sous-échantillon, nous avons mené cinq expériences avec des graines aléatoires distinctes (0, 13, 24, 36, 42). À titre de comparaison, nous avons examiné l'ASC médiane et l'écart type des cinq expériences.

Nous avons remplacé le classificateur MLM formé par un classificateur linéaire initialisé de manière aléatoire après la dernière couche cachée du modèle BERT pré-formé. Nous avons affiné le modèle de bout en bout en utilisant l'ensemble d'apprentissage de l'ensemble de données NYU Mortality pour dix époques, en évaluant l'AUC de validation toutes les demi-époques et en nous arrêtant tôt avec une patience de 5. Nous avons utilisé les hyperparamètres suivants du réglage manuel basé sur la validation AUC : un taux d'apprentissage de 2 × 10−5, une décroissance de poids de 0,01 et une taille de lot par appareil de 4. Nous avons optimisé la perte d'entropie croisée à l'aide de l'optimiseur AdamW. À l'aide de l'ensemble de données complet, nous avons affiné le modèle pré-entraîné à l'aide de sous-échantillons de l'ensemble de données NYU Mortality et évalué leur AUC sur l'ensemble de test temporel. Pour chaque taille de sous-échantillon, nous avons mené cinq expériences avec des graines aléatoires distinctes (0, 13, 24, 36, 42). À titre de comparaison, nous avons examiné l'ASC médiane et l'écart type des cinq expériences.

Nous avons remplacé le classificateur MLM formé par un classificateur linéaire initialisé de manière aléatoire après la dernière couche cachée du modèle BERT pré-formé. Nous avons affiné le modèle de bout en bout en utilisant l'ensemble de formation de l'ensemble de données NYU Binned Comorbidity pour dix époques, en évaluant l'AUC OVR de validation toutes les demi-époques et en nous arrêtant tôt avec une patience de 5. Nous avons utilisé les hyperparamètres suivants du réglage manuel basé sur la validation OVR AUC : un taux d'apprentissage de 2 × 10−5, une décroissance de poids de 0,01 et une taille de lot par appareil de 4. Nous avons optimisé la perte d'entropie croisée à l'aide de l'optimiseur AdamW. À l'aide de l'ensemble de données complet, nous avons affiné le modèle pré-entraîné avec des sous-échantillons de l'ensemble de données NYU Binned Comorbidity et évalué leur OVR AUC sur l'ensemble de test temporel. Pour chaque taille de sous-échantillon, nous avons mené cinq expériences avec des graines aléatoires distinctes (0, 13, 24, 36, 42). À titre de comparaison, nous avons examiné l'ASC médiane de l'OVR et l'écart type des cinq expériences.

Nous avons remplacé le classificateur MLM formé par un classificateur linéaire initialisé de manière aléatoire après la dernière couche cachée du modèle BERT pré-formé. Nous avons affiné le modèle de bout en bout en utilisant l'ensemble d'entraînement de l'ensemble de données NYU Binned LOS pour dix époques, en évaluant l'AUC de validation toutes les demi-époques et en nous arrêtant tôt avec une patience de 5. Nous avons utilisé les hyperparamètres suivants du réglage manuel basé sur le validation OVR AUC : un taux d'apprentissage de 2 × 10−5, une décroissance de poids de 0,01 et une taille de lot par appareil de 4. Nous avons optimisé la perte d'entropie croisée à l'aide de l'optimiseur AdamW. À l'aide de l'ensemble de données complet, nous avons affiné le modèle pré-entraîné avec des sous-échantillons de l'ensemble de données NYU Binned LOS et évalué leur AUC sur l'ensemble de test temporel. Pour chaque taille de sous-échantillon, nous avons mené cinq expériences avec des graines aléatoires distinctes (0, 13, 24, 36, 42). Pour l'inférence, nous avons combiné les deux dernières classes, l'étiquette 3 (90–99 % quantile) et l'étiquette 4 (> 99 % quantile) car l'étiquette 4 était très clairsemée. À titre de comparaison, nous avons examiné l'ASC médiane de l'OVR et l'écart type des cinq expériences.

Nous avons remplacé le classificateur MLM formé par un classificateur linéaire initialisé de manière aléatoire après la dernière couche cachée du modèle BERT pré-formé. Nous avons affiné le modèle de bout en bout en utilisant l'ensemble de formation de l'ensemble de données NYU Insurance Denial pour dix époques, en évaluant l'AUC de validation toutes les demi-époques et en nous arrêtant tôt avec une patience de 5. Nous avons utilisé les hyperparamètres suivants du réglage manuel basé sur le validation AUC : un taux d'apprentissage de 2 × 10−5, une décroissance de poids de 0,01 et une taille de lot par appareil de 4. Nous avons optimisé la perte d'entropie croisée à l'aide de l'optimiseur AdamW. À l'aide de l'ensemble de données complet, nous avons affiné le modèle pré-entraîné à l'aide de sous-échantillons de l'ensemble de données NYU Insurance Denial et évalué leur AUC sur l'ensemble de test temporel. Pour chaque taille de sous-échantillon, nous avons mené cinq expériences avec des graines aléatoires distinctes (0, 13, 24, 36, 42). À titre de comparaison, nous avons examiné l'ASC médiane et l'écart type des cinq expériences.

Nous avons effectué les expériences de réglage fin comme suit. Pour chaque LLM dans le tableau de données étendu 2, nous avons initialisé un modèle de classification de jetons HuggingFace avec le LLM comme point de contrôle pré-entraîné. Nous avons affiné le modèle en utilisant i2b2-2012 NER pour dix époques en utilisant l'optimiseur AdamW avec un taux d'apprentissage de 2 × 10−5, une décroissance de poids de 0,01 et une taille de lot de 4, en évaluant toutes les 50 étapes et en s'arrêtant tôt le base de la zone sous la caractéristique de fonctionnement du récepteur (AUROC) avec une patience de 1. Cela a pris 20 à 40 min sur un nœud de quatre GPU NVIDIA 17 Go V100. Nous avons effectué cinq ajustements avec des graines aléatoires 0, 13, 24, 36 et 42 et enregistré la moyenne et l'écart type du score F1 micro-moyenné (à l'exclusion de l'étiquette pour non-entité, « O »).

Nous avons effectué les expériences de réglage fin comme suit : pour NYUTron et BioClinicalBert, nous avons initialisé un modèle de classification de jetons HuggingFace avec le LLM comme point de contrôle pré-formé. Nous avons affiné le modèle à l'aide de MIMIC-III Readmission pour dix époques à l'aide de l'optimiseur AdamW avec un taux d'apprentissage de 2 × 10−5, une décroissance de poids de 0,01 et une taille de lot de 16, en évaluant chaque demi-époque. Nous avons effectué cinq ajustements avec des graines aléatoires 0, 13, 24, 36 et 42.

Le modèle affiné a été converti dans un format haute performance (Onnx ou TensorRT) et chargé dans notre plateforme de déploiement, un moteur d'inférence NVIDIA Triton qui s'interface avec le NYU Langone EHR via l'interface HLA7 Fast Health Interoperability Resources (FHIR)37. Pour notre examen des performances, de la sécurité, de la fiabilité et de l'interprétabilité, voir la section 5 des informations supplémentaires.

Notre plate-forme de déploiement consistait en une version modifiée du serveur d'inférence Triton de NVIDIA que nous avons nommé NYUTriton (prononcé « nutrition » car il est bon pour le système de santé). NVIDIA Triton prend en charge l'inférence basée sur les processeurs GPU, x86 et ARM et plusieurs fonctionnalités clés, notamment le traitement par lots dynamique, l'exécution simultanée, une interface de spécification de modèle très flexible et la capacité de prendre en charge une large gamme de cadres d'apprentissage en profondeur et de formats de modèle accélérés pour débit maximal. Nous avons modifié NVIDIA Triton pour qu'il s'interface de manière transparente avec les modèles de langage au format HuggingFace afin de fournir un point de croisement uniforme et très flexible entre nos pipelines de développement et de production. Les modèles entraînés ont été enregistrés dans un format standard de style HuggingFace et convertis en Onnx puis en TensorRT pour obtenir des résultats d'inférence à l'échelle inférieure à la milliseconde. NYUTriton est hébergé sur un serveur d'inférence dédié qui se compose d'un AMD Threadripper 3960X (24 cœurs, 3,8 GHz), de deux GPU RTX 3090 et de 128 Go de mémoire système DDR5 achetés auprès de Lambda Labs.

Après la signature des résumés de décharge dans Epic, l'interface HL7 FHIR se connecte à NYUTriton et envoie une charge utile JSON (JavaScript Object Notation) composée du résumé de décharge et des métadonnées spécifiant le modèle de réadmission sous-jacent et l'expéditeur. NYUTriton prétraite le texte, exécute une tâche d'inférence avec le modèle de réadmission accéléré NYUTron et renvoie le résultat d'inférence du modèle à un serveur d'orchestration secondaire, qui écrit le résultat dans une base de données et génère un e-mail au médecin signataire.

Les lignes de base structurées étaient (1) les fonctionnalités SAPS2/APACHE2 + XGBoost pour la prédiction de la mortalité hospitalière, (2) les fonctionnalités LACE + XGBoost pour la prédiction de la réadmission, (3) les fonctionnalités de Lisbonne Portugal + XGBoost pour la prédiction de la durée de séjour groupée et (4) les fonctionnalités du formulaire de réclamation. + XGBoost pour la prédiction de refus d'assurance.

Pour toutes les lignes de base structurées, nous avons utilisé la bibliothèque xgboost pour former un classificateur d'arbre à gradient extrême avec une perte logistique binaire (perte softmax multiclasse pour plus de deux classes). Nous avons utilisé la recherche aléatoire de scikit-learn pour rechercher des hyperparamètres parmi minimum_child_weight de {1, 5, 10}, gamma de {0,5, 1, 1,5, 2, 5}, sous-échantillon de {0,6, 0,8, 1}, col_sample_bytree de {0,6, 0.8, 1.0}, max_depth de {3, 4, 5}, learning_rates de {0.001, 0.01, 0.1, 0.5} et n_estimators de {10, 100, 1000} pour 100 itérations basées sur le score AUROC (score ovr-auroc pour plusieurs classes) à partir d'une triple validation croisée38. Nous avons exécuté chaque expérience cinq fois avec des graines aléatoires distinctes (0, 13, 24, 36, 42). Pour la mortalité, la comorbidité groupée, la durée de séjour groupée et le refus d'assurance, nous avons mené l'expérience avec l'ensemble de données complet. Pour la réadmission, nous avons formé le modèle à l'aide de sous-échantillons (N ∈ {102, 103, 104, 105, 3,92336 × 105}) de l'ensemble de données NYU Readmission–LACE.

Nous avons évalué les cinq tâches (prédiction de la mortalité hospitalière, prédiction de l'indice de comorbidité groupée, prédiction de la réadmission toutes causes confondues à 30 jours, prédiction de la durée de séjour groupée et prédiction du refus d'assurance) avec AUC pour les classes binaires et OVR AUROC pour les classes multiples. AUROC est l'aire sous la courbe bidimensionnelle constituée de tuples de la forme (TPR, FPR) résultant de différents seuils de décision.

Nous avons également évalué la prédiction de la réadmission avec les mesures suivantes : TPR, FPR, précision, rappel et score F1, qui ont tous une plage de [0, 1]. Nous avons évalué le NER à l'aide d'un score NER F1 micro-moyenné. Le score NER F1 est similaire au score F1 normal, sauf que l'étiquette de non-entité « O » est exclue du calcul.

Nous avons comparé NYUTron aux médecins. Nous avons travaillé avec six médecins avec différents niveaux d'ancienneté : trois médecins traitants et trois internes. Les médecins ont été invités à examiner les résumés de sortie et à prédire si le patient décrit reviendrait à l'hôpital dans les 30 jours.

Nous avons comparé NYUTron à quatre autres LLM et à deux modèles d'apprentissage automatique. 'random-init' est un modèle sans casse basé sur BERT avec des paramètres initialisés de manière aléatoire. « web-wiki » est un modèle sans casse basé sur BERT qui est pré-entraîné à l'aide de texte Web (de l'ensemble de données BookCorpus39) et d'articles de Wikipédia (de l'ensemble de données Wikipedia anglais40). « web-wiki+bio » est un modèle BERT pré-entraîné à l'aide de texte Web, d'articles de Wikipédia, de résumés PubMed41 et d'articles complets de PubMed Central (PMC)42. 'web-wiki+bio+clinical', ou gatortron-og43, est un modèle Megatron-BERT44 préformé à l'aide de texte Web, d'articles Wikipedia, de résumés PubMed, d'articles complets PMC, de notes MIMIC-III et de notes cliniques anonymisées de l'Université de Floride Santé. 'lace+xgb' lit les caractéristiques LACE structurées (à partir d'une règle de prédiction clinique traditionnelle) avec un modèle d'arbre à gradient extrême14. 'tf-idf+xgb' lit les fonctionnalités de sac de mots au niveau du corpus avec un modèle d'arbre à gradient extrême. Pour des statistiques détaillées et des exemples de corpus de préformation, voir Extended Data Table 2 et Extended Data Fig. 3.

Nous avons échantillonné au hasard 20 notes de sortie de l'ensemble de tests aléatoires et demandé à six médecins d'ancienneté différente de prédire si le patient reviendrait dans les 30 jours. Les six médecins comprenaient trois neurochirurgiens traitants, deux résidents en neurochirurgie et un résident en soins intensifs.

Nous avons utilisé REDCap pour réaliser l'enquête et donné aux médecins un temps illimité. L'enquête était structurée comme suit : pour chaque cas, nous demandions « Cette personne sera-t-elle admise dans les 30 jours ? », suivi du récapitulatif de sortie. Le médecin pouvait choisir de répondre « oui » ou « non ». Si le patient revenait dans les 30 jours, nous avions trois questions de suivi pour évaluer les caractéristiques de la réadmission ultérieure. Tout d'abord, nous avons demandé « Cette réadmission est-elle liée à la sortie précédente ? », suivie de la note H&P de la réadmission ultérieure. Le médecin pourrait répondre « oui », « non », « partiellement » ou « ne répond pas aux critères de l'assurance-maladie pour une réadmission dans les 30 jours ». La deuxième question de suivi était « Cette réadmission est-elle évitable ? », à laquelle le médecin pouvait répondre « oui », « non » ou « en partie ». La troisième question de suivi, « Des commentaires ? », comportait une réponse en texte libre dans laquelle le médecin pouvait expliquer pourquoi la réadmission était partiellement liée à la sortie précédente ou pourquoi la réadmission était partiellement évitable.

Pour collecter les prédictions de NYUTron, nous avons utilisé le pipeline de classification de texte de HuggingFace pour effectuer une inférence sur les 20 notes de décharge. Pour chaque note de décharge, le pipeline produit une probabilité prédite de réadmission. Nous avons converti cette probabilité prédite en une étiquette binaire avec un seuil de 0,07 (une probabilité prédite d'au moins 0,07 a été convertie en une étiquette positive). Nous avons choisi 0,07 comme frontière de décision car c'est le seuil minimum qui nous a donné un rappel de validation supérieur à 80 % parmi les seuils {0,01 × n : n ∈ {1, ..., 90} (le critère de 80 % a été choisi sur la base d'applicabilité clinique). Voir Données étendues Fig. 8c pour la courbe d'étalonnage de NYUTron.

L'ensemble de données, les hyperparamètres et les bibliothèques d'évaluation et de logiciels pour le réglage fin d'autres LLM étaient les mêmes que lors du réglage fin de NYUTron. Les LLM pré-entraînés ont été construits comme suit : random-init est un modèle sans boîtier basé sur BERT avec des paramètres de réinitialisation. web-wiki est un modèle sans boîtier basé sur BERT. web-wiki+bio est un modèle v1.2 en boîtier dmis-lab/biobert-base. web-wiki+bio+clinical a été Gatortron-og téléchargé à partir de NVIDIA NGC et converti en un point de contrôle HuggingFace à l'aide du point de contrôle convert megatron bert.

L'ensemble de données, les hyperparamètres et les bibliothèques d'évaluation et de logiciels pour le réglage fin d'autres LLM étaient les mêmes que pour le réglage fin de NYUTron. Les LLM préformés étaient les mêmes que les LLM de base pour prédire la réadmission à partir des notes de sortie.

À l'aide de l'ensemble de données NYU Readmission – LACE, nous avons utilisé la bibliothèque xgboost pour former un classificateur d'arbre à gradient extrême avec perte logistique binaire avec recherche d'hyperparamètres. Nous avons utilisé la recherche aléatoire de scikit-learn pour rechercher parmi minimum_child_weight de {1, 5, 10}, gamma de {0,5, 1, 1,5, 2, 5}, sous-échantillon de {0,6, 0,8, 1}, col_sample_bytree de {0,6, 0,8 , 1.0}, max_depth de {3, 4, 5}, learning_rates de {0.001, 0.01, 0.1, 0.5} et n_estimators de {10, 100, 1000} pour 100 itérations sur la base du score AUROC sur l'ensemble de validation37. Nous avons formé le modèle à l'aide de sous-échantillons (N ∈ {102, 103, 104, 105, 3,92336 × 105}) de l'ensemble de données NYU Readmission–LACE et évalué leur AUROC sur l'ensemble de test temporel. Pour chaque taille de sous-échantillon, nous avons mené cinq expériences avec des graines aléatoires distinctes (0, 13, 24, 36, 42). À titre de comparaison, nous avons examiné l'AUROC médian et l'écart type des cinq expériences.

Nous avons transformé le texte de l'ensemble de données NYU Readmission en incorporations tf-idf (fréquence de terme – fréquence de document inverse) et utilisé un classificateur xgboost avec une perte logistique binaire pour prédire la réadmission. Nous avons utilisé raytune45 pour rechercher des hyperparamètres, y compris les caractéristiques max_tf-idf de {512, 5000}, max_depth d'un entier aléatoire quantifié de 3 à 16 avec un intervalle de 4, learning_rate d'une distribution uniforme logarithmique de 10−2 à 10−1, gamma d'une distribution uniforme quantifiée de 0 à 12 avec un intervalle de 4, minimum_child_weight d'une distribution uniforme quantifiée de 0 à 8 avec un intervalle de 4, reg lambda d'une distribution uniforme quantifiée de 0 à 10 avec un intervalle de 2, colsample_bytree à partir d'une distribution uniforme de 0,7 à 1, échelle pos poids à partir d'une distribution uniforme quantifiée de 0 à 50 avec un intervalle de 10 et n_estimator à partir d'une distribution entière quantifiée de 50 à 300 avec un intervalle de 50. Nous avons entraîné le modèle à l'aide de sous-échantillons ( N ∈ {102, 103, 104, 105, 3,92336 × 105}) de l'ensemble de données NYU Readmission et évalué leur AUROC sur l'ensemble de test temporel. Pour chaque taille de sous-échantillon, nous avons mené cinq expériences avec des graines aléatoires distinctes (0, 13, 24, 36, 42). À titre de comparaison, nous avons examiné l'AUROC médian et l'écart type des cinq expériences.

Nous avons comparé NYUTron avec ses quatre variantes (préformées et affinées à l'aide de données provenant de différents sites) : (1) NYU Notes–Manhattan + NYU Readmission–Manhattan, (2) NYU Notes–Manhattan + NYU Readmission–Brooklyn, (3) NYU Notes–Brooklyn + NYU Réadmission–Brooklyn et (4) NYU Notes–Brooklyn + NYU Réadmission–Manhattan. Les hyperparamètres et les bibliothèques d'évaluation et de logiciels pour le réglage fin des variantes de NYUTron étaient les mêmes que pour le réglage fin de NYUTron.

Sur la base des performances du test temporel dans l'étude rétrospective, nous avons sélectionné un modèle affiné avec un seuil de décision de 0,07 pour une utilisation dans l'essai prospectif.

Pour évaluer l'état des patients réadmis correctement prédits (n = 3 298), nous avons comparé leur taux de mortalité hospitalière et leur durée d'hospitalisation à ceux des patients admis à la même période. Nous avons recueilli des données sur les patients admis de février à mai 2022 (n = 30 548) et comparé leur taux de mortalité à l'hôpital et leur durée de séjour à ceux des patients réadmis pris par NYUTron de janvier à avril 2022. Nous avons utilisé le t de Welch bilatéral tests (avec l'hypothèse nulle que les deux groupes avaient la même moyenne) pour évaluer la significativité statistique de notre comparaison46.

Nous avons effectué une analyse post hoc des patients réadmis dans la cohorte prospective afin de mieux comprendre les performances du modèle dans un environnement réel et en prévision de la création d'interventions ciblées basées sur les résultats du modèle. Cent patients réadmis ont été échantillonnés dans les cinq plus grands départements de NYU Langone par volume de patients : médecine interne, pédiatrie, chirurgie générale, obstétrique et gynécologie, et hématologie et oncologie. Chaque département a contribué 20 cas, avec 10 cas ayant les probabilités prédites les plus élevées dans ce département et 10 cas ayant les probabilités prédites les plus faibles. Tous les cas avaient leurs identifiants de rencontre enregistrés pour leur sortie et leur réadmission sur une plateforme en ligne sécurisée. Un questionnaire standardisé a été construit pour un examen manuel demandant si la réadmission était planifiée, si la réadmission répondait aux critères du CMS pour une réadmission pénalisée de 30 jours, si la réadmission était évitable, si un événement indésirable s'est produit lors de la réadmission, si des événements indésirables étaient évitables et si les médecins examinateurs avaient des commentaires sur le cas. Une équipe de dix médecins de médecine interne et de neurochirurgie s'est vu attribuer au hasard des cas à examiner par paires, tout désaccord entre les examinateurs étant tranché par un troisième médecin examinateur. Pour déterminer si une réadmission était évitable, l'examinateur a examiné la note de sortie de la rencontre d'inférence et la note S&P de la rencontre de réadmission.

Notre recherche a été approuvée par le comité d'examen institutionnel de NYU Langone sous le nom de « s21-01189 NYUtron », et les méthodes ont été réalisées conformément aux directives et réglementations pertinentes du comité d'examen institutionnel.

De plus amples informations sur la conception de la recherche sont disponibles dans le résumé des rapports sur le portefeuille Nature lié à cet article.

Les données cliniques utilisées pour la pré-formation, le réglage fin, la validation et les ensembles de tests ont été collectées à partir du DSE du NYU Langone Health System géré par l'équipe NYULH Datacore. Les données textuelles ont été dépouillées des fonctionnalités de texte enrichi et directement incluses dans l'ensemble de données « telles quelles » et ont été complétées par des fonctionnalités structurées, le cas échéant. Ces données sont constituées des dossiers médicaux de production de NYU Langone et ne peuvent pas être rendues publiques. Les chercheurs peuvent obtenir un ensemble limité de données anonymisées (ou un sous-ensemble de test) auprès du NYU Langone Health System sur demande raisonnable et sous réserve des approbations éthiques locales et nationales. Nous avons également utilisé i2b2-2012 accessible au public (https://portal.dbmi.hms.harvard.edu/projects/n2c2-nlp/) et MIMIC-III (https://physionet.org/content/mimiciii/1.4/) ensembles de données.

Nous avons utilisé sql et Python 3.8.13 pour collecter les données du NYU Langone EHR. Nous avons utilisé REDCap 12.4.31 pour recueillir les réponses des médecins. Ce travail a utilisé plusieurs bibliothèques open source, notamment HuggingFace Transformers 4.19.2, Datasets 2.2.2, Evaluate 0.1.1, wandb 0.12.17, matplotlib 3.5.2, seaborn 0.12.2, pandas 1.4.2, ray 2.0.0 , sklearn 1.1.1, deepspeed 0.8.0+384f17b, NVIDIA Apex, XGBoost 1.6.1 et nltk 3.6.3. Notre cadre expérimental impliquait l'utilisation de ces bibliothèques et, dans certains cas, leur modification. Nous publierons le code pour reproduire la préformation, le réglage fin et les tests des modèles décrits dans cet article au moment de la publication (code pour les expériences disponible sur https://github.com/nyuolab/NYUTron, code de prétraitement pour i2b2-2012 disponible sur https://github.com/nyuolab/i2b2_2012_preprocessing). Nous incluons des méthodes détaillées et des étapes de mise en œuvre dans les méthodes et informations supplémentaires pour permettre une réplication indépendante.

Roberts, M. et al. Pièges courants et recommandations pour l'utilisation de l'apprentissage automatique pour détecter et pronostiquer le COVID-19 à l'aide de radiographies thoraciques et de tomodensitogrammes. Nat. Mach. Intel. 3, 199-217 (2021).

Article Google Scholar

Kelly, CJ, Karthikesalingam, A., Suleyman, M., Corrado, G. et King, D. Principaux défis pour obtenir un impact clinique avec l'intelligence artificielle. BMC Med. 17, 195 (2019).

Article PubMed PubMed Central Google Scholar

Gaube, S. et al. Faites comme l'IA dit : susceptibilité dans le déploiement d'aides à la décision clinique. Chiffre NPJ. Méd. 4, 31 (2021).

Article PubMed PubMed Central Google Scholar

Devlin, J., Chang, M.-W., Lee, K. & Toutanova, K. BERT : pré-entraînement des transformateurs bidirectionnels profonds pour la compréhension du langage. dans Proc. 2019 NAACL : Human Language Technologies (eds Burstein, J., Doran, C. & Solorio, T.) 4171–4186 (Association for Computational Linguistics, 2019).

Brown, TB et al. Les modèles de langage sont des apprenants peu nombreux. dans Proc. NeurIPS (eds Wallach, H. et al.) 1877–1901 (Systèmes de traitement de l'information neuronale, 2020).

Gage, BF et al. Sélection des patients atteints de fibrillation auriculaire pour l'anticoagulation : stratification du risque d'AVC chez les patients prenant de l'aspirine. Circulation 110, 2287–2292 (2004).

Article CAS PubMed Google Scholar

Enfant, CG & Turcotte, JG Chirurgie et hypertension portale. Prob majeur. Clin. Surg. 1, 1–85 (1964).

CAS Google Scholar

Pugh, RNH, Murray-Lyon, IM, Dawson, JL, Pietroni, MC et Williams, R. Transection de l'œsophage pour saignement des varices œsophagiennes. Br. J. Surg. 60, 646–649 (2005).

Article Google Scholar

Wells, P. et al. Précision de l'évaluation clinique de la thrombose veineuse profonde. Lancette 345, 1326–1330 (1995).

Article CAS PubMed Google Scholar

Tomasev, N. et al. Une approche cliniquement applicable à la prédiction continue de futures lésions rénales aiguës. Nature 572, 116-119 (2019).

Article PubMed PubMed Central ADS Google Scholar

Wu, N. et al. Les réseaux de neurones profonds améliorent les performances des radiologues dans le dépistage du cancer du sein. IEEETMI 39, 1184–1194 (2020).

Google Scholar

Liang, H. et al. Évaluation et diagnostic précis des maladies pédiatriques à l'aide de l'intelligence artificielle. Nat. Méd. 25, 433–438 (2019).

Article CAS PubMed Google Scholar

Kaplan, J. et al. Lois d'échelle pour les modèles de langage neuronal. Préimpression sur https://doi.org/10.48550/arXiv.2001.08361 (2020).

Chen, T. & Guestrin, C. XGBoost : un système de boosting d'arbre évolutif. dans Proc. 2016 SIGKDD 785–794 (Association pour les machines informatiques, 2016).

Le Gall, J.-RA Nouveau score simplifié de physiologie aiguë (SAPS II) basé sur une étude multicentrique Europe/Amérique du Nord. Confiture. Méd. Assoc. 270, 2957-2963 (1993).

Article Google Scholar

Knaus, WA, Draper, EA, Wagner, DP & Zimmerman, JE APACHE II : un système de classification de la gravité de la maladie. Crit. Soin Méd. 13, 818–829 (1985).

Article CAS PubMed Google Scholar

Charlson, ME, Pompei, P., Ales, KL & MacKenzie, CR Une nouvelle méthode de classification de la comorbidité pronostique dans les études longitudinales : développement et validation. J.Chron. Dis. 40, 373–383 (1987).

Article CAS PubMed Google Scholar

Caetano, N., Laureano, RMS et Cortez, P. Une approche basée sur les données pour prédire la durée du séjour à l'hôpital - une étude de cas portugaise. dans Proc. 2014 ICEIS (eds Hammoudi , S. , Maciaszek , L. & Cordeiro , J. ) 407–414 ( SCITEPRESS Digital Library , 2014 ).

Johnson, M., Albizri, A. & Harfouche, A. Intelligence artificielle responsable dans les soins de santé : prévoir et prévenir les refus de réclamation d'assurance pour le bien-être économique et social. Inf. Syst. Devant. https://doi.org/10.1007/s10796-021-10137-5 (2021).

van Walraven, C., Wong, J. & Forster, AJ Indice LACE+ : extension d'un indice validé pour prédire la mort précoce ou la réadmission urgente après la sortie de l'hôpital à l'aide de données administratives. Ouvrez Med. 6, 80–90 (2012).

Google Scholar

Centre de contrôle des maladies. Qu'est-ce que C.diff? https://www.cdc.gov/cdiff/what-is.html (2022).

Yang, G. et al. Le classificateur de modèle linguistique s'aligne mieux sur la sensibilité des mots du médecin que XGBoost sur la prédiction de réadmission. Préimpression sur https://doi.org/10.48550/arXiv.2211.07047 (2022).

Perez, E., Kiela, D. & Cho, K. Véritable apprentissage en quelques coups avec des modèles de langage. dans Proc. NeurIPS (eds Ranzato, M. et al.) 11054–11070 (Systèmes de traitement de l'information neuronale, 2021).

Singhal, K. et al. Les grands modèles de langage encodent les connaissances cliniques. Préimpression sur https://doi.org/10.48550/arXiv.2212.13138 (2022).

Bolton, E. et al. PubMedGPT 2.7B. Rapport technique. Centre de recherche sur les modèles de fondation de l'Université de Stanford https://crfm.stanford.edu/2022/12/15/pubmedgpt.html (2022).

Hoffmann, J. et al. Une analyse empirique de la formation de grands modèles de langage optimaux pour le calcul. dans Proc. NeurIPS (eds Koyejo, S. et al.) 30016–30030 (Systèmes de traitement de l'information neuronale, 2022).

Charlson, M. Indice de comorbidité de Charlson (ICC). MD+CALC https://www.mdcalc.com/calc/3917/charlson-comorbidity-index-cci (2022).

Sun, W., Rumshisky, A. et Uzuner, O. Annotation des informations temporelles dans les récits cliniques. J. Biomed. Informer. 46, 5–12 (2013).

Article Google Scholar

Johnson, AEW et al. MIMIC-III, une base de données de soins intensifs librement accessible. Sci. Données 3, 160035 (2016).

Article CAS PubMed PubMed Central Google Scholar

van Walraven, C. et al. Dérivation et validation d'un indice pour prédire la mort précoce ou la réadmission non planifiée après la sortie de l'hôpital vers la communauté. Peut. Méd. Assoc. J. 182, 551-557 (2010).

Article Google Scholar

Sundararajan, V. et al. La nouvelle version CIM-10 de l'indice de comorbidité de Charlson prédit la mortalité hospitalière. J.Clin. Épidémiol. 57, 1288-1294 (2004).

Article PubMed Google Scholar

Bird, S. & Loper, E. NLTK : La boîte à outils du langage naturel. dans Proc. 2004 ACL Interactive Poster and Demonstration Sessions 214–217 (Association for Computational Linguistics, 2004).

Wolf, T. et al. Transformers : traitement du langage naturel à la pointe de la technologie. dans Proc. 2020 EMNLP (eds Webber, B., Cohn, T., He, Y. & Liu, Y.) 38–45 (Association for Computational Linguistics, 2020).

Rajbhandari, S., Rasley, J., Ruwase, O. & He, Y. ZeRO : optimisations de la mémoire. Vers la formation de billions de modèles de paramètres. dans Proc. Int. Conf. Calcul haute performance, mise en réseau, stockage et analyse 1–16 (IEEE Press, 2020).

Loshchilov, I. & Hutter, F. Régularisation de la décroissance du poids découplée. ICLR https://openreview.net/forum?id=Bkg6RiCqY7 (2019).

Kingma, DP & Ba, J. Adam : une méthode d'optimisation stochastique. ICLR https://arxiv.org/abs/1412.6980 (2017).

Ayaz, M., Pasha, MF, Alzahrani, MY, Budiarto, R. & Stiawan, D. La norme Fast Health Interoperability Resources (FHIR) : revue systématique de la littérature sur les implémentations, les applications, les défis et les opportunités. JMIR Méd. Informer. 9, 21929 (2021).

Article Google Scholar

Pedregosa, F. et al. Scikit-Learn : apprentissage automatique en Python. J.Mach. Apprendre. Rés. 12, 2825–2830 (2011).

MathSciNet MATHGoogle Scholar

Zhu, Y. et al. Aligner les livres et les films : vers des explications visuelles ressemblant à des histoires en regardant des films et en lisant des livres. dans Proc. 2015 ICCV (éd. O'Conner, L.) 19–27 (IEEE, 2015).

Fondation Wikimédia. Téléchargements Wikimédia. https://dumps.wikimedia.org/ (2021).

Ressources documentaires du NCBI. Télécharger les données PubMed. https://pubmed.ncbi.nlm.nih.gov/download/ (2022).

Bibliothèque nationale de médecine. PubMed Central : ensembles de données d'articles PMC. https://www.ncbi.nlm.nih.gov/pmc/tools/textmining/ (2022).

Yang, X. et al. Un grand modèle de langage pour les dossiers de santé électroniques. Chiffre NPJ. Méd. 5, 194 (2022).

Shoeybi, M. et al. Megatron-LM : formation de modèles de langage à plusieurs milliards de paramètres à l'aide du parallélisme des modèles. Préimpression sur https://doi.org/10.48550/arXiv.1909.08053 (2020).

Liaw, R. et al. Tune : une plateforme de recherche pour la sélection et la formation de modèles distribués. Préimpression sur https://doi.org/10.48550/arXiv.1807.05118 (2018).

Welch, BL La généralisation du problème de Student lorsque plusieurs variances de population différentes sont impliquées. Biometrika 34, 28–35 (1947).

MathSciNet CAS PubMed MATH Google Scholar

Télécharger les références

EKO est soutenu par le programme scientifique Early Surgeon du National Cancer Institute (3P30CA016087-41S1) et la Fondation WM Keck. Nous tenons à remercier J. Golfinos, dont la vision et le soutien ont rendu ce projet possible. Nous tenons également à remercier nos collaborateurs M. Costantino et K. Yie de l'équipe NYU Langone High-Performance Computing (HPC) ; sans leur aide inlassable dans la construction et la maintenance de notre cluster GPU, aucune de ces recherches n'aurait été possible. Nous tenons également à remercier D. Bar-Sagi et N. Mherabi, dont le soutien à cette recherche a rendu tout possible. Nous tenons à remercier B. Guzman de la NYU Langone Predictive Analytics Unit et VJ Major de la NYU Grossman School of Medicine pour leur aide dans l'apprentissage des structures de données SQL utilisées dans le cadre de ce travail. Nous tenons à remercier Y.(R.) Pang pour la révision et l'édition du manuscrit initial. Nous tenons à remercier X. Yang de l'Université de Floride pour son aide dans le prétraitement et l'évaluation de l'ensemble de données i2b2. Nous remercions S. Ciprut pour son aide dans l'enquête REDCap et l'administration de la recherche pour notre équipe. Nous remercions C. Fernandez-Granda, J. Kempe, V. Dhar, N. Wu, M. Barot, A. Chen, K. Link et F. Kwon pour leurs précieuses discussions.

Département de neurochirurgie, NYU Langone Health, New York, NY, États-Unis

Lavande Yao Jiang, Xujin Chris Liu, Mustafa Nasir-Moin, Howard Antony Riina, Ilya Laufer, Nora C. Kim, Cordelia Orillac, Zane Schnurman, Christopher Livia, Hannah Weiss, David Kurland, Sean Neifert, Yosef Dastagirzada, Douglas Kondziolka, Alexander TM Cheung, Grace Yang, Ming Cao et Eric Karl Oermann

Center for Data Science, Université de New York, New York, NY, États-Unis

Lavande Yao Jiang, Grace Yang, Ming Cao, Kyunghyun Cho et Eric Karl Oermann

Génie électrique et informatique, Tandon School of Engineering, New York, NY, États-Unis

Xujin Chris Liu

NVIDIA, Santa Clara, Californie, États-Unis

Cliquez sur Télécharger pour enregistrer Nima Pour Nejatian - Anas Abidin mp3 youtube com

Unité d'analyse prédictive, NYU Langone Health, New York, NY, États-Unis

Duo Wang & Yindalon Aphinyanaphons

Département de médecine interne, NYU Langone Health, New York, NY, États-Unis

Kevin Eaton, Paawan Punjabi et Madeline Miceli

Département de la santé de la population, NYU Langone Health, New York, NY, États-Unis

Yindalon Aphinyanaphons

Conception prémonitoire, Genentech, New York, NY, États-Unis

Kyung Hyun Cho

Courant Institute of Mathematical Sciences, Université de New York, New York, NY, États-Unis

Kyung Hyun Cho

Institut canadien de recherches avancées, Toronto, Ontario, Canada

Kyung Hyun Cho

Département de radiologie, NYU Langone Health, New York, NY, États-Unis

Eric Karl Oermann

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

EKO a conceptualisé et supervisé le projet. LYJ a collecté des données (à l'exception des ensembles de données NYU Insurance Denial et MIMIC-III Readmission) et a réalisé des expériences. LYJ et XCL ont préparé les chiffres. XCL, NPN, MN-M. et KC a débogué et testé le modèle et le logiciel de préformation et de mise au point. EKO a conçu la plate-forme de déploiement NYUTriton, et EKO, AA et DW ont construit le système et l'ont intégré au DSE. KE, EKO, DW et YA ont collecté et traité l'ensemble de données NYU Insurance Denial. HAR, IL, PP, KE, MM, NCK, CO, ZS, CL, HW, DK, SN, YD, DK et ATMC ont participé aux expériences humaines, à l'examen des cas et à la fourniture de commentaires et de tests aux utilisateurs. GY et MC ont fourni les scripts pour tf-idf+xgb et construit l'ensemble de données de réadmission MIMIC-III. MF, ABC, YA et KC ont fourni des conseils et des commentaires tout au long du projet. LYJ, KC et EKO ont rédigé le projet initial. LYJ, EKO, KC, MN-M., GY et MC ont formaté la soumission finale. Tous les auteurs ont édité et révisé le manuscrit.

Correspondance à Eric Karl Oermann.

EKO rapporte des consultations avec Sofinnova et Google, des revenus de Merck & Co. et Mirati Therapeutics, et des capitaux propres dans Artisight. NPN, MF et ABC sont employés par NVIDIA. DK rapporte avoir consulté Elekta. KC est employé par Prescient Design, un accélérateur de Genentech, une filiale de Roche. Il n'y a pas d'autres conflits d'intérêts potentiels. Le travail présenté ici a été réalisé exclusivement au sein du NYU Langone Health System.

Nature remercie Ziad Obermeyer et le(s) autre(s) relecteur(s) anonyme(s) pour leur contribution à la relecture par les pairs de ce travail.

Note de l'éditeur Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

a, la courbe AUC pour le test aléatoire montre de meilleures performances que le test temporel. L'ASC du test aléatoire est de 84,13 %, par rapport à l'ASC du test temporel de 80,2 %. La différence met en évidence l'importance de créer un jeu de test pour refléter la configuration du problème. Dans le cas de la prédiction de réadmission, l'ensemble de déploiement provient toujours du futur de l'ensemble d'apprentissage. Ainsi, nous utilisons le test temporel AUC pour la sélection du modèle. b, la comparaison de l'AUC de test aléatoire et de l'AUC de test temporel à mesure que le nombre d'exemples de formation augmente montre que le test temporel est important pour estimer les performances de déploiement. Ici, nous montrons que l'échantillonnage d'un ensemble de données divisé temporellement semble "plus difficile" qu'un ensemble de données de test échantillonné au hasard, car tous les LLM testés et lace + xgb ont de moins bons résultats au test temporel (notes du futur) qu'au test aléatoire (notes du même temps). que les données d'entraînement). Les lignes colorées à gauche (ASC test aléatoire) sont généralement plus élevées que les lignes colorées à droite (ASC test temporel). Nous concluons qu'il s'agit d'une distinction importante selon laquelle les ensembles de tests retenus échantillonnés dans le temps donnent une estimation plus réaliste des performances du modèle. Fait intéressant, les modèles de langage semblent être plus sensibles à ce phénomène que le modèle dentelle+xgb.

Nous observons une tendance similaire à la prédiction de réadmission : (a) montre que NYUTron a de meilleures performances que tf-idf dans différents paramètres de disponibilité des données et (b) montre que les modèles de langage cliniquement préformés ont de meilleures performances que les modèles de langage non cliniquement préformés. Cela corrobore nos conclusions selon lesquelles les modèles de langage à l'échelle du système de santé sont des moteurs de prédiction clinique à usage général et qu'une correspondance de domaine entre le corpus de préformation et de réglage fin contribue à la performance des tâches. a, Comparaison des AUC de test temporel entre NYUTron et un modèle NLP traditionnel (tf-idf + xgb). NYUTron a une AUC médiane supérieure à tf-idf+xgb pour tous les nombres testés d'exemples de réglage fin. La ligne verticale noire indique l'écart type sur 5 essais de différentes graines aléatoires (0, 13, 24, 36, 42). b, Comparaison des performances de réglage fin des LLM sur la tâche NER. Sur la tâche d'extraction de concepts cliniques i2b2-2012, les LLM qui sont préformés avec des corpus cliniques (NYUTron, web-wiki+bio+clinical) ont un score f1 moyen plus élevé que les LLM qui ne sont pas préformés avec des corpus cliniques (web-wiki+bio+clinical). , web-wiki, random-init). Plus précisément, NYUTron et web-wiki+bio+clinical fonctionnent mieux que le modèle initialisé de manière aléatoire (score f1 seqeval médian supérieur de 36,64 %) et les modèles pré-entraînés non cliniques (score f1 seqeval médian supérieur de 2,01 % à 3,48 %). Notez que la hauteur de chaque barre est le score f1 moyen et la demi-longueur de chaque ligne verticale noire indique l'écart type sur 5 essais de différentes graines aléatoires (0, 13, 24, 36, 42).

Nous incluons ici quelques exemples tirés des corpus de préformation utilisés pour aider à contextualiser notre travail. Exemples de trois types de corpus de préformation : (1) web-wiki (livres en ligne de bookcorpus et articles d'encyclopédie de Wikipedia anglais), (2) bio (résumés d'articles académiques de Pubmed Abstracts et articles complets de Pubmed Central), et (3 ) clinique (NYU Notes, NYU Readmission from Langone EHR et notes cliniques de University of Florida Health).

Pour tester le degré de réglage fin que NYUTron doit généraliser à un autre système de santé, nous affinons NYUTron et BioClinicalBERT (qui a le même nombre de paramètres et d'architecture que NYUTron, mais préformé sur les notes MIMIC, les articles de corpus, pubmed et wikipedia) en utilisant différents sous-échantillons de MIMIC -III ensemble de données de réadmission. L'ensemble de données contient 52 726 notes de sortie de soins intensifs anonymisées de l'hôpital Boston Beth Israel avec une répartition train-val-test de 8: 1: 1. A 100 échantillons, l'AUC est similaire. À 1 000 échantillons, NYUTron a une ASC médiane supérieure de 3,58 % à celle de BioClinicalBERT (57,22 % contre 53,64 %). À 10 000 échantillons, NYUTron a une ASC médiane supérieure de 6,42 % à celle de BioClinicalBERT (65,56 % contre 59,14 %). En utilisant l'ensemble de données complet (42 180 échantillons), NYUTron a une ASC médiane supérieure de 3,8 % à celle de BioClinicalBERT (67,04 % contre 63,24 %). Étant donné que NYUTron a été préformé sur des notes identifiées de tous les départements de NYU Langone et affiné sur des notes anonymisées spécifiques aux soins intensifs de Beth-Israël, ce résultat montre que NYUTron est capable de généraliser à un environnement de santé très différent grâce à un réglage fin local. La hauteur de la barre indique la performance médiane de 5 expériences utilisant des graines aléatoires distinctes (0, 13, 24, 36, 42) et la barre d'erreur indique la plage min-max.

a, Une analyse stratifiée des performances du test temporel de NYUTron par département clinique et sous-spécialité oncologique. NYUTron donne les meilleurs résultats dans le service de neurologie (AUC 90,12 %) et les moins bons dans le service de médecine interne (AUC 67,95 % pour la spécialité non oncologique et AUC 63,77 % pour la spécialité oncologie), avec une différence d'environ 20 % AUC. Cet écart important entre les services cliniques suggère qu'une analyse plus fine peut entraîner des avantages en termes de performances. Nous annotons le nombre d'exemples (N) et le taux de réadmission (p) pour chaque département. b, les performances de NYUTron présentent des fluctuations mineures au fil des mois. Nous traçons l'AUC de test mensuel moyen de NYUTron de janvier 2013 à décembre 2021 pour rechercher les tendances ou cycles mensuels sous-jacents et pour tester l'hypothèse selon laquelle les performances seraient pires en juillet lorsque les nouveaux médecins commencent leur formation avec un style d'écriture différent de celui des médecins déjà en place. pratique (ligne rouge pointillée indiquant l'AUC mensuelle de juillet). La hauteur de la barre indique la performance mensuelle moyenne sur les 9 ans et la barre verticale indique l'écart type. Nous annotons le nombre d'exemples (N) et le taux de réadmission (p) pour chaque mois. Nous notons que juillet a la deuxième AUC mensuelle la plus basse et la variance la plus élevée. Nous supposons (et avons besoin de plus d'années de données pour vérifier) ​​que les notes cliniques écrites par les nouveaux médecins sont associées au décalage temporel au fil des mois et à la baisse des performances en juillet. Les ASC moyennes des trimestres de janvier à mars, d'avril à juin et de juillet à septembre augmentent, ce qui peut coïncider avec le calendrier de rotation des résidents dans différents départements cliniques. Nous laissons une étude plus approfondie de cette performance cyclique à des travaux futurs.

Dans le cadre d'une analyse des performances du modèle selon deux sources possibles de biais, l'âge et la race, nous effectuons des analyses stratifiées des performances de NYUTron. Nous annotons le nombre d'exemples (N) et le taux de réadmission (p) pour chaque évaluation. a, Nous stratifions le test temporel sur la base de neuf classes d'âges (0 à 90 ans avec des classes d'intervalles de 10 ans). NYUTron donne les meilleurs résultats pour les patients âgés de 10 à 40 ans et ses performances diminuent par décile au-delà de 40 ans, avec les pires performances dans le groupe d'âge des 80 à 90 ans. Nous observons qu'il ne s'agit pas d'un effet de la taille de l'échantillon, l'échantillon le plus important est âgé de 80 à 90 ans, mais reflète probablement la complexité et les charges de comorbidité étant disproportionnellement plus élevées avec l'âge avancé. b, Pour tester les dépendances potentielles et les biais par race, nous identifions d'abord les cinq races les plus fréquentes dans l'ensemble de données (Blanc, Autre race, Noir, Chinois, Indien), puis stratifions les résultats de l'évaluation par race. NYUTron donne les meilleurs résultats sur les patients chinois et les pires sur les patients noirs avec une légère variation de l'AUC dans les deux groupes.

a, Une boîte à moustaches avec des points de données individuels. Pour chaque modèle, 5 expériences ont été réalisées en utilisant des graines aléatoires 0, 13, 24, 36, 42. La ligne centrale de la boîte à moustaches indique la médiane. La ligne supérieure de la boîte indique le premier quantile. La ligne inférieure du graphique indique le dernier quantile. La moustache s'étend jusqu'à 1,5 fois la longueur interquartile et les losanges indiquent les valeurs aberrantes. b, Un graphique à barres qui montre la moyenne et l'écart type. La hauteur de la barre indique la moyenne sur 5 expériences et la longueur de la ligne verticale noire indique l'écart type.

a, Visualisation des délais de répartition des données de réadmission. Nous visualisons la répartition aléatoire, la répartition temporelle et la répartition du déploiement sur une chronologie pour indiquer cette décision pour l'évaluation du modèle. La répartition aléatoire commence à partir de janvier 2013 et se termine en mai 2021 (inclus), qui est ensuite divisée en un train de 80 %, un ensemble de validation de 10 % et un ensemble de test de 10 %. La répartition temporelle (test temporel) commence à partir de juin 2021 et se termine en décembre 2021, une période à partir de laquelle aucun échantillon d'apprentissage n'a été échantillonné. Les données de déploiement sont nécessairement échantillonnées à partir du futur car elles sont accumulées de manière prospective dans le cadre de notre essai clinique non interventionnel à un seul bras. b, les performances de NYUTron augmentent avec des notes d'entrée plus complètes. Pour tenter d'estimer les performances en fonction de la longueur de la séquence, nous avons échantillonné un sous-ensemble de "notes longues" à partir de l'ensemble de test temporel. Chaque note de ce sous-ensemble ne compte pas moins de 400 mots, soit environ 512 jetons. Nous avons tronqué ces longues notes à 100, 200, 300 et 400 mots tout en gardant leurs étiquettes de réadmission fixes afin de démontrer le gain supplémentaire de performance à mesure que nous capturons proportionnellement plus d'informations de chacune de ces « longues notes ». La ligne pointillée est l'AUC de toutes les notes. Cette figure montre que le traitement de plus de mots à partir de l'entrée possible conduit à une meilleure performance d'évaluation et confirme qu'il existe un potentiel clair d'amélioration des performances en augmentant la longueur de séquence maximale. c,d Courbe d'étalonnage de NYUTron pour le test temporel (c, le nombre d'exemples d'évaluation est N = 53 916) et le déploiement prospectif (d, le nombre d'exemples d'évaluation est N = 29 286). À titre de référence, la ligne orange est la courbe d'étalonnage d'un classificateur idéalement calibré. La ligne bleue est la courbe d'étalonnage de NYUTron. Actuellement, nous n'effectuons aucun étalonnage supplémentaire et choisissons le seuil de décision en fonction de la précision et du rappel sur l'ensemble de validation temporelle. La probabilité prédite est normalisée par la plus grande probabilité prédite. Dans l'ensemble, le modèle est bien calibré pour la tâche de réadmission de 30 jours.

.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournir un lien vers la licence Creative Commons et indiquer si des modifications ont été apportées. Les images ou tout autre matériel de tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Jiang, LY, Liu, XC, Nejatian, NP et al. Les modèles de langage à l'échelle du système de santé sont des moteurs de prédiction polyvalents. Nature (2023). https://doi.org/10.1038/s41586-023-06160-y

Télécharger la citation

Reçu : 14 octobre 2022

Accepté : 02 mai 2023

Publié: 07 juin 2023

DOI : https://doi.org/10.1038/s41586-023-06160-y

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.

PARTAGER