Contributi principali
I contributi dichiarati dal paper sono:
- Primo studio che dimostra quanto sia significativo un modello BERT-style addestrato su EHR strutturate per task di modellazione del mondo reale.
- Design di un task di pre-training domain-specific cross-visit che cattura semantiche generali e contestuali nei dati EHR.
- Prima dimostrazione di prestazioni superiori ai metodi SOTA su molteplici task clinici in coorti fenotipizzate.
- Generalizzazione del modello EHR BERT usando un dataset (Truven) diverso da quello di training (Cerner).
- Il miglioramento delle prestazioni di Med-BERT si osserva per tutte le dimensioni del campione. Il modello pre-addestrato funziona bene anche con dati di training limitati.
- Fornitura di uno strumento di visualizzazione per la semantica di dipendenza degli EHR.
- Rilascio del modello pre-addestrato e del codice.
Abstract
Studi precedenti che tentavano di modellare EHR strutturate con transfer learning includono BEHRT e G-BERT.
BEHRT ha fatto pre-training tramite predizione di medical code sulle visite. Ha usato metriche non standard come AUC, rendendo difficile il confronto con studi precedenti.
G-BERT ha appreso embedding GNN e BERT tramite codici clinici. Ha modificato il task di pre-training MLM in un task domain-specific che massimizza la differenza tra codici clinici esistenti e inesistenti e predice codici diversi. Tuttavia, i dati di input di G-BERT erano campioni single-visit, insufficienti per identificare informazioni contestuali a lungo termine negli EHR.
Partendo da questi problemi e per costruire un modello specializzato nella predizione di malattie, il paper ha progettato Med-BERT. A differenza del BERT originale che apprende da testo libero, Med-BERT usa dati diagnostici strutturati basati su codici ICD (International Classification of Disease).
Confronto con studi correlati

Med-BERT ha un vocabolario più grande e una coorte di pre-training più ampia rispetto a BEHRT e G-BERT. Il paper sostiene che la coorte più grande e le sequenze di visite più lunghe aiutano a comprendere meglio la semantica contestuale.
Inoltre, essendo pre-addestrato con vocabolari grandi e pubblicamente accessibili come ICD-9 e ICD-10 e con dati di più istituzioni, il paper sostiene che sia adatto a diverse istituzioni e scenari clinici.
Come BEHRT e G-BERT, Med-BERT usa code embedding per i codici clinici, visit embedding per visite diverse e transformer per identificare le inter-relazioni tra i codici. A differenza di BEHRT e G-BERT che non usavano l’ordinamento dei codici nelle visite, Med-BERT usa serialization embedding per rappresentare l’ordine relativo dei codici.
Il paper ha progettato un task di pre-training domain-specific per predire la degenza ospedaliera prolungata (Prolonged LOS). Questo è un problema clinico noto che richiede modellazione per valutare la gravità delle informazioni sanitarie del paziente in base alla progressione della malattia e non richiede annotazione umana. Apprendere questo task aiuta il modello ad apprendere meglio feature cliniche e contestualizzate.
Fine-tuning
L’utilità di Med-BERT pre-addestrato viene valutata tramite fine-tuning su due task di predizione da 3 coorti di pazienti di due dataset EHR diversi:
- Insufficienza cardiaca tra pazienti con diabete (DHF)
- Insorgenza di cancro pancreatico
Questi task differiscono dai task di predizione del pre-training (MLM e Prolonged LOS), quindi sono buoni per valutare la generalizzazione del modello. Le ragioni per cui questi 2 task sono stati scelti:
- Contengono informazioni più complesse dei singoli codici diagnostici.
- Si basano su algoritmi di fenotipizzazione che integrano informazioni oltre i codici diagnostici, come vincoli temporali, momento della diagnosi, farmaci e dati di laboratorio.
Il fine-tuning è stato condotto con questi obiettivi:
- Testare il miglioramento delle prestazioni aggiungendo Med-BERT a 3 modelli SOTA
- Confrontare Med-BERT con embedding non contestualizzati pre-addestrati (stile word2vec)
- Prestazioni di predizione malattie di Med-BERT per diverse dimensioni del training set di fine-tuning
Architettura di Med-BERT
Modalità dei dati di input
Si usa la stessa architettura (multi-level embedding, transformer bidirezionale) e tecniche di pre-training simili (funzione di loss su masking, task di classificazione per pre-training) del paper BERT originale. Data la differenza semantica tra EHR e testo, è importante adattare la metodologia di BERT agli EHR strutturati.
I dati di input del BERT originale sono 1D, ma gli EHR strutturati sono dati in stile multilayer e multi-relazione. Quindi è importante come appiattire i dati EHR strutturati in 1D e codificarli per BERT.
La Tabella 3 esplicita queste differenze.

Architettura del modello

Med-BERT ha 3 tipi di input:
- code embedding
- Rappresentazioni a bassa dimensionalità di ogni codice diagnostico
- serialization embedding
- Ordine relativo di ogni visita. Per i dati di questo paper, l’ordine di priorità di ogni codice in ogni visita.
- visit embedding
- Distinzione di ogni visita nella sequenza
A differenza di BERT, non si usano [CLS] e [SEP]. Dato che la sequenza è troppo lunga per riassumere le informazioni nel [CLS], si usa un feed-forward layer separato per comprimere il contenuto dei token di output. Inoltre il visit embedding da solo è sufficiente per separare le informazioni delle visite, quindi [SEP] non è necessario.
Pre-training di Med-BERT
Il pre-training è stato fatto con gli iperparametri e l’algoritmo raccomandati dal paper BERT originale.
Masked LM
Si usa l’algoritmo di masking del paper BERT originale. Un codice casuale viene convertito in token [MASK] con probabilità dell’80%, in un codice casuale con probabilità del 10%, e rimane invariato con probabilità del 10%.
Predizione della degenza ospedaliera prolungata (Prolonged LOS)
Per la generalizzabilità del modello pre-addestrato, si è scelto un problema clinico non disease-specific e simile al dataset di pre-training. I candidati per il task di pre-training includevano indicatori di qualità delle cure, mortalità, ri-ospedalizzazione precoce e Prolonged LOS. Mortalità e ri-ospedalizzazione precoce hanno mostrato accuratezze superiori al 99%, risultando task relativamente facili. Quindi si è scelto come task di pre-training la valutazione se la degenza supera i 7 giorni.
Strutturalmente, il Prolonged LOS sfrutta la struttura bidirezionale di Med-BERT perché le informazioni sanitarie delle visite passate influenzano il LOS delle visite successive. Al contrario, l’insorgenza di malattia o la mortalità terminano sempre all’ultima visita della sequenza, quindi hanno una struttura unidirezionale.
Task di predizione downstream tramite fine-tuning
Il modello pre-addestrato produce solo embedding generali per i dati di input, non etichette di predizione.
Nei modelli predittivi EHR, si usa una RNN come prediction head.
Valutazione
Si è valutato eseguendo due task di predizione di malattie su 3 coorti da 2 database.
- Due task: predizione di DHF e PaCa
- 3 coorti: DHF-Cerner e PaCa-Cerner per entrambi i task; Truven solo per la predizione del cancro pancreatico
A differenza di BEHRT e G-BERT, in Med-BERT i task di pre-training e valutazione sono più complessi e richiedono fenotipizzazione da prospettive multiple. Quindi il paper sostiene che la sua metodologia è più realistica e aiuta a stabilire la generalizzabilità.
Metodi usati per il confronto:
- GRU, Bi-GRU
- RETAIN: un modello popolare per la predizione di malattie con doppia GRU e modello di attention
- L2LR: regressione logistica con regolarizzazione L2
- RF: random forest

Riferimenti
- Med-BERT: https://www.nature.com/articles/s41746-021-00455-y
- Med-BERT Github: https://github.com/ZhiGroup/Med-BERT
- BEHRT: https://www.nature.com/articles/s41598-020-62922-y
- G-BERT: https://arxiv.org/abs/1906.00346