Aby zmniejszyć liczbę nieprawidłowych odpowiedzi, Google powiedział, że jego eksperci opracowali nowe kryterium oceny – punkt odniesienia do oceny nowej wersji modelu sztucznej inteligencji. W rezultacie Med-PaLM uzyskał już 86,5 procent w innym teście USMLE.
Według Jamesa Davenporta, specjalisty ds. informatyki na brytyjskim Uniwersytecie w Leeds, głównym problemem Med-PaLM pozostaje „duża różnica między prostymi odpowiedziami na „pytania medyczne” a prawdziwą medycyną”.