STATISTIK-FORUM.de

Hallo zusammen,

ich raufe mir seit mehreren Stunden die Haare zum richtigen Testgütemaß einer diagnostischen Genauigkeitsstudie. Gegenübergestellt werden soll die Testgüte eines Algorithmus gegenüber dem menschlich/ärztlichen Einschätzungsvermögen eines Patienten. Vereinfach dargestellt ist die Hypothese, dass Ärzte eine deutlich höhere Falsch-Positiven-Rate haben als ein entsprechender Algorithmus – also viel öfter fälschlicherweise weiterführende Diagnostik einleiten, weil sie mit ihrem Urteil falsch liegen, wohingegen ein Algorithmus richtigerweise das Testergebnis liefert, dass keine Erkrankung (true negative) vorliegt.

Folgendes fiktives Beispiel:

Ein Kardiologe hat nach einem vor wenigen Tagen behandelten Herzinfarktpatienten den Verdacht, dass der Patient erneut einen Infarkt hat und will dieses mittels einer abermaligen Herzkatheteruntersuchung abklären/verifizieren. Es stellt sich in dieser Goldstandartuntersuchung aber dann heraus, dass dies nicht fall war -> der Arzt als „Test“ also ein falsch-positives Testergebnis geliefert hat. Demgegenüber hätte ein neuer Test (zB. eine KI) bei dem gleichen Patienten zum gleichen Zeitpunkt das Ergebnis geliefert: „keine erneuter Herzinfarkt“ und somit ein true-negatives Ergebnis. Dieses Geschehen ist nun immer wieder zu beobachten (der Arzt geht bei seinen Patienten immer wieder von einem erneuten Infarkt aus, der sich dann aber im Herzkatheter nicht bestätigt. Die KIplädiert im Vergelich zum Arzt hingegen stets richtigerweise auf „kein Infarkt“.

Wenn in diesem Szenario also die Überlegenheit der KI gegenüber dem Arzt benannt werden soll, um welches statistische Testgütemaß handelt es sich dann?
Meiner Meinung hat die KI einen höheren negativen Vorhersagewert, da ihre negative Vorhersage dann auch tatsächlich stets true-negative war (der Patient in der Goldstandartuntersuchung also keinen Infarkt hatte). Aber die Formulierung, "die KI hätte gegenüber dem Arzt einen höheren prädikativen Wert als ein Arzt" erscheint mir paradox, da ja überhaupt nur solche Fälle betrachtet werden, in denen der Arzt von einem erneuten Herzinfarkt ausgegangen ist – also er als "Test" selbst niemals ein negatives Ergebnis angibt, sonst hätte er ja keinen Herzkatheter veranlasst.

Kann jemand Licht ins Dunkle bringen?

Ich danke sehr im Voraus,

Beste Grüße

Katrin

Hi,

Überlegenheit der KI gegenüber dem Arzt benannt werden soll, um welches statistische Testgütemaß handelt es sich dann?

- Effizienz-1 vs Effizienz-2 (deskriptiv)
- aber besser ein konkretes als ein fiktives Beispiel

Gruß
S.

STATISTIK-FORUM.de

Diagnostische Genauigkeitsstudie / Richtiges Testgüte-Maß

Diagnostische Genauigkeitsstudie / Richtiges Testgüte-Maß

Re: Diagnostische Genauigkeitsstudie / Richtiges Testgüte-Ma