STATISTIK-FORUM.de

lilchaos · von **lilchaos** » Mi 31. Aug 2016, 09:52

Hallo,

Ich arbeite mit struktrurellen alarmen, heißt wenn in einer chemischen struktur eine substruktur gefunden wird, wird das molekül als positiv markiert, sonst als "negativ".
Nun soll ich die Vorhersagekraft verschiedener Substrukturen auf mehreren Datensätzen von über 1000 Molekülen bewerten.
Jetzt stehe ich vor dem problem, dass ich für eine Substruktur ja nur die richtig und falsch positiven erkenne und es in dem sinne ja keine falsch negativen bzw richtig negativen gibt.

Also kann ich im prinzip nur den positiven vorhersagewert (PPV, precision) berechnen. Dieser ist ja aber abhängig davon, wie viele positive im gesamtdatensatz (quasi äuivalent zur prävalenz) sind, wenn ich das richtig verstanden habe. Bei mir sind das 50-75% positive je nach datensatz, in meinen augen ist also der PPV z.T zu hoch weil ja auch durch die hohe prävalenz von positiven die ratewahrscheinlichkeit viel höher als 50/50 ist.

Gibt es eine methode die ergebnisse für verschiedene datensätze trotzdem sinnvoll zu vergleichen (zB durch normalisieren?) oder die ergebnisse zu interpretieren ohne nur ziemlich unspezifisch zu sagen dass der unterschied (eben aber vermutlich nur zum teil) durch die hohe prävalenz kommt?

Ich hoffe ich habe da keinen riesigen denkfehler drin, würde mich freuend wenn mir jemand helfen könnte.

Lg

bele · von **bele** » Mi 31. Aug 2016, 13:09

Hallo!

lilchaos hat geschrieben:Nun soll ich die Vorhersagekraft verschiedener Substrukturen auf mehreren Datensätzen von über 1000 Molekülen bewerten.

Was sollen die Substrukturen denn vorhersagen bzw. was ist in diesen Datensätzen denn an Information enthalten?

lilchaos hat geschrieben:Jetzt stehe ich vor dem problem, dass ich für eine Substruktur ja nur die richtig und falsch positiven erkenne und es in dem sinne ja keine falsch negativen bzw richtig negativen gibt.

Und warum ist das so? Wahrscheinlich wird der Satz verständlich, wenn man mehr über das Zustandekommen der Datensätze weiß?

lilchaos hat geschrieben:Gibt es eine methode die ergebnisse für verschiedene datensätze trotzdem sinnvoll zu vergleichen

Was sinnvoll ist kann man erst sagen, wenn man weiß, worum es in der Studie geht. Was also ist die eigentliche Fragestellung, das letzte Ziel?

LG,
Bernhard

lilchaos · von **lilchaos** » Mi 31. Aug 2016, 13:32

Hey,

danke für die Antwort.

Ich versuche es mal genauer zu beschreiben:
Es geht darum die Aktivität eines Moleküls vorherzusagen. Nun haben sich schlaue Menschen mal Gedanken gemacht welche Strukturmerkmale (aufgrund von struktur-wirkungsbeziehungen) denn implizieren könnten dass ein Molekül aktiv ist.

Diese Merkmale gibt es als einfache Substruktur ( z.B wenn ein schwefel- Molekül drin ist ist ist es wahrscheinlich ein aktives Molekül). Diese "Regeln" soll ich nun einzeln bewerten, also z.B. stimmt die vorhersage, dass ein Molekül mit einem schwefel immer aktiv ist. dh ich erfasse im weiteren sinne die Prädiktivität.

Um diese zu bewerten habe ich mehrere Datensätze (mit verschiedenen Eigenschaften der enthaltenen Moleküle und verschiedenen prävalenzen von positiven) mit je >1000 Molekülen von denen ich aus Experimenten weiß ob sie aktiv oder inaktiv sind (dh binär klassifiziert).
Nun Suche ich anhand der Regel alle Moleküle mit einem Schwefel und evaluiere: wie viele von denen die ich gefunden habe sind experimentell wirklich Positiv klassifiziert worden und wie viele waren eigentlich negativ. (Ergo ich bekomme True und false positives).
Alle anderen Moleküle haben ja die struktur nicht dh gibt es ja keine Falsch negativen in diesem Sinne für die spezifische regel.

Ich hoffe damit ist klar was genau ich mache?

Das Problem eben ist nun wie oben beschrieben, wie ich die Voraussagekraft einer Regel für verschiedene Datensätze bewerten kann ohne dabei eine Abhängigkeit von der Prävalenz zu haben.

lg

STATISTIK-FORUM.de

Biostatistik: interpretation PPV anhängig von prävalenz

Biostatistik: interpretation PPV anhängig von prävalenz

Re: Biostatistik: interpretation PPV anhängig von prävalenz

Re: Biostatistik: interpretation PPV anhängig von prävalenz

Wer ist online?