STATISTIK-FORUM.de

kingele · von **kingele** » Do 19. Jan 2012, 19:10

Hallo zusammen,

Ich bin neu hier, also nicht hauen, wenn ich im falschen Unterforum sein sollte

Ich habe mit Hilfe 2er Verfahren (k-nn und log. Regression) Daten klassifiziert. Am Ende habe ich mir 2 schöne Charts auswerfen lassen, welche ich allerdings recht schwer interpretieren kann:
Bild

Ich weiß zwar, welche der Kurven "besser" klassifiziert, und das die ROC Kurve im Optimum weit nach links oben zeigt, aber warum das so ist, weiß ich leider nicht. auch, dass der Lift zB bei den Validierungsdaten mit dem roten Classifier zw. 10%-90% besser ist, als der Blaue.

Auch das kann ich nicht erklären. Könnte mir da jmd helfen? Ein Anfang wäre es schonmal, mir den deutschen Terminus für "lift" zu nennen

ROC habe ich per Wiki gefunden.

Außerdem: Welche der beiden Grafiken trifft eine bessere Aussage über die Güte eines Klassifikators?

Vielen Dank!!!

//EDIT:
hier ist mal eine ganz gute Interpretation der ROC Kurve, allerdings ohne "wissenschaftliche" Erklärung:

Eine ROC-Kurve nahe der Diagonalen deutet auf einen Zufallsprozess hin: Werte nahe der Diagonalen bedeuten eine gleiche Trefferquote und Falschpositivquote, was der zu erwartenden Trefferhäufigkeit eines Zufallsprozesses entspricht. Die ideale ROC-Kurve steigt zunächst senkrecht an (die Trefferquote liegt nahe bei 100%, während die Fehlerquote anfangs noch nahe bei 0% bleibt), erst danach steigt die Falsch-Positiv-Rate an. Eine ROC-Kurve, die deutlich unterhalb der Diagonalen bleibt, deutet darauf hin, dass die Werte falsch interpretiert wurden. Statt ein Signal zu erkennen, wird Rauschen erfaßt und das Signal ausgefiltert.

STATISTIK-FORUM.de

Verfahren validieren

Verfahren validieren

Wer ist online?