STATISTIK-FORUM.de

Sypher · von **Sypher** » Di 11. Jan 2022, 13:14

Hallo liebe Community,

vorab ich bin kein Experte auf dem Gebiet der Statistik. Daher urteilt nicht mit mir, wenn ich evtl. triviale Fragen stelle...

Ich muss als Prüfungsleistung meines Studiums einen fiktiven Datensatz analysieren. Hierfür wurde vorgeben, dass wir zur Regression die multiple lineare Regression und für den Teilaspekt des MI Random Forest nutzen sollen.

Kurz zu meinem Datensatz:
n= 1238
Variablen= 4

Die Variablen sind folgende: (abhängige Variable "Ausgaben der Versicherung (0-100000)", unabhängige Variable "Alter", "BMI", "Raucher Ja/Nein")

Probleme treten jetzt bei der Regression mit Random Forest auf.
Uns wurde ein Programm mit an die Hand geben, welches von unserer Dozentin programmiert wurde. In diesem müssen wir lediglich die csv Datei unseres Datensatz hochladen und die einzelnen Variablen als abhängig und unabhängig zuordnen.

Wenn ich nun die Regression mit Random Forest durchführe erhalte ich folgende Ergebnisse. (Siehe Anhang)

Hier erhalte ich sehr hohe Werte für MSE(8825510,2676), RMSE(2970,7760), MAE(1517,3512) und RSE(2979,6125).

Laut Literatur sollte sich diese Werte nahe Null aufhalten.

Ich tue mich jetzt schwer mit der Interpretation dieser Ergebnisse und weiß nun nicht so recht weiter. Ich würde mich freuen, wenn hier eine nette Person mir bei meiner Problematik helfen könnte.

Mit freundlichen Grüßen
Sypher

bele · von **bele** » Di 11. Jan 2022, 13:37

Hallo Sypher,

Sypher hat geschrieben: dass wir zur Regression die multiple lineare Regression und für den Teilaspekt des MI Random Forest nutzen sollen.

Was bedeutet MI? Soll das "ML" für Machine Learning" sein oder fehlt ein Buchstabe für "BMI" oder nochmal was anderes?

Probleme treten jetzt bei der Regression mit Random Forest auf.

Besteht das Problem darin, dass Du mit den fit-Indizes unzufrieden bist oder macht die Regression selbst irgendwelche Probleme?

(abhängige Variable "Ausgaben der Versicherung (0-100000)", unabhängige Variable "Alter", "BMI", "Raucher Ja/Nein")

Einer der Tricks von random forests ist ja, dass nicht alle Prädiktoren auf einmal, sondern immer nur eine Teilauswahl davon einbezogen werden. Wenn nur drei Prädiktoren zur Verfügung stehen, hat man da nicht mehr viele Freiheiten. Das ist aber kein Ausschlusskriterium. Man muss sich nur vergegenwärtigen: Wenn hier ein Prädiktor ausfällt dann geht jeweils viel Information verloren.

Wenn ich nun die Regression mit Random Forest durchführe erhalte ich folgende Ergebnisse. (Siehe Anhang)

Dir wird inzwischen aufgefallen sein, dass man in diesem Forum keine Anhänge hochladen kann. Waren in dem Anhang Informationen, die für die Beantwortung wichtig wären?

Hier erhalte ich sehr hohe Werte für MSE(8825510,2676), RMSE(2970,7760), MAE(1517,3512) und RSE(2979,6125).

Laut Literatur sollte sich diese Werte nahe Null aufhalten.

MAE steht für den mittleren absoluten Fehler, also um wieviel die Vorhergesagten Werte im Schnitt von den echten Werten abweichen. Wenn die Kosten für die Versicherung in einer Range von 0 bis einhunderttausend liegen, dann erscheint ein Vorhersagefehler von 1.500 gar nicht so groß. Wenn natürlich in Wirklichkeit Nur Werte zwischen 0 und 2.000 bei den Kosten vorkommen, dann wäre ein durchschnittlicher Vorhersagefehler von 1.500 schon groß. Mit den vorliegenden Angaben lässt sich daher nicht viel sagen.
Was vor allem auch fehlt ist eine Angabe, an was für Daten dieser Vorhersagefehler bestimmt wurde. Waren das Trainingsdaten, Out-of-Bag-Daten oder gab es einen Testdatensatz?

Ich tue mich jetzt schwer mit der Interpretation dieser Ergebnisse und weiß nun nicht so recht weiter. Ich würde mich freuen, wenn hier eine nette Person mir bei meiner Problematik helfen könnte.

Du hast uns Zahlen vorgelegt. Interpretieren lassen sich Zahlen aber nur im Licht ihrer Bedeutung, des Umfelds und der Datengrundlage.

LG,
Bernhard

Sypher · von **Sypher** » Di 11. Jan 2022, 15:49

Was bedeutet MI? Soll das "ML" für Machine Learning" sein oder fehlt ein Buchstabe für "BMI" oder nochmal was anderes?

Genau, hier sollt es ML heißen.

MAE steht für den mittleren absoluten Fehler, also um wieviel die Vorhergesagten Werte im Schnitt von den echten Werten abweichen. Wenn die Kosten für die Versicherung in einer Range von 0 bis einhunderttausend liegen, dann erscheint ein Vorhersagefehler von 1.500 gar nicht so groß. Wenn natürlich in Wirklichkeit Nur Werte zwischen 0 und 2.000 bei den Kosten vorkommen, dann wäre ein durchschnittlicher Vorhersagefehler von 1.500 schon groß. Mit den vorliegenden Angaben lässt sich daher nicht viel sagen.
Was vor allem auch fehlt ist eine Angabe, an was für Daten dieser Vorhersagefehler bestimmt wurde. Waren das Trainingsdaten, Out-of-Bag-Daten oder gab es einen Testdatensatz?

Mein Datensatz hat als niedrigsten Wert bei den Ausgaben 1112 Euro, höchste Wert liegt hier bei 68000 Euro.

Ich weiß nicht genau was das Programm jetzt rechnet, aber ich glaube, dass die Daten aus dem Testdatensatz herangezogen werden. Ich schreibe euch mal hier alle angegebenen Daten, welche mir das Programm ausgibt:

Regression informationen:
Value
Base estimator: DecisionTreeRegressor
Estimators: 100
Features: 3
OOB score: 0,8144

Regression statistics:
Value
MSE: 8825510,2676
RMSE: 2970,7760
MAE: 1517,3521
Residual SE: 2976,6125

Variables importance (via permutation):

Raucher: mean(1,5560). std(0,0406)
BMI: mean(0,3502). std((0,0180)
Alter: mean(0,30001). std(0,0140)

Final hyperparameters:

numbers of trees: 100
maximum tree depth: 3
maximum number of features: 2
sample rate: 0,99

Falls noch was fehlt sagt es mir bitte dann versuche ich die weiteren Informationen noch zu identifizieren.

LG
Sypher

bele · von **bele** » Di 11. Jan 2022, 16:53

Hallo Sypher,

Mein Datensatz hat als niedrigsten Wert bei den Ausgaben 1112 Euro, höchste Wert liegt hier bei 68000 Euro.

Ja, dann ist durchschnittlich um 1500 Eur daneben liegen in billigen Fällen um 100% daneben aber in teuren Fällen wirklich nah dran. Gerade auch wenn man bedenkt, dass ja nur drei Informationen für die Schätzung herangezogen werden.

Ich weiß nicht genau was das Programm jetzt rechnet, aber ich glaube, dass die Daten aus dem Testdatensatz herangezogen werden. Ich schreibe euch mal hier alle angegebenen Daten, welche mir das Programm ausgibt:

Tja, das ist blöd. Da würde ich jetzt mutmaßen, dass es sich um OOB-Schätzungen handelt, aber ich verstehe auch nicht alles

Base estimator: DecisionTreeRegressor
Estimators: 100
Features: 3
OOB score: 0,8144

Ein schnelles Googlen erbringt bei mir nur "OOB score" Definitionen für Klassifizierer, nicht für Regressionen, aber da musst Du dann halt etwas länger googlen als ich.

Variables importance (via permutation):

Raucher: mean(1,5560). std(0,0406)
BMI: mean(0,3502). std((0,0180)
Alter: mean(0,30001). std(0,0140)

Es gibt mehrere Wege, die Wichtigkeit von Variablen zu bestimmen, siehe zum Beispiel auf dieser Seite: https://cran.rstudio.com/web/packages/r ... e-measures

Falls noch was fehlt sagt es mir bitte dann versuche ich die weiteren Informationen noch zu identifizieren.

Fehlt, um was zu erreichen? Was ist Deine konkrete Frage?

LG,
Bernhard

Sypher · von **Sypher** » Mi 12. Jan 2022, 01:50

So,

Nach stundenlangem Videos schauen und Literatur durchwälzen bin ich tatsächlich nicht viel weiter gekommen.

Bei der Durchführung nutzen ich die Trainingsdaten bzw. habe eine Sample-Rate von 0,99.

Ich habe nochmal einen anderen Datensatz mit mehreren unabhängigen Variablen (6 Stück) herausgesucht und diesen nochmal durch das Programm gejagt, in der Hoffnung das ich niedrigere Werte (MSE, RMSE) erhalte. Auch hier erhalte ich wieder extrem hohe Werte für für den Mean Square error und den root mean Square error. Kann dies an möglichen Ausreißern in meinem Datensatz liegen, welche auf die Ergebnisse hier einwirken, oder was kann noch einen signifikanten Einfluss auf diese Parameter haben.

VG
Sypher

bele · von **bele** » Mi 12. Jan 2022, 09:12

Hallo Sypher,

Sypher hat geschrieben:Bei der Durchführung nutzen ich die Trainingsdaten

Der bestimmte Artikel in "die Trainingsdaten" legt nahe, dass wir schon mal über Trainingsdaten gesprochen haben.

bzw. habe eine Sample-Rate von 0,99.

Ich vermute: Das Programm bietet Dir an, nur einen Teil der Daten als Trainingsdatensatz zu verwenden und Du hast das auf 99% gestellt?

Auch hier erhalte ich wieder extrem hohe Werte für für den Mean Square error und den root mean Square error.

Du hast uns Zahlen vorgelegt. Interpretieren lassen sich Zahlen aber nur im Licht ihrer Bedeutung, des Umfelds und der Datengrundlage.

Für uns ist halt noch nicht nachvollziehbar, warum das "extrem hohe Werte" sein sollen. Wenn Du da beispielsweise die Kosten eines Krankenhausaufenthalts vorhersagen willst und weißt nur, ob einer Raucher ist oder nicht aber nicht, ob er eine Sprunggelenksprellung oder eine Lungenentzündung hat, dann fände ich das ein ganz passables Ergebnis. Du kannst ja spaßeshalber mal die gleiche Regression mit multipler linearer Regression durchführen und dazu den RMSE ausrechnen und beide vergleichen, um überhaupt einen Rahmen dafür zu haben, was "extrem hohe Werte" für diesen Datensatz sind.

Kann dies an möglichen Ausreißern in meinem Datensatz liegen, welche auf die Ergebnisse hier einwirken, oder was kann noch einen signifikanten Einfluss auf diese Parameter haben.

Wenn Du Sorge um einflussreiche Ausreißer hast, dann solltest Du Dir die Residuen anschauen -- beispielsweise eine Punktwolke auf der die Residuen gegen den wahren Wert abgetragen sind und ein Histogramm der Residuen selbst.

LG,
Bernhard

STATISTIK-FORUM.de

Probleme Interpretation Random Forest

Probleme Interpretation Random Forest

Re: Probleme Interpretation Random Forest

Re: Probleme Interpretation Random Forest

Re: Probleme Interpretation Random Forest

Re: Probleme Interpretation Random Forest

Re: Probleme Interpretation Random Forest

Wer ist online?