STATISTIK-FORUM.de

fassy · von **fassy** » Di 24. Sep 2019, 10:29

Hallo zusammen,

ich habe die letzten Wochen versucht im Netz, Büchern und Studien eine Lösung für mein Problem zu finden. Leider ohne Erfolg. Von daher hoffe ich, dass ihr mir eventuell weiterhelfen könnt.

Ich habe eine Software die aus verschiedenen Eingabeparametern P1,P2...Pn eine Ausgabe Y1 durch ein statistisches Model M1 erzeugt. Ich habe keine Einsicht, wie M1 wirklich funktioniert und wie die verschiedenen Parameter verrechnet werden. Wahrscheinlich einfach eine Multiple Regression, aber sicher sein kann ich mir nicht.

Dazu habe ich weitere Variablen V1, V2,...Vn die meiner Meinung nach die Vorhersage von Y1 auf real beobachtete Werte von Y verbessern.

Jetzt habe ich überlegt wir ich diese V1,V2,... Vn mit M1 verheiraten kann um auf ein M2 zu kommen, das Y2 abschätzt das näher an den echten Y liegt.

Meine naive Herangehensweise wäre:
1) Testdaten sammeln mit P1,P2,...Pn2, dem errechneten Y1, V1, V2,... Vn und dem beobachteten echten Y.
2) Dann Y1 als Variable in mein Model M2 aufnehmen. Z.B. eine (nicht zwangsläufig) Regression als Y = Y1 + b1 V1 + b2 V2 + ... + bn Vn + e. Damit sollte ich dann ja eine genauere Annäherung an Y bekommen als aus Y1 alleine, richtig?
3) Ich lasse eine zweite unabh'ngige Datenserie sammeln und nutze die um beide Modelle M1 und M2 zu vergleichen und eine Absch'tyung yu bekommen welches Model Y besser bestimmt, z.B. mit Bayesscher Statistik.

Kann man das so machen? Oder, ist das totaler Blödsinn? Ich habe nirgendwo irgendeine Referenz gefunden wie man die Ausgabe von einem Blackbox Model weiterverwenden kann. Wird dies grundsätzlich nicht gemacht? Und wenn es Blödsinn ist, hat jemand eine Idee wie ich etwas in der Art wie beschrieben sonst umsetzen könnte?

Vielen Dank!
fassy

bele · von **bele** » Di 24. Sep 2019, 13:02

Hallo fassy,

wenn V1 bis Vn tatsächlich neue, aussagekräftige Information ins Spiel bringt, dann sehe ich keine Einwände, das so zu machen. Wenn ich beispielsweise eine Abiturnote oder das Ergebnis eines Intelligenztests als Prädiktor in ein Modell einbeziehe, dann ist diese Abiturnote oder dieser Intelligenztest ja auch nur eine black box, von deren Zustandekommen ich im Detail sehr wenig sagen kann.

Ein paar Anmerkungen:
- Es klingt so, als gäbe es viele V und als sei das Gewinnen neuer Datensätze nicht sehr teuer. Auch scheinst Du Dich mehr um die Vorhersagegüte als um das Verstehen der Zusammenhänge zu bemühen. Wenn das alles stimmt, dann solltest Du Dich nicht unnötig auf einfache lineare Regression beschränken. Was ist im echten Leben schon linear? Auch Random-Forests, Neuronalen Netzwerke und die ganze sonstige Breite Maschinellen Lernens kann gute Vorhersagen liefern.
- Du wirfst unter Punkt 3 plötzlich Bayes-Statistik ein. Das ist nicht falsch, aber letztlich kannst Du alle Schritte mit und ohne Bayes machen. Will sagen: Die in Punkt 2 genannte lineare Regression kannst Du auch schon "mit Bayes" rechnen und auch die Entscheidung in Punkt 3 lässt sich "ohne Bayes" machen. Die Entscheidung für oder gegen Bayes-Statistik ist unabhängig von dem sonstigen Plan.
- Eine zweite unabhängige Datenserie ist immer super, noch besser, wenn Du drei Datensätze hast: Einen zum Finden des richtigen Modells, einen für das Finetuning und einen für die abschließende Testgüte. Goldstandards sind halt sehr aufwändig. Lies mal ein wenig nach, was k-fold Crossvalidation ist -- erspart Dir vielleicht sehr viel Arbeit.

LG,
Bernhard

folgende User möchten sich bei bele bedanken:
fassy

fassy · von **fassy** » Di 24. Sep 2019, 13:36

Hallo Bernard,

schon mal vielen Dank für deine Antwort.

bele hat geschrieben:wenn V1 bis Vn tatsächlich neue, aussagekräftige Information ins Spiel bringt, dann sehe ich keine Einwände, das so zu machen. Wenn ich beispielsweise eine Abiturnote oder das Ergebnis eines Intelligenztests als Prädiktor in ein Modell einbeziehe, dann ist diese Abiturnote oder dieser Intelligenztest ja auch nur eine black box, von deren Zustandekommen ich im Detail sehr wenig sagen kann.

Hmmm, ja... ABER... sowohl die Abiturnote als auch der ermittelte IQ sind ja "gemessene" Werte, oder? Der passende Vergleich bei mir wäre: Ein Model schätzt aus dem IQ, dem Einkommen der Eltern und des Alters bei Einschulung die Abiturnote. Jetzt stelle ich bei Umfragen fest, dass die Schulbehörde unzufrieden mit der Güte der Vorhersage ist und beauftragt mich das Model zu verbessern, ohne aber mir zu erklären wie das Model aussieht.

Also setze ich mich hin und sage: "Ok, die Anzahl der Leistungsüberprüfung pro Schuljahr haben einen Einfluss" und modifiziere dann die Abiturnote mit dieser Anzahl um auf eine bessere Annäherung der Abiturnote zu kommen.

bele hat geschrieben:Ein paar Anmerkungen:
- Es klingt so, als gäbe es viele V und als sei das Gewinnen neuer Datensätze nicht sehr teuer.

Nunja, teuer ist relativ. Aber ich denke ich könnte schon zwei (evtl auch drei) unabhängige Datensätze bekommen.

bele hat geschrieben:Auch scheinst Du Dich mehr um die Vorhersagegüte als um das Verstehen der Zusammenhänge zu bemühen.

Es geht in erster Linie darum, dass eine Organisation nicht zufrieden mit einem Modell ist und jetzt zeigen möchte, dass wenn man anderer Variablen noch hinzuzieht, bessere Vorhersagen trifft. Das ist der Kern des Problems, natürlich wäre es in einem zweiten Schritt dann interessant wie diese Zusammenhänge zu verstehen sind, aber da wird es dann schon sehr komplex da man ja evtl auch soetwas wie Mediation oder Moderatoration mit betrachten sollte.

bele hat geschrieben:Wenn das alles stimmt, dann solltest Du Dich nicht unnötig auf einfache lineare Regression beschränken. Was ist im echten Leben schon linear? Auch Random-Forests, Neuronalen Netzwerke und die ganze sonstige Breite Maschinellen Lernens kann gute Vorhersagen liefern.

Ja, da habe ich auch schon dran gedacht. Ich habe mich auch nicht auf eine Regression festgelegt, das war nur ein Beispiel um meine neuen Input Daten mit dem Output aus Model 1 irgendwie zu verrechnen. Ich schau mir mal die Random-Forests und ähnliches genauer an. Da hab ich leider nur rudimentäres Wissen

bele hat geschrieben:- Du wirfst unter Punkt 3 plötzlich Bayes-Statistik ein. Das ist nicht falsch, aber letztlich kannst Du alle Schritte mit und ohne Bayes machen. Will sagen: Die in Punkt 2 genannte lineare Regression kannst Du auch schon "mit Bayes" rechnen und auch die Entscheidung in Punkt 3 lässt sich "ohne Bayes" machen. Die Entscheidung für oder gegen Bayes-Statistik ist unabhängig von dem sonstigen Plan.

In erster Linie bin ich auf Bayes gekommen da ich für den Modellvergleich über den Bayes Faktor eine Aussage über die Güte des Unterschieds bekomme aber nicht wissen muss wie das original Modell funktioniert. Ließe sich mit Sicherheit auch auf die klassische Weise machen, aber ich fand Bayes halt spannend

Evtl, kann ich dann einfach 2 und 3 bayesieren

Oder liege ich da jetzt komplett falsch? Ich möchte eine gute Zahl haben die sagt "Model 2 ist wesentlich besser in der Vorhersage von Y als Model 1".

bele hat geschrieben:- Eine zweite unabhängige Datenserie ist immer super, noch besser, wenn Du drei Datensätze hast: Einen zum Finden des richtigen Modells, einen für das Finetuning und einen für die abschließende Testgüte. Goldstandards sind halt sehr aufwändig. Lies mal ein wenig nach, was k-fold Crossvalidation ist -- erspart Dir vielleicht sehr viel Arbeit.

Ok, ich versuche mal an drei Testserien zu kommen. Danke für den Tip mit der k-fold Crossvalidation, das klingt wirklich ganz spannend...

LG,
fassy

bele · von **bele** » Di 24. Sep 2019, 15:48

Hallo fassy,

fassy hat geschrieben:Hmmm, ja... ABER... sowohl die Abiturnote als auch der ermittelte IQ sind ja "gemessene" Werte, oder? Der passende Vergleich bei mir wäre: Ein Model schätzt aus dem IQ, dem Einkommen der Eltern und des Alters bei Einschulung die Abiturnote.

Eben. Dieses erste Modell benutzt den IQ als blackbox ohne sich Gedanken darum zu machen, ob da sprachgebundene oder sprachungebundene Intelligenz gemessen wurde, welches Modell der Intelligenz Hintergrund bei der Testerstellung war und und und. Es wird also ohne weiteres eine Blackbox als Prädiktor anerkannt.

bele hat geschrieben:Auch scheinst Du Dich mehr um die Vorhersagegüte als um das Verstehen der Zusammenhänge zu bemühen.

Es geht in erster Linie darum, dass eine Organisation nicht zufrieden mit einem Modell ist und jetzt zeigen möchte, dass wenn man anderer Variablen noch hinzuzieht, bessere Vorhersagen trifft.

Dann habe ich ja richtig verstanden, dass es primär um Vorhersagegüte geht.

Ich schau mir mal die Random-Forests und ähnliches genauer an. Da hab ich leider nur rudimentäres Wissen

Wenn komplexe Nicht-Linearität und evtl. missing values im Spiel sind, können die echt spannend sein.

Ließe sich mit Sicherheit auch auf die klassische Weise machen, aber ich fand Bayes halt spannend Evtl, kann ich dann einfach 2 und 3 bayesieren

Bayes ist spannend und Bayes-Statistik hat oft die besseren Antworten parat und ist konzeptuell oft überzeugender. Wenn Du die Freiheit hast, dann go Bayes. Vergiss aber nicht, dass kein Mensch eine Insel ist. Auch Du hast bestimmt eine Zielgruppe, ein Publikum, und die sollen Dich noch verstehen. Wenn der Chef der Organisation eine ganz graue Frisur hat und sich von vor 35 Jahren noch daran erinnert, dass p immer unter 0,05 liegen muss, dann kann es ihn verstören, wenn Du mit einer linearen Regression ohne p-Wert ankommst, stattdessen anfängst, Prior-Verteilungen zu rechtfertigen und anstelle anständiger Punktschätzungen für die Koeffizienten deren gemeinsame Verteilung analysierst...

LG,
Bernhard

folgende User möchten sich bei bele bedanken:
fassy

fassy · von **fassy** » Mi 25. Sep 2019, 11:09

Hallo Bernard,

vielen Dank!

bele hat geschrieben:
Eben. Dieses erste Modell benutzt den IQ als blackbox ohne sich Gedanken darum zu machen, ob da sprachgebundene oder sprachungebundene Intelligenz gemessen wurde, welches Modell der Intelligenz Hintergrund bei der Testerstellung war und und und. Es wird also ohne weiteres eine Blackbox als Prädiktor anerkannt.

Stimmt auch wieder... da stand ich wohl auf dem Schlauch.

bele hat geschrieben:Wenn komplexe Nicht-Linearität und evtl. missing values im Spiel sind, können die echt spannend sein.

Ich vermute mal dass die Zusammenhaenge nicht linear sind. Von daher, macht es wohl Sinn sich damit auseinander zu setzen.

bele hat geschrieben:Bayes ist spannend und Bayes-Statistik hat oft die besseren Antworten parat und ist konzeptuell oft überzeugender. Wenn Du die Freiheit hast, dann go Bayes. Vergiss aber nicht, dass kein Mensch eine Insel ist. Auch Du hast bestimmt eine Zielgruppe, ein Publikum, und die sollen Dich noch verstehen. Wenn der Chef der Organisation eine ganz graue Frisur hat und sich von vor 35 Jahren noch daran erinnert, dass p immer unter 0,05 liegen muss, dann kann es ihn verstören, wenn Du mit einer linearen Regression ohne p-Wert ankommst, stattdessen anfängst, Prior-Verteilungen zu rechtfertigen und anstelle anständiger Punktschätzungen für die Koeffizienten deren gemeinsame Verteilung analysierst...

Nun, die eine Partei ist statistisch wenig bewandert und moechte nur ueberzeugende Argumente fuer ein alternative Modell sehen, die andere hat Bayes in Spiel gebracht... von daher bin ich glaube da ganz gut aufgestellt wenn ich das mit Bayes mache.

Vielen Dank und LG,
fassy

Ps. bitte entschuldige die fehlenden Umlaute... mein US Rechner spinnt grade ein wenig und mag keine Umlaute mehr...

STATISTIK-FORUM.de

Ein unbekanntes statistisches Model erweitern?

Ein unbekanntes statistisches Model erweitern?

Re: Ein unbekanntes statistisches Model erweitern?

Re: Ein unbekanntes statistisches Model erweitern?

Re: Ein unbekanntes statistisches Model erweitern?

Re: Ein unbekanntes statistisches Model erweitern?

Wer ist online?