Passende Statistische Methode

Fragen, die sich auf kein spezielles Verfahren beziehen.

Passende Statistische Methode

Beitragvon Hans1970 » Do 2. Jul 2020, 11:56

Hallo zusammen,
ich habe ein Problem und suche nach einer geeigneten Methode. Das Problem stellt sich wie folgt dar (stark vereinfacht). Stellen Sie sich vor ich habe folgenden Kombinationen

Alter={20, 25, 30, 35}
Einkommen={1000, 1500, 2000}
Beruf={B1,...,B10}

Es ergeben sich 4*3*10 = 120 Kombinationen. Für jede der Kombination ergibt sich ein Score, der zwischen 0 und 1 liegt (könnte beispielsweise "Zufriedenheit" darstellen; 0 überhaupt nicht zufrieden, 1 sehr zufrieden, 0,5 so halb zufrieden). Es interessiert mich nun, wie relevant einzelne Merkmal (bsp. Alter) für diesen Score sind bzw. wie stark sich die Ergebnisse innerhalb dieses Merkmals unterscheiden. Sind beispielsweise die Ergebnisse innerhalb der Alter immer sehr ähnlich.

Mein erster Ansatz war, die Korrelationskoeffizienten zwischen den Merkmalsausprägungen (bsp. Alter 20 und 25) zu bestimmen. Ergibt sich ein Wert nahe 1 sind die Ergebnisse hoch korreliert und zukünftig könnte man auf die Berücksichtigung unterschiedlicher Ausprägungen des Merkmals verzichten und beispielsweise bei Alter 20 bleiben, weil die Ergebnisse bei Alter 25 etc. nahezu gleich sind.

Gibt es einen alternativen Ansatz?

Viele Grüße
Hans
Hans1970
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Do 2. Jul 2020, 11:39
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Passende Statistische Methode

Beitragvon Hans1970 » Sa 4. Jul 2020, 14:08

Hallo zusammen,
hat niemand eine Idee oder war meine Beschreibung des Problems ungenügend?
Beste Grüße
Hans
Hans1970
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Do 2. Jul 2020, 11:39
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Passende Statistische Methode

Beitragvon PonderStibbons » Sa 4. Jul 2020, 14:26

Das Problem stellt sich wie folgt dar (stark vereinfacht)

Da geht das Malheur schon los, weil die "stark vereinfachte" Darstellung nicht nachvollziehbar ist und
eventuell wichtige Merkmale des eigentlichen Problems fehlen.

Zum Beispiel ist nicht plausibel, dass Alter und Beruf und Einkommen wechselseitig voneinander
unabhängig sind, also Beruf B1 genauso häufig Einkommen 1000, 1500, bzw. 2000 zeigt wie Beruf
B2 etc. Dito für Alter und Einkommen.

Sollte es dennoch gelungen sein, Alter, Beruf und Einkommen völlig unabhängig voneinander
zu halten, so wäre ein Test des Einflusses von "Alter" möglich über eine Korrelation zwischen
Alter und Zufriedenheit. Liegt der Wert nahe Null, so besteht kein messbarer korrelativer
Zusammenhang, eine Änderung beim Alter geht nicht mit einer Änderung der Zufriedenheit
einher. Eine grafische Darstellung sollte diese Rechnung begleiten (X-Y-Streudiagramm).

Vielleicht solltest Du aber einmal das reale Prblem versuchen darzustellen.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11251
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 50
Danke bekommen: 2469 mal in 2453 Posts

Re: Passende Statistische Methode

Beitragvon bele » Sa 4. Jul 2020, 18:48

Ich würde den Versuch machen, einen Regressionsbaum zu berechnen und zu schauen, ob sich damit Situationen definieren lassen, in denen Vereinfachung möglich ist.
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5766
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1351 mal in 1338 Posts

Re: Passende Statistische Methode

Beitragvon Hans1970 » Mi 8. Jul 2020, 09:44

Hallo zusammen,
zunächst danke für die Rückmeldung. Die Vereinfachung liegt im Wesentlichen darin, dass ich nicht 3 Variablen und 120 Kombinationen habe, sondern deutlich mehr. Geht auch davon aus, dass wir wirklich unabhängige Cluster gebildet haben.

In dem unten genannten Beispiel kann man sich das als drei dimensionale Matrix vorstellen (Alter, Einkommen, Beruf) und die Einträge der Matrix sind - allgemein gesprochen - reelle Zahlen zwischen 0 und 1. Jetzt ist es für mich von Interesse, ob beispielsweise die Einträge in der Spalte "Alter" immer gleich bleiben oder sich stark unterscheiden. Blieben sie gleich, dann müsste man bei zukünftigen Erhebungen beispielsweise "Alter" nicht mehr als Variable berücksichtigen, sondern könnte fix bei bsp. 25 bleiben, weil die Ergebnisse bei 30, 35 etc. ähnlich sind. Für wenige Variablen kann man sich ja einfach die Differenzen anschauen und dann entsprechende Aussagen treffen. Aber ich frage mich, ob es ein stat. Verfahren gibt, das man insbesondere auch dann anwenden kann, wenn ich nicht nur 3 Variablen habe, sondern deutlich mehr (bzw. jede Variable hat nicht 3 ,4, oder 10 Ausprägungen).

Viele Grüße und nochmals danke
Hans
Hans1970
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Do 2. Jul 2020, 11:39
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Passende Statistische Methode

Beitragvon bele » Mi 8. Jul 2020, 20:55

Hallo Hans,

über meinen Vorschlag mit dem Regressionsbaum bist Du ja schnell hinweggegangen. Find ich aber weiter valide. Wenn man findet, dass es nie eine Aufspaltung nach Alter gibt, dann kann Alter entfallen. Wenn es Aufspaltungen nach Alter erst ganz nach bei den Blättern gibt, muss man das Hinterfragen und wenn gleich die oberste Aufspaltung nach Alter erfolgt, könnte Alter einflussreich sein.
Na gut, scheint Dich nicht zu interessieren.

Dann könnte man es mit Computersimulation versuchen: Trainiere eine flexible Regressionsfunktion anhand der 119 Einträge, die nicht Alter sind und schau, wie groß die Vorhersagefehler sind. Wiederhole das mit Auslassung je eines anderen der 120 Einflussfaktoren und vergleiche, wie groß die Vorhersagefehler sind. Dann siehst Du sehr konkret, wieviel Informationsverlust Du ohne Alter hättest.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5766
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1351 mal in 1338 Posts

Re: Passende Statistische Methode

Beitragvon Hans1970 » Do 9. Jul 2020, 11:30

Hallo Bernhard,
ganz im Gegenteil. Deine Hinweise interessieren mich sehr und ich werde mich in die Themen einlesen. Ich wollte nur das Problem nur nochmals konkretisieren, um sicher zu gehen, dass es vollständig verstanden wurde. Ich werde nun deine beiden Ideen weiterverfolgen. Habe ganz herzlichen Dank. hast du vielleicht einen Literatur-Tipp, wo ich die von dir beschriebenen Verfahren nachlesen kann. Ich hoffe, sie sind nicht so kompliziert, dass es eine monatelanger Einarbeitung bedarf :-). Grundkenntnisse in Mathematik sind vorhanden ;-)
Beste Grüße und nochmals danke
Hans
Hans1970
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Do 2. Jul 2020, 11:39
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Passende Statistische Methode

Beitragvon bele » Do 9. Jul 2020, 15:50

Schau mal, welche Teile von dem Text verständlich sind: https://cran.r-project.org/web/packages ... gintro.pdf
Gleich am Anfang geht es um ein Modell, das nicht alle möglichen Prädiktoren nutzt.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5766
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1351 mal in 1338 Posts


Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: Bing [Bot], Google [Bot] und 1 Gast

cron