STATISTIK-FORUM.de

caligula · von **caligula** » Mi 14. Okt 2015, 13:42

Hallo,

ich stehe vor dem Projekt den Einfluss bestimmter unabhängiger Variablen auf eine abhängige Variable zu messen. Die Fragestellung die ich damit beantworten möchte ist einer Zufriedenheitsumfrage (und Auswertung) sehr ähnlich. Im einfachsten Fall wird dann ja in einem Fragebogen dichotom gefragt, sind sie zufrieden 1/0 und anhand der weiteren Fragen in diesem Fragebogen (die auf die unabh. Variablen laden) kann ich mittels logistischer Regression einen Einfluss prüfen und damit feststellen welcher Zustand der unabh. Variablen die Eintrittswahrscheinlichkeit der Zufriedenheit in Stärke und Richtung beeinflusst. (mir ist schon klar, dass hier noch etwas mehr dahinter steckt)

Mein Problem ist nun, dass mich eine unabhängige Variable interessiert, die ich nicht von den Leuten beantworten lassen kann, mein Y also unbekannt ist und ich nun nicht weiß wie ich damit umgehen soll. Da dies jetzt vllt. etwas zu vage ist hier etwas konkreter, mein Modell sieht folgendermaßen aus:

Ich möchte wissen welche Personen aus dem Testkreis "gesund leben". Das kann ich natürlich nicht direkt messen, sondern ich muss mir Einflussgrößen ableiten die wiederum die Eintrittswahrscheinlichkeit für den Zustand "gesund leben" beeinflussen:

H1: Eine gesunde Ernährung erhöht die Eintrittswahrscheinlichkeit dafür gesund zu leben.
H2: Regelmäßige Fitness erhöht die Eintrittswahrscheinlichkeit dafür gesund zu leben.
Hn: . . .

Entsprechend werden diese Variablen dann in Fragen für einen Fragebogen übersetzt und ich "ordne" die Fragen wieder den Variablen zu und berechne deren Einfluss. Problem ist, dass dies so ja nicht klappen kann wenn ich nicht weiß wer gesund lebt und wer nicht - die Ausprägung meiner abhängigen Variable also unbekannt ist. Den Fall habe ich so noch nicht gehabt, kann mir jemand weiterhelfen?

bele · von **bele** » Mi 14. Okt 2015, 19:44

Vielleicht suchst Du das Verfahren "Faktorenanalyse"?

Wenn Du keine Operationalisierung für "gesundes Leben" hast, kannst Du natürlich meine Regression rechnen. Wenn Du aber viele Einzelfragen hast, von denen Du glaubst, dass gesund lebende sie im Schnitt hoch und nicht besund lebende sie im Schnitt niedrig bewerten, dann kann die Faktorenanalyse Dir helfen, so eine Übereinstimmung im Antwortverhalten zu bestätigen oder zu widerlegen.

HTH,
Bernhard

strukturmarionette · von **strukturmarionette** » Do 15. Okt 2015, 07:46

Hi,

ich stehe vor dem Projekt den Einfluss bestimmter unabhängiger Variablen auf eine abhängige Variable zu messen.

- Wenn du noch ´vor Deinem Projekt stehst' ist ja noch Zeit, über eine geeigente AV nachzudenken, so dass Du diese in operationalisierter Form der Umfrage hinzuzufügen kannst.
- Ansonsten wären fachliche Überlegungen dahingehend anzustellen, welche Fragen aus Deinem Fragenpool sich als AV eignen.

Gruß
S.

caligula · von **caligula** » Fr 16. Okt 2015, 12:53

Danke für die bisherigen Antworten!

Ja, ich stehe tatsächlich noch am Anfang meines Projektes, die Erhebung hat also noch nicht stattgefunden. Aber genau jetzt muss ich ja festlegen was ich genau messen möchte und wie ich es auswerten will/kann, denn das hat ja Einfluss auf die bevorstehende Erhebung.

Die Faktorenanalyse ist mir durchaus ein Begriff, ich kenne Sie aber eher vor dem Hintergrund der Dimensionsreduktion, und damit der Vorbeugung/Lösung von Homoskedastizitäts-Problemen. Das Auftreten von Variablen die sich inhaltlich (und dann auch mathematisch) zu einem Teil überlagern wird auch bei mir gegeben sein, das Verfahren hatte ich also bereits im Hinterkopf. Am Ende des Tages möchte ich aber auf eine Aussage der folgenden Art hinaus, "mit einer gegebenen Wahrscheinlichkeit von X ist die Person Y der Gruppe "gesundlebender Menschen" zuzuordnen".

Die Verfahren die mir hierfür zuerst in den Sinn kommen sind:

- logistische Regression
- Diskriminanzanalyse
- Neuronale Netze
- Clusteralgorithmen (z.B. kNN)
- SVM

Alle Ansätze haben ihre eigenen Vor- und Nachteile. Wenn ich das Clustering jetzt mal ausklammere haben aber alle Verfahren gemein, dass es sich um "überwachte" Verfahren handelt, dass ich also eine Stichprobe habe bei der die Ausprägung der abh. Variable bereits ex ante bekannt ist/sein muss. Dann "trainiere" ich das Modell (der Begriff ist bei der log. Regr. natürlich etwas schief) und kann dann ggfs. auch out-of-sample performance messen - alles klar. Nur das klappt in meinem Fall ja eben nicht (oder doch?).
Bei dem k-Nearest-Neighbour Clustering (oder ähnlichen Verfahren) ist dies nicht nötig. Voraussetzung ist lediglich, dass die Anzahl an zu findenden Klassen (k) ex ante bekannt ist, dies ist ja hier der Fall --> 2. Problem ist aber das dieses Verfahren die Daten auf Basis ihrer Entfernung zueinander aufteilt, ich also keinen Einfluss darauf habe was die beiden entstehenden Klassen effektiv/inhaltlich unterscheidet. (Die Probleme bei der Betrachtung unterschiedlicher Dichte lassen wir mal außen vor

). Das Verfahren scheint also ebenfalls ungeeignet.

@ strukturmarionette: Dein Einwurf mit der Operationalisierbarkeit der abh. Variable ist völlig korrekt, nur ist das nicht worauf ich hinaus möchte. Würde ich deinem Rat folgen würde ich etwas völlig anderes messen, also eher inwieweit bestimmte Lebensweisen (Bsp. regelmäßiger Sport) die persönliche Einschätzung in Bezug auf "Gesund Leben" beeinflussen. Analog zu meiner Aussage oben wäre dies dann, "Das regelmäßige Treiben von Sport erhöht die Wahrscheinlichkeit um X sich der Gruppe "gesundlebender Menschen" zuzuordnen. Dies ist leider nicht was ich messen möchte.

---------------------------

Mein "Kompromiss-Vorschlag" :-)

ist folgender:

anstatt zu prüfen/messen welche Variablen einen positiven bzw. negativen Einfluss auf die abh. Var. ausüben, lege ich ex ante bereits fest die Wirkungsrichtung zu kennen. Beispiel, "täglicher Alkoholkonsum" hat einen negativen und eben nicht positiven Einfluss darauf als "gesund lebender Mensch" klassifiziert zu werden. Wenn ich diese Annahme setze (und ggfs. durch Literatur jeweils belege) kann ich im Anschluss die Umfrage auswerten und die Top 25% der Testpersonen mit den besten/positivsten Ergebnissen ermitteln. Diese Fälle werden dann von mir besagter Gruppe zugeordnet, alle anderen nicht (1/0). Jetzt kann ich messen mit welcher Wahrscheinlichkeit eine Testperson zu diesen 25% gehört. Ich kann die Ergebnisse daraus dann zwar nicht wirklich Verallgemeinern, aber das wäre in diesem Fall auch nicht das Ziel. Ich verändere hierdurch natürlich die Fragestellung der Untersuchung, mit der neuen Fragestellung kann ich aber sehr gut leben.

Was haltet ihr von dieser Vorgehensweise?

bele · von **bele** » Fr 16. Okt 2015, 15:45

Ob Du die Fragestellung einfach so anpassen kannst, dazu kann hier keiner etwas sagen. Möglicher Kritikpunkt wäre, dass Du bei den Fragen keine Gewichtung hast. Du setzt einfach, dass "Nicht-Rauchen" genauso gut ist wie "Viel Sport" oder "genügend schlafen" oder "Vorsorgeuntersuchung in Anspruch nehmen" oder "...". Wenn das für Dich ok ist, ist es für mich auch ok.

Das Problem ist aber, dass Du Dir Deine o. g. Hypothesen kaput machst. Wenn Du "gesunde Ernährung" als Indikator für gesund leben machst, dann ist Deine Hypothese H1 fast selbstverständlich. Über dieses Problem solltest Du nochmal nachdenken! Würde mich nicht wundern, wenn Du am Schluss zu jeder Frage untersuchst, wie gut sie mit den anderen korrelliert und damit die Faktorenanalyse durch die Hintertür wieder einführst.

LG,
Bernhard

STATISTIK-FORUM.de

Welches Verfahren bei einer unbekannten abh. Var.?

Welches Verfahren bei einer unbekannten abh. Var.?

Re: Welches Verfahren bei einer unbekannten abh. Var.?

Re: Welches Verfahren bei einer unbekannten abh. Var.?

Re: Welches Verfahren bei einer unbekannten abh. Var.?

Re: Welches Verfahren bei einer unbekannten abh. Var.?

Wer ist online?