Fragen zur logischtischen Regression und Weitere

Alle Verfahren der Regressionanalyse.

Fragen zur logischtischen Regression und Weitere

Beitragvon Perter999923 » Mi 18. Sep 2019, 23:04

Guten Tag, dies ist mein erster Beitrag, ich kenne mich noch nicht mit den Gepflogenheiten hier aus.
Ich beginne am besten mit der Aufgabe.
Ziel ist es eine Erfolgsstudie zu Replizieren. Abhängige Variable ist der Erfolg, binär kodiert 0/1.
Die Studie beruht auf eine Menge Beobachtungen von Crowdfunding Cases, Branchen werden dabei in Form von Dummy-variablen berücksichtigt.
Ich möchte das Modell auf ausgewählte Branchen anwenden und dies mit dem Ursprungsergebnis vergleichen.
Es gibt 7 erklärende Variablen, 4 Moderator Variablen und 4 Kontrollvariablen. Die Moderatorvariablen sollen den Effekt von ausgewählten erklärenden Variablen verstärken. Alle Variablen, bis auf eine metrische, sind nominal, sprich hier binär oder kategorisch skaliert.
Ich habe dazu Daten über mehre Jahre rückwirkend erhoben, im Gegensatz dazu wurde im Ursprungspapier Daten für einen bestimmten Zeitraum erhoben.
Meine Frage dazu:
1) Ich habe die klassische logistisch Regression verwendet, im Originalen wurde ein Verfahren namens "industry-clustered ordinary least squares regression with robust standard error estimates" verwendet. Nach meiner Recherche kann dies aber nur für metrisch skalierte abhängige Variablen verwendet werden. Kennt jemand das Verfahren und kann etwas dazu sagen?
2) Zu Modellierung der Effekte verwende ich Process in SpSS, im Gegensatz dazu wird im Orginal Paper auf "Factorial Interaction" hingewiesen , handelt es sich dabei um ein Verfahren welches auch nur bei metrisch skalierten Variablen eingesetzt werden kann. Kennt jemand das Verfahren und kann etwas dazu sagen?
3) Muss ich die Zeitfaktor in der Regression berücksichtigen? oder kann man das vernachlässigen.
Datensatz:
1) Branche: N=100 2) Branche: N=150; keine Missings
Vielen Dank :)
Perter999923
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Mi 18. Sep 2019, 22:29
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Fragen zur logistischen Regression und Weitere

Beitragvon PonderStibbons » Do 19. Sep 2019, 08:49

1) Ich habe die klassische logistisch Regression verwendet, im Originalen wurde ein Verfahren namens "industry-clustered ordinary least squares regression with robust standard error estimates" verwendet. Nach meiner Recherche kann dies aber nur für metrisch skalierte abhängige Variablen verwendet werden. Kennt jemand das Verfahren und kann etwas dazu sagen?

Das ist jetzt etwas schwer nachvollziehbar. Du willst eine Studie replizieren, aber
anscheinend war in der Referenzstudie die abhängige Variable eine andere (kontinuerliche)?
Und wieso benutzt Du in einer aufwändige Studie dann am Ende bloß ein grobes
Kriterium wie Erfolg/Misserfolg?

Vermutlich kann man entsprechende robuste Standardfehler auch für logistische
Regressionen berechnen, aber sicher kann SPSS das nicht. Die Frage ist auch, wie
sehr Du das brauchst. Bei der Replikation geht es erstmals um die Koeffizienten,
nicht die Standardfehler. Bzw. wie ist Replikation bei Dir konzipiert?

2) Zu Modellierung der Effekte verwende ich Process in SPSS, im Gegensatz dazu wird im Orginal Paper auf "Factorial Interaction" hingewiesen , handelt es sich dabei um ein Verfahren welches auch nur bei metrisch skalierten Variablen eingesetzt werden kann. Kennt jemand das Verfahren und kann etwas dazu sagen?

Das eine ist ein Software-Makro, das andere bezeichnet normalerweise einfach die
Wechselwirkung mehrerer unabhängiger kategorialer Variablen. Inwiefern ist das im
vorlegenden Fall ein eigenes Verfahren, was haben sie darüber geschrieben?

3) Muss ich die Zeitfaktor in der Regression berücksichtigen? oder kann man das vernachlässigen.

Das ist primär eine substanzielle Frage, keine statistische. Wenn sich mit der Zeit
die Verhältnisse ändern, und das von Interesse ist, dann kannst Du es ja einbeziehen.

1) Branche: N=100 2) Branche: N=150; keine Missings

Soll das branchenweise gerechnet werden? Wenn ja, hast Du in der ersten Branche
im günstigsten Fall eine 50:50 Verteilung des outcomes. Um 50 Ereignisse vorherzusagen,
sind 7 erklärende Variablen + 4 Moderatorvariablen + 4*7 (?) Interaktionen + 4 Kontrollvariablen
vermutlich reichlich zu viel (und wenn Prädiktorvariablen auch noch aus mehr als 2 Kategorien
bestehen, kommen noch einige dummies mehr hinzu).

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11228
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 49
Danke bekommen: 2467 mal in 2451 Posts

folgende User möchten sich bei PonderStibbons bedanken:
Perter999923

Re: Fragen zur logischtischen Regression und Weitere

Beitragvon Perter999923 » Do 19. Sep 2019, 11:44

Erstmal Viele Dank für die schnelle Antwort.

Zu 1) Das ist es, was mich so irritiert. Der Erfolg auf solchen CF Plattformen besteht dann, wenn eine bestimmter vorher festgelegter Betrag erreicht wird (All or Nothing). Dementsprechend ist auch im Orginal Paper die Variable binär codiert.
Zudem wurde dann, abweichend zu der Beschreibung, bei der Modellierung eine logistische Regression verwendet.

Zu 2) Die Vorgehensweise war die folgende: Schrittweise wurden jeweils ausgehend von den Kontrollvariablen für jede erklärende Variable ein Modell erstellt und dann abschließend mit allen Variablen. Anschließend wurde die jeweilige Effekte der Moderator Variable auf die erklärenden Variable bestimmt.

Zu 3) Sie beschreiben, dass sie dies genutzt haben um den Effekt zu bestimmen. ...."the test of the main effects a factorial interaction",

Zu 4) Ok, ich denke dann kann ich den Effekt wahrscheinlich vernachlässigen, und eine Annahme treffen.

zu 5) Ja, dass war meine Idee, möchte die Branchen vergleichen und dann noch einmal den gesamten Datensatz modellieren. Also jede Branche einzeln modellieren und die Outputs interpretieren.
Die Verteilung des Outcomes ist die folgende 1) Sample 0,45 zu 0,55 und 2. Sample 0,7 zu 0,3.
OK, dass bedeutet also meine Datenbasis ist zu klein? Oder ist die Idee, zwei Regressionen zu vergleichen, generell der falsche Ansatz?

Kurz zu Info: https://scholar.google.de/scholar?clust ... 5&as_vis=1
Perter999923
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Mi 18. Sep 2019, 22:29
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Fragen zur logistischen Regression und Weitere

Beitragvon PonderStibbons » Do 19. Sep 2019, 12:14

Die Koeffizienten aus 2 Regression zu vergleichen bringt nichts. Wenn man einen "Branchen"-Effekt
annimmt, sollte dieser in das Modell einbezogen werden. Je nach Konzept, wird man Branche dabei
auch als Moderator verwenden und Moderatoreffekte testen ("hat Prädiktor x je nach Branche einen
unterschiedlichen Effekt"). Wenn Du beide Branchen zusammen analysierst, dann hast Du rund 90
Fälle in der kleineren outcome-Gruppe, das könnte machbar sein.

Sie beschreiben, dass sie dies genutzt haben um den Effekt zu bestimmen. ...."the test of the main effects a factorial interaction",

Den Satz verstehe ich nicht. Fehlt wohl was.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11228
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 49
Danke bekommen: 2467 mal in 2451 Posts

folgende User möchten sich bei PonderStibbons bedanken:
Perter999923

Re: Fragen zur logischtischen Regression und Weitere

Beitragvon Perter999923 » Do 19. Sep 2019, 16:43

Also allgemein sind doch die Koeffizienten, in der logistischen Regression, nicht identisch interpretierbar wie beim linearen Modell.
Kann man nicht die Signifikanz und die Richtung der Koeffizienten vergleichen ?
Nach dem Motto, in dieser Branche hat Variable X einen Einfluss und in Branche Y hat sie keinen?
Die Idee die Branche über einen Moderator darzustellen finde ich gut und probiere das mal aus.

So wird das beschreiben:
"We tested Hypothesis 8A by reparametrizing the model used in the test of the main effects using a factorial interaction."
Perter999923
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Mi 18. Sep 2019, 22:29
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Fragen zur logischtischen Regression und Weitere

Beitragvon PonderStibbons » Do 19. Sep 2019, 17:04

Kann man nicht die Signifikanz und die Richtung der Koeffizienten vergleichen ?

Nein. Wenn beide "statistisch signifikant" sind, dann weiß man dennoch nicht, ob der eine "statistisch signifikant größer" ist als der andere. Wenn der eine "statistisch signifikant" ist und der andere nicht, dann heißt das nicht, dass ein Unterschied vorliegt (z.B. kann derselbe Effekt mal "statistisch signifikant" sein, mal nicht, je nachdem wie groß die Stichproibe derjeweiligen Studie ist - vgl. "Fehler 2. Art"). Wenn beide "statistisch nicht signifikant" sind, dann heißt das nicht, dass beide Null sind. Man muss es direkt testen.

Nach dem Motto, in dieser Branche hat Variable X einen Einfluss und in Branche Y hat sie keinen?

Statistische Signifikanztests und p-Werte leisten leider nicht besonders viel, vor allem keinen Nachweis a la
"p=0,049: Phänomen existiert; p=0,051: Phänomen existiert nicht".

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11228
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 49
Danke bekommen: 2467 mal in 2451 Posts

folgende User möchten sich bei PonderStibbons bedanken:
Perter999923

Re: Fragen zur logischtischen Regression und Weitere

Beitragvon Perter999923 » So 22. Sep 2019, 15:47

Ich habe noch eine weitere Frage:
Wenn ich die beiden Branchen vergleichen möchte, welcher Test würde sich da anbieten? (einfach nur die Daten)
t-Test geht ja nicht, da die Annahmen verletzt sind. Kann man den Whitney -U test verwenden?
Habe gelesen das der ja eig. nur bei ordinalem Niveau anzuwenden ist und ich habe ja hauptsächlich dichotome Variablen.


Bei der Ermittlung von Korrelation habe ich die folgenden Methoden verwendet:
nominal(binär) -nominal (binär)-> den phi Koeffizienten
nominal (binär) -metrisch-> die punktbiseriale Korrelation
nominal (binär)-nominal Kategorisch -> Cramers V
bin mir da unsicher, kann man das so machen?

Wie kann man ordinal -metrisch messen? und ordnial -nominal (binär) ?
Vielen Dank im Vorraus
Perter999923
Grünschnabel
Grünschnabel
 
Beiträge: 5
Registriert: Mi 18. Sep 2019, 22:29
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: Bing [Bot] und 4 Gäste

cron