Kollinearitätstest mit kategorialen UVs

Alle Verfahren der Regressionanalyse.

Kollinearitätstest mit kategorialen UVs

Beitragvon toni » So 28. Apr 2013, 10:09

Hallo!

Ich rechnen eine logistische Regression und nehme dabei einige kategoriale unabhängige Variablen als Dummies in mein Modell auf.

Ich würde gerne ein Kollinearitätstest mit diesen UVs durchführen.

Die Literatur (Fahrmeir, Urban, Kohler/Kreuter) empfiehlt den "Tolenranz"-Test und den VIF-Test basierend auf dem R-Quadrat der linearen Regressionen der UVs untereinander.

Mein Problem: Ich kann mit Dummy-UVs untereinander keine sinnvollen lineare Regressionen rechnen.
Ich könnte höchstens logistische Regression zwischen den UVs rechnen.
Kann ich den Toleranz-Test und den VIF-Test anstatt des R-Quadrats mit dem Pseudo-R-Quadrat aus der logisischen Reg rechnen?????

Ansonsten fällt mir nur noch ein, die Korrelationen der UVs untereinander mit Hilfe des chi-quadrat-tests bzw. des cramer's V zu messen, um einen Anhaltspunkt für das Ausmaß der Kollinearität zu erhalten...
toni
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Fr 26. Apr 2013, 10:28
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Kollinearitätstest mit kategorialen UVs

Beitragvon daniel » So 28. Apr 2013, 11:12

Die Literatur (Fahrmeir, Urban, Kohler/Kreuter) empfiehlt den "Tolenranz"-Test und den VIF-Test basierend auf dem R-Quadrat der linearen Regressionen der UVs untereinander.


Und diese Autoren empfehlen das aus gutem Grund.

Mein Problem: Ich kann mit Dummy-UVs untereinander keine sinnvollen lineare Regressionen rechnen.


Es ist sehr gut, dass Du bei Regressionen den "Sinn" einer solchen im Auge hast. Bei der Berechnung von Kollinearitätsstatistiken (bsp. VIF) handelt es sich allerdings um ein rein technisches, abstarktes und von jedem Inhalt gelöstes Vorgehen, das daher jedem inhaltlichen Sinn entbehrt. Es geht schlicht darum, den linearen Zusammenhang zwischen einem Set von Prädikatoren abzuschätzen.
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
Inventar
Inventar
 
Beiträge: 739
Registriert: Mo 6. Jun 2011, 13:23
Danke gegeben: 0
Danke bekommen: 169 mal in 161 Posts

folgende User möchten sich bei daniel bedanken:
toni

Re: Kollinearitätstest mit kategorialen UVs

Beitragvon toni » Mi 1. Mai 2013, 09:14

Danke für den Hinweis!

Eine Frage noch: Ich nehme also sämtliche Dummy-Prädikatoren in eine lineare Reg auf und lasse mir den VIF ausgeben. Ich habe z.B. die ordinale UV "Bildungsabschluss" in 5 Dummies zerlegt. Wenn ich - wie im Gesamtmodell - die am besten besetzte Referenzgruppe der 5 Dummies nicht mit in die lineare Reg der UVs aufnehme, bekomme ich akzeptable VIF-Werte heraus. Wenn ich jedoch alle 5 Dummies mit aufnehme und Stata automatisch den letzten Bildungsdummy als Referenz unterdrück, bekomme ich einen VIF-Wert, der über einem akzeptablen Grenzwert liegt. Ich habe eben andere Referenzgruppen gewählt als Stata. Ist es trotzdem legitim mich auf die VIF-Werte zu berufen, die ich bei meiner eigenen Wahl der Refernzgruppe erhalte? Oder muss ich wegen dem Kollinearitätstest VIF-Werte für alle 5 Bildungsdummies erzeugen?
toni
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Fr 26. Apr 2013, 10:28
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Kollinearitätstest mit kategorialen UVs

Beitragvon daniel » Mi 1. Mai 2013, 13:08

Du solltest nicht "trotzdem", sondern sogar ausschließlich und ganz klar nur diejenigen VIF Werte berichten, die auf Grundlage Deiner Regression beruhen.

Weiterführend (vielleicht etwas zu weit für diese Frage) möchte ich allerdings anmerken, dass Kollinearität ein etwas komplexeres "Problem" ist. Einerseits führt Kollinearität zu Problemen bei der Berechnung der Schätzer. Dieses Problem ist heute eher theoretischer Natur, weil moderen Software (u.a. Stata) bei der Schätzung der Koeffizienten viele "Tricks" verwendet. So reskaliert Stata interen (davon bekommst Du nichts mit) die Variablen der Regression so, dass die Skalen in etwa gleichgroße nummerische Werte aufweisen (bsp. könnne Matrixberechnungen kompliziert werden, wenn die Anzahl der Kinder zwischn 0 und 10, das Einkommen zwischen 0 und 200,000 schwankt). Zudem wird die Inversion der X Matrix (der Teil) auf drei verschiedene Arten berechnet, um die Schätzer zu bestimmen.

Der VIF kann als Maß dieses Problems verwendet werden, weshalb z.B. immer noch viele Forscher davon überzeugt sind, das Zentrieren von Prädikatoren vor deren multiplikativer Verknüpfung zur Erstellung von Interaktionen sei eine sinnvolle (oder gar notwendige) Maßnaheme. es reduziert den VIF und andere Kollinearitätsdiagostiken. Wie bereits erwähnt ist das Problem der exakten Berechnung aber (für den Benutzer) nicht (mehr) relevant.

Das andere, schwerwiegendere Problem ist eher inhaltlicher Natur (obgleich Kollinearität ein Datenproblem bleibt). Wenn Prädikatoren stark linear zusammenhängen, dann ist es (auch bei exakter Schätzung durch die Software) inhaltlich nicht leicht zu entscheiden, welcher Einfluss nun auf welche Variable zurückgeht. Das erkennst Du im output an hohen Standradfehlern, die akkurat die enorme Unsicherheit der geschätzen Koeffizienten widerspiegeln. Dieses Problem wird nicht gelöst, indem man Variablne zentiert, oder -- für Deinen Fall interessanter -- eine andere Referenz wählt. Beide Maßnahmen reduzieren zwar die Kollinearitätsdiagnostik, keine kann aber fehlende Informationen in den Daten, die das Problem erst verursachen, ersetzen. Es lohnt sich das im Auge zu behalten und nicht nur nach statistischen Maßzahlen zu schauen, die eher für ein Problem relevant sind, das es so (für den Benutzer) gar nicht (mehr) gibt.


Weiterführend

Eschambadi, R., Hess, J., D. (2007). Mean-Centering Does Not Alleviate Collinearity Problems in Moderated Multiple Regression Models. Marketing Science, 26(3): 438-445.

Gould, W. (2013). Re: st: matrix operations in STATA and MATA do not match! Statalist.
http://www.stata.com/statalist/archive/ ... 00211.html

Gould, W. (2011). Understanding matrices intuitively, part 2, eigenvalues and eigenvectors. The Stata Blog.
http://blog.stata.com/2011/03/09/unders ... ly-part-2/

Shieh, G. (2011). Clearifying the role of mean centring in multicollinearity of interaction effects. British Journal of Mathematical and Statistical Psychology, 64(3): 462–477.
Stata is an invented word, not an acronym, and should not appear with all letters capitalized: please write “Stata”, not “STATA”.
daniel
Inventar
Inventar
 
Beiträge: 739
Registriert: Mo 6. Jun 2011, 13:23
Danke gegeben: 0
Danke bekommen: 169 mal in 161 Posts

folgende User möchten sich bei daniel bedanken:
toni

Re: Kollinearitätstest mit kategorialen UVs

Beitragvon toni » Mi 1. Mai 2013, 21:20

Danke! Die Antwort führt keineswegs zu weit. Ich habe mich ausführlichst mit dem inhaltlichen Problem der Multikollinearität beschäftigt.

In meinem Fall ist die Ursache glasklar: Ich habe aus zwei ordinalen UVs eine dritte binäre UV gebildet (keine Interaktionsvariable!!) und alle drei in mein Modell aufgenommen. Ich weiß, dass dieses Vorgehen als Musterbeispiel für das Entstehen eines Multikollinearitätsproblems gilt. Aus inhaltlicher & v.a. theoretischer Sicht ist die Aufnahme der dritten, kollinearen UV jedoch sehr sinnvoll. Außerdem weisen in der sequenziellen log. Reg. alle drei UVs einen signifiknaten Effekt auf (0,001 bis 0,05 Niveau). Wenn ich die multikollineare UV an dritter Stelle mit in das Modell aufnehme, werden die Effekte der ersten beiden "originalen" UVs abgeschwächt, bleiben jedoch signifikant und Richtungsgleich. Die kollineare Var hat einen ebenfalls signifikanten Effekt. Den Standardfehler der kollinearen UV kann ich nur schwer beurteilen: Er liegt bei 0,38. Der Mittelwert aller Standardfehler im Modell liegt bei 0,24 (min=0,08; max=0,42). Alle VIF-Werte liegen weit unter dem Grenzwert (alle bei ~1).

Ich tendiere dazu die dritte, multikollineare UV mitaufzunehen, was meinst du?
toni
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Fr 26. Apr 2013, 10:28
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: Google [Bot] und 1 Gast

cron