STATISTIK-FORUM.de

Banjos · von **Banjos** » Fr 4. Aug 2017, 16:07

Hallo liebe Forumsmitglieder/innen,

ich habe folgendes Regressions-Problem und würde mich freuen, wenn mir jemand helfen könnte:

Ich habe einen Datensatz mit 40 Fällen und sieben Variablen.
Die Voraussetzungen für die Durchführung multipler linearer Regressionen sind soweit erfüllt, allerdings sind jeweils zwei mal zwei Variablen (nennen wir sie x1 und x2 sowie x2 und x3) bivariat etwas höher miteinander korreliert: rs = 0.65 bzw. rs = - 0.60, p < 0.001. Zunächst habe ich Interaktionsterme der entsprechenden Variablen in die Modelle aufgenommen (also x1 + x2 + x1*x2 + x3 + x2*x3, aber auch die Interaktionsterme jeweils einzeln) und die Variablen rückwärts basiered auf AIC selektiert. Dabei sind die Interaktionsterme immer "rausgeflogen", die Variablen x1 und x2 aber im finalen Model enthalten, b1 mit positivem Vorzeichen, b2 mit negativem. Der VIF liegt jeweils unter 3.

Um besser zu verstehen, ob die Ergebnisse trotz der recht niedrigen VIFs durch Multikollinearität beeinflusst wurden und diesen Einfluss ggf. zu beheben, habe ich folgendes probiert:
jeweils x1 / x2 aus den Modellen entfernt, x1 entfernt: x2 fliegt raus (b2 wäre nicht sig. positiv), R^2 von 0.5 auf 0.3 erniedrigt/x2 entfernt: b1 verändert sich nur leicht, R^2 von 0.5 auf 0.4 erniedrigt
Variablenausprägungen am jeweiligen Mittelwert zentriert (halte ohnehin nicht viel von dem Vorgehen): keine Auswirkungen auf VIF
Lasso-Regression: x2 fliegt raus, ansonsten gleiche Variablen-Selektion wie basierend auf AIC

Ich bin nun unsicher wie ich am besten vorgehe: x2 aus dem finalen Model rausnehmen oder drinlassen und Problematik diskutieren?
Inhaltlich wäre ein negativer b2-Koeffizient erklärbar.

Es wäre super, wenn mir hier jemand Rat geben könnte.
Vielen Dank im Voraus!

PonderStibbons · von **PonderStibbons** » Fr 4. Aug 2017, 17:28

Wie soll das irgendjemand sinnvoll diskutieren können? Es ist kein Studienthema benannt, keine Fragestellung und kein Analyseziel, die Variablen sind unbekannt, die Art der Stichprobe dito. Grundsätzlich lässt sich allenfalls feststellen, dass 7 Variablen bei gerade mal 40 Fällen zu viele Prädiktoren sind, ferner dass sich durch allerlei Herumprobieren mit zu vielen Variablen bei zu wenigen Fällen in der Regel überdefinierte Modelle und unbrauchbare Ergebnisse einstellen. Aber wie gesagt fehlen leider alle wesentlichen Angaben, um erkennen zu können, ob das auch hier der Fall wäre.

Mit freundlichen Grüßen

Ponderstibbons

folgende User möchten sich bei PonderStibbons bedanken:
Banjos

Banjos · von **Banjos** » Fr 4. Aug 2017, 21:00

Danke, PonderStibbons, für Deinen Hinweis.

Es gibt in einer klar eingegrenzten Region 44 Servicepoints mit je einem fest definierten Einzugsgebiet (nennen wir es CA = catchment area).
AV ist die Nutzung eines Services ausgedrückt als Anzahl Nutzer/innen je 1000 Einwohner in CA(x). (Einwohner einer CA können nur den jeweils einen zugeordneten Sevicepoint nutzen)
Bei den UVs muss ich mich korrigieren, es sind je sechs UVs in die Modelle eingegangen.
UVs sind sozioökonomische und strukturelle Daten auf Ebene der CAs:
1. Personen mit einem "niedrigen" Jahreseinkommen in % der Bevölkerung (x1),
2. Personen mit Migrationshintergrund in % an der Bevölkerung (x2),
3. Anzahl von Kiosken je 1000 Einwohner/innen (x3),
4. Verkehrsanbindung des Servicepoints (x4)
5. und schließlich wegen räumlicher Autokorrelation jeweils die mittleren räumlichen x- und y-Koordinaten (x5, x6) der CAs (x wäre hier ausreichend, könnte also auf fünf UVs reduzieren).
nahezu Vollerhebung
Fragestellung: Welche UVs tragen signifikant zur Varianzaufklärung der AV bei?

Viele Grüße
Banjos

Banjos · von **Banjos** » So 6. Aug 2017, 13:35

...und noch einen Nachtrag: Alle Variablen sind verhältnisskaliert.
Die Modelle wurden jeweils für Erwachsene und Kinder getrennt berechnet (also auch die Variablen entsprechend definiert), aber gehen wir der Einfachheit halber von einem Modell aus.
Basiered auf oben genanntem Vorgehen (Multiple linere Regression mit Rückwärtsselektion nach dem AIC) in R habe ich diese Ergebnisse erhalten:
korrigiertes R^2 = 0.50, p <0.001
Variable x1 = Personen mit niedrigem Einkommen in %: β = 0.20; B = 0.74; p < 0.001; VIF = 2.50
Variable x2 = Personen mit Migrationshintergrund in %: β = -0.10; B = -0.60; p = 0.002; VIF = 2.60
Variable x3 = Verkehrsanbindung des Servicepoints (Anzahl Haltestellen mit bestimmter Verbindung): β = -0.25; B = -0.30; p = 0.020; VIF = 1.10
Variable x4 = mittlere x-Koordinate: β = -0.0001; B = -0.70; p < 0.001; VIF = 1.19

Mit geht es insbesondere darum, ob und wie ich trotz der niedrigen VIF Multikollinearität (zwischen x1 und x2) identifizieren könnte und ob und wie ich die ggf. beheben sollte. Meine bisherigen Versuche habe ich im obigen Post beschrieben.

Wenn ich noch irgendwelche Angaben vergessen habe, sorry, einfach nachfragen.
Würde mich freuen, wenn mir jemand helfen könnte.

PonderStibbons · von **PonderStibbons** » So 6. Aug 2017, 14:24

Fragestellung: Welche UVs tragen signifikant zur Varianzaufklärung der AV bei?

Ich weiß nicht, ob das eine praktisch und/oder theoretisch relevante Fragestellung sein kann, aber um das zu bestimmen, kann man zur Vorab-Information die einzelnen Korrelationen berechnen und dann das Gesamtmodell. Wieso Multikollinearität ein Thema sein sollte und warum hier welche zu befürchten wäre, erschließt sich mir nicht (es waren auch die Standardfehler der entsrechenden Regressiongewichte nicht angegeben). Wozu das Herumgefummele unweigerlich führt, habe ich bereits angegeben.

Mit freundichen Grüßen

PonderStibbons

folgende User möchten sich bei PonderStibbons bedanken:
Banjos

Banjos · von **Banjos** » So 6. Aug 2017, 17:42

Danke für Deine rasche Antwort!

Die einzelnen Korrelationen habe ich errechnet. Wie im ersten Post angegeben, ist der Spearman-Korrelationskoeffizient zwischen x1 und x2: rs = 0.65, p < 0.001. Die anderen Korrelationskoeffizienten bei den UVs untereinander rs < 0.3 und nicht sig. Die Korrelationskoeffizienten der UVs mit der AV:
Variable x1: rs1 = 0.48, p <0.01
Variable x2: rs2 = 0.15, ns (p >0.05)
Variable x3: rs3 = -0.24, ns
Variable x4: rs4 = -0.34, p <0.05

Die Standardfehler der Regressionsgewichte sind:
b1: 0.04
b2: 0.02
b3: 0.10
b4: 0.00003

Ich würde auch nicht weiter auf das Thema Multikollinearität eingehen, aber mein Prüfer meint, ich solle weitere statistische Methoden anwenden, um zu das Problem der Multikollinearität "zu behandeln" (Zitat).
Mein Problem: Ich sehe noch nicht einmal das Problem der Multikollinearität. Daher meine (verzweifelten) Versuche, dem angeblichen Problem beizukommen, an dessen Ende ich jedoch nicht schlauer, sondern eher verunsichert bin.
In der Literatur las ich, dass es für Multikollinearität spricht, wenn sich das Vorzeichen min. eines Koeffizienten ändert, wenn man eine UV weglässt. Das passiert mit x2, wenn ich x1 weglasse (andersherum nicht). Daher dann die Lasso-Regression (die zudem die Überdefinition/Overfitting reduzieren soll oder habe ich das falsch verstanden?) mit den genannten Ergebnissen.

Ich tendiere dennoch dazu, das Modell so wie ich es zunächst berechnete, zu lassen.
1. weil weder x1 noch x2 reduntant sein scheinen, denn das korrigierte R^2 reduziert sich bei Wegnahme von x1 bzw. x2 jeweils von 0.5 auf 0.3 bzw auf 0.4.
2. weil die VIFs deutlich < 5 oder gar 10 sind (die "Grenzwerte", die ich in der Lit fand)
(3. weil, wenn ich es richtig verstand, die Präzision der über Lasso ermittelten Koeffizienten schwer zu ermitteln und zu intepretieren ist, weil die Varianz der Koeffizienten durch die "Bestrafung" reduziert, durch die Bestrafung aber ein Bias eingeführt wird.)

Es ist sowohl von theoretischer als auch praktischer Relevanz, ob Multikollinearität vorliegt und ob x2 im finalen Modell enthalten ist oder nicht. Aber ich will auch nicht am Modell herumexperimentieren, nur damit mein Prüfer zufrieden ist, ich aber nicht.

Würdest Du mir dazu raten, das Modell so zu lassen? Also ohne an einem eventuellen Multikollinearitätsproblem herumzudoktorn?
Viele Grüße

PonderStibbons · von **PonderStibbons** » So 6. Aug 2017, 18:15

Die einzelnen Korrelationen habe ich errechnet. Wie im ersten Post angegeben, ist der Spearman-Korrelationskoeffizient zwischen x1 und x2: rs = 0.65, p < 0.001.

Ich bezog mich auf die angegebene Fragestellung demnach auf die Korrelationen der xi mit y.

mein Prüfer meint, ich solle weitere statistische Methoden anwenden, um zu das Problem der Multikollinearität "zu behandeln" (Zitat).

Warum sagst Du das nicht gleich? Du behandelst das Problem Multikollinearität, indem Du ihr Vorhandensein prüfst. Bivarate Korrelationen, VIF und Abwesenheit von aufgeblähten Standardfehlern solten normalerweise genügen, um das Vorhandensein hier auszuschließen.

Mit freundlichen Grüßen

PonderStibbons

STATISTIK-FORUM.de

Variablenselektion: Multikollinearität und Lasso

Variablenselektion: Multikollinearität und Lasso

Re: Variablenselektion: Multikollinearität und Lasso

Re: Variablenselektion: Multikollinearität und Lasso

Re: Variablenselektion: Multikollinearität und Lasso

Re: Variablenselektion: Multikollinearität und Lasso

Re: Variablenselektion: Multikollinearität und Lasso

Re: Variablenselektion: Multikollinearität und Lasso

Wer ist online?