Seite 1 von 1

Unabhängige Variablen mit sehr hohen Werten

BeitragVerfasst: Di 28. Aug 2018, 12:07
von TheGreyP82
Ich habe eine abhängige Variable, die verhältnismäßig klein ist (Werte zwischen 0 und 50) und unabhängige Variablen, die extrem hohe Werte annehmen (bis in die Milliarden).
Das Ergebnis ist natürlich eine stark geclusterte Korrelation und extrem kleiner Wert für den Beta-Koeffizienten. Was ist der beste Weg, um eine Regression durchzuführen, bei der ich auch noch eine plausible Aussage zum Koeffizenten treffen könnte?

Re: Unabhängige Variablen mit sehr hohen Werten

BeitragVerfasst: Di 28. Aug 2018, 12:50
von PonderStibbons
Was ist an dem Ergebnis natürlich? Wenn man eine Variable von 1 bis 50 mit einer Variable 1 bis 50 Milliarden korreliert, kann ohne weiteres ein hoher Koeffizient herauskommen. Anscheinend fehlt in Deiner Beschreibung noch ein wesentlicher Punkt? Vielleicht schaust Du einmal auf ein X-Y-Streudiagramm (sofern noch nicht geschehen).

Worum handelt es sich denn hier (Thema, Fragestellung, erhobene Variablen und deren konkrete Messung, Stichprobengröße) und was meinst Du mit "geclustert"?

Mit freundlichen Grüßen

PonderStibbons

Re: Unabhängige Variablen mit sehr hohen Werten

BeitragVerfasst: Di 28. Aug 2018, 12:56
von TheGreyP82
Ich habe mir nochmal das Scatterdiagramm angesehen, es sind vor allem ein paar sehr wenig Ausreißer, die dazu führen, das der Rest der Daten geclustered aussieht.
Wäre es besser, die Ausreißer zu entfernen, oder die Daten irgendwie zu transformieren?

Es handelt sich bei der abhängigen Variable um die Länge eines Geschäftsberichts in Seiten, und bei der unabhängigen Variable um die Bilanzsumme in Euro.

Re: Unabhängige Variablen mit sehr hohen Werten

BeitragVerfasst: Di 28. Aug 2018, 14:16
von PonderStibbons
Ich habe mir nochmal das Scatterdiagramm angesehen, es sind vor allem ein paar sehr wenig Ausreißer, die dazu führen, das der Rest der Daten geclustered aussieht.
Wäre es besser, die Ausreißer zu entfernen, oder die Daten irgendwie zu transformieren?

Ich habe leider nicht die geringste Ahnung. Wie gesagt, ich kenne nicht das Thema, nicht die genaue Fragestellung, nicht die Stichprobengröße. Generell ist weder Daten wegzulassen (d.h. Manipulation des Datensatzes), noch willkürlich zu transformieren eine gute Idee, aber es kann sich im Einzelfall anders verhalten.

Mit freundlichen Grüßen

PonderStibbons

Re: Unabhängige Variablen mit sehr hohen Werten

BeitragVerfasst: Di 28. Aug 2018, 16:12
von TheGreyP82
Also es handelt sich um eine Vollerhebung mit Größe N=200 Unternehmen.
Die Fragestellung lautet: Kann die Bilanzgröße in Euro die Seitenzahl eines Geschäftsberichts erklären. Da nun aber Bilanzsummen sehr groß sein können, die Seitenzahl jedoch verhältnismäßig klein (Mittelwert so um die 10 Seiten) ist, führt das, obwohl die die Variablen mit 0,5 korreliert sind, in einer Regression zu einem extrem niedrigen Beta-Koeffizient von etwa e-08 (signifikant). Ich weiß nicht so recht, wie sinnvoll es dann ist, daraus was herauszuinterpretieren?

Re: Unabhängige Variablen mit sehr hohen Werten

BeitragVerfasst: Di 28. Aug 2018, 18:45
von PonderStibbons
Der Koeffizient gibt an, um wie viel Seiten der Bericht länger wird, wenn sich die Bilanzsumme um 1 Euro vergrössert. Es ist schlicht eine Frage der gewählten Metrik.

Re: Unabhängige Variablen mit sehr hohen Werten

BeitragVerfasst: Di 28. Aug 2018, 19:17
von TheGreyP82
Wenn ich Bilanzsumme teile durch 1 Mio, müsste ich dann sagen: Ein Erhöhung der Bilanzsumme um eine Million erhöht die Seitenzahl (bspw.) um 0,2 (statt 0,000002)?