Pearson Korr. und lineare Regressio bei Grundgesamtheit

Bivariate Korrelation, partielle Korrelation und Rangkorrelation.

Pearson Korr. und lineare Regressio bei Grundgesamtheit

Beitragvon mc_east » Mi 17. Apr 2024, 12:55

Hallo Zusammen,

um eine Prognose für die PKW Entwicklung auf NUTS-3 Ebene zu ermitteln, stehe ich vor der Entscheidung, die Haushalts- oder Bevölkerungsanzahl heranzuziehen.

Hierfür habe ich mit SPSS den Pearson Korrelationskoeffizient bezogen auf das Jahr 2022 ermittelt (alle NUTS-3 Regionen in D, N=401) und für die Bevölkerung einen leicht höheren Wert erhalten (0,959 entgegen 0,935).
Grundsätzlich ist eine Voraussetzung für den Pearson Korrelationskoeffizient ja normalverteilte Daten. Dies ist bei mir nicht der Fall (logisch, auf Grund der Daten) aber es handelt sich ja um keine Stichprobe, sondern um die Grundgesamtheit (alle NUTS-3 Regionen in Deutschland). Kann der Pearson Korrelationskoeffizient daher angewandt werden?

Ähnliche Frage zur darauf folgenden linearen Regression: Homoskedastizität & Normalverteilung des Fehlers ist hier ebenfalls nicht gegeben, aber eben auch keine Stichprobe (die anderen Voraussetzungen der linearen Regression sind natürlich erfüllt) sondern Grundgesamheit. Kann diese dann ebenfalls angewandt werden?

Vielen Dank,

beste Grüße
mc_east
Grünschnabel
Grünschnabel
 
Beiträge: 6
Registriert: Mi 17. Apr 2024, 12:39
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Pearson Korr. und lineare Regressio bei Grundgesamtheit

Beitragvon bele » Mi 17. Apr 2024, 13:54

Dem Korrelationskoeffizienten ist die Normalverteilung egal. Nur der übliche Test beruht darauf. Wenn Du nicht aus einer Stichprobe auf eine Grundgesamtheit schließen willst, dann brauchst Du keinen Test und keine Normalverteilung.

Die lineare Regression gibt Dir immer, unabhängig von Skedastizität und Normalverteilung die Gerade, die die Residuenquadrate minimiert. Wenn Dir das reicht, ist alles in Ordnung.

Manchmal gibt es Ansätze, die Beobachtung in der wirklichen Welt als Stichprobe der in allen denkbaren Paralleluniversen denkbaren Beobachtungen dann doch testen zu wollen -- wenn Du in Deinem Fall nur beschreiben und keine p-Werte angeben willst, dann ist Normalverteilung egal.

LG, Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5782
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1358 mal in 1345 Posts

Re: Pearson Korr. und lineare Regressio bei Grundgesamtheit

Beitragvon mc_east » So 21. Apr 2024, 14:19

Hi Bernhard,

danke für deine Antwort!

Eine Frage:

bele hat geschrieben:Nur der übliche Test beruht darauf. Wenn Du nicht aus einer Stichprobe auf eine Grundgesamtheit schließen willst, dann brauchst Du keinen Test
LG, Bernhard


Was meinst du hier konkret mit Test? Denn Test auf Normalverteilung (Kolmogorov–Smirnov–Test / Shapiro-Wilk–Test)?

Viele Grüße
mc_east
Grünschnabel
Grünschnabel
 
Beiträge: 6
Registriert: Mi 17. Apr 2024, 12:39
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Pearson Korr. und lineare Regressio bei Grundgesamtheit

Beitragvon bele » So 21. Apr 2024, 18:06

Hallo,

wenn Du in einem üblichen Statistikprogramm eine Korrelation anforderst dann erhälst Du normalerweise sowohl einen Korrelationskoeffizienten als auch einen p-Wert zu diesem Korrelationskoeffizenten. Also zu dem Test, ob der Korrelationskoeffizient auch Null sein könnte. Das zu testen gibt es verschiedene Wege, aber der übliche nutzt die t-Verteilung und macht damit Verteilungsannahmen.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5782
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1358 mal in 1345 Posts

folgende User möchten sich bei bele bedanken:
mc_east

Re: Pearson Korr. und lineare Regressio bei Grundgesamtheit

Beitragvon mc_east » Mo 22. Apr 2024, 08:30

bele hat geschrieben:Hallo,

wenn Du in einem üblichen Statistikprogramm eine Korrelation anforderst dann erhälst Du normalerweise sowohl einen Korrelationskoeffizienten als auch einen p-Wert zu diesem Korrelationskoeffizenten. Also zu dem Test, ob der Korrelationskoeffizient auch Null sein könnte. Das zu testen gibt es verschiedene Wege, aber der übliche nutzt die t-Verteilung und macht damit Verteilungsannahmen.

LG,
Bernhard


Achso, die Signifikanz meinst du, alles klar. Ist es in solch einem Fall dann auch nicht nötig, den p-Wert mit zu berichten, oder macht man das i.d.R. dennoch?

MfG
mc_east
Grünschnabel
Grünschnabel
 
Beiträge: 6
Registriert: Mi 17. Apr 2024, 12:39
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Pearson Korr. und lineare Regressio bei Grundgesamtheit

Beitragvon bele » Mo 22. Apr 2024, 13:49

Hallo,

was nötig ist kommt sehr auf die Details an, ich kann Dir nur meine Meinung sagen. Ich würde die Signifikanz/den p-Wert aus zwei Gründen nicht berichten. Erstens ist es albern, bei einer Korrelation von > 0,9 und n > 400 ist das sowieso signifikant. Zweitens, und wesentlicher: Es ging hier nie um die Frage, ob Haushalts- und Bevölkerungszahl mit irgendwas korrelieren sondern nur, welches von beidem in der Stichprobe stärker korreliert. Der p-Wert würde also eine Frage beantworten, die nie jemand gestellt hat und damit vom Kern der Sache ablenken.

JMTC,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5782
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1358 mal in 1345 Posts

folgende User möchten sich bei bele bedanken:
mc_east

Re: Pearson Korr. und lineare Regressio bei Grundgesamtheit

Beitragvon mc_east » Mo 22. Apr 2024, 14:41

Wunderbar, vielen Dank für deine Hilfe!
mc_east
Grünschnabel
Grünschnabel
 
Beiträge: 6
Registriert: Mi 17. Apr 2024, 12:39
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Pearson Korr. und lineare Regressio bei Grundgesamtheit

Beitragvon mc_east » Sa 27. Apr 2024, 09:07

Ich habe mich dazu entschiedenen, bei der Verteilung der Fahrzeuge eine einfache lineare Regression anzuwenden. Zuvor habe ich auch eine multivariate gerechnet, mit den zusätzlichen Faktoren Durchschnittsalter (Beta 0,072), Erwerbsquote (Beta 0,054) und Fläche (Beta 0,085). Durch die sehr geringen Betawerte im Vergleich zur Bevölkerung (Beta 0,944) ist eben die Entscheidung gefallen, dies auf die Bevölkerung zu begrenzen. Mein Betreuer wünscht, dass ich dies jedoch in der Arbeit in jedem Fall erwähne.

Nun die konkrete Frage: Wäre es methodisch irgendwo fehlerhaft, zu erläutern, vor der multivariaten Berechnung habe ich Haushalte und Bevölkerung einzeln miteinander verglichen (Pearson) um mich zu entscheiden, welchen von beiden ich in die multivariate Rechnung mit einfließen lasse (beide schließen sich aufgrund von Multikollinearität ja aus)? Denn hier würde ich ja die Einzel-Korrelation von Variablen betrachten und bei der multivariaten Betrachtung könnte dies ja zu anderen Korrelationen führen. Oder passt das so?
mc_east
Grünschnabel
Grünschnabel
 
Beiträge: 6
Registriert: Mi 17. Apr 2024, 12:39
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Pearson Korr. und lineare Regressio bei Grundgesamtheit

Beitragvon bele » Sa 27. Apr 2024, 22:33

Die Frage ist komplexer als sie scheint. Die Idee des p-Wertes ist die, dass Du einen Versuchsplan mit Nullhypothese aufstellst bevor Du die Daten gesehen hast und dann den Test durchführst, wenn Du die Daten hast. Sobald Du davon abweichst, wird der p-Wert ein merkwürdiges Maß.
Du hast eben die Korrelationen zwischen Bevölkerung und X und zwischen Haushalten und X gesehen und daraus Konsquenzen für die Rechnung gezogen. Der p-Wert als Wahrscheinlichkeit für diese Daten bei gültiger Nullhypothese lässt sich so nicht berechnen, denn Deine Nullhypothese sieht ja gar nicht vor, wie extrem die Daten die eine oder die andere Korrelation machen könnten. Also ist Dein p-Wert so "nicht richtig".

Das ist aber völlig normal: Wenn in einer online-Befragung 103 Teilnehmer antworten stellt auch niemand die Frage, wie extrem Deine Daten sind wenn man auch wiederholte Datenerhebungen mit 105 oder 106 Teilnehmern gehabt hätte.

Deshalb wird an anderer Stelle gelehrt, das man sich anhand der Daten von einfachen zu immer komplexeren Modellen hocharbeitet, die dann die Zusammenhänge gut beschreiben. Man darf sich dann keinen "richtigen" p-Wert erhoffen, aber Erkenntnisse darüber, wie die inneren Zusammenhänge in den eigenen Daten sind. Ob so ein Vorgehen legitim ist oder nicht hängt daher von der genauen Intention der Studie und der individuellen Interpretation der Studiendurchführenden ab und ist gar nicht einfach zu beantworten.

Wenn Du jetzt in einer kleinen Stichprobe ganz knapp einen Beweis von p = 0,04 geführt hättest, dann könnte man das nicht gutheißen. Wenn Du aber in einem umfangreichen Datensatz in dem die Existenz eines Zusammenhangs ohnehin klar war beschreiben willst, wie der Zusammenhang wahrscheinlich ist, dann kann das völlig in Ordnung sein. Am Ende hilft nur, die Meinung des Betreuers umzusetzen.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5782
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1358 mal in 1345 Posts

folgende User möchten sich bei bele bedanken:
mc_east

Re: Pearson Korr. und lineare Regressio bei Grundgesamtheit

Beitragvon mc_east » Do 2. Mai 2024, 15:15

Hallo Bernhard,

vielen Dank für deine ausführliche Antwort. Dann werde ich das mit meinem Betreuer abklären.

Viele Grüße,
Darek
NACHTRAG: Oder ist es sinnvoll, zwei multiple Regressionen zu rechnen: eine mit Haushalten und den sonstigen Variablen und eine mit Bevölkerung und den sonstigen Variablen und dann berichten, dass anhand der Ergebnisse ersichtlich ist, dass eine einfache Regression ausreichend ist. Anschließend nochmal Bevölkerung und Haushalte "einzeln" per Pearson vergleichen (um auszuschließen, dass ohne die anderen Variablen die Haushalte nicht doch einen höheren Einfluss haben) und sich anhand dessen für die entsprechende Variable entscheiden?
mc_east
Grünschnabel
Grünschnabel
 
Beiträge: 6
Registriert: Mi 17. Apr 2024, 12:39
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post


Zurück zu Korrelationen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast