Multiple Regressionsanalyse

Alle Verfahren der Regressionanalyse.

Multiple Regressionsanalyse

Beitragvon Christopherkch » Sa 29. Okt 2022, 22:53

Hallo,

Für meine Masterthesis muss ich eine multiple Regression durchführen.
Da meine Daten nicht linear sind, müsste ich eine nicht lineare Regression
durchführen. Nun habe ich herausgefunden, dass es theoretisch mehrere Möglichkeiten gibt
(Z.b. Daten transformieren, polynomiale Regression..)

Nun zu meinen Fragen:

1.Wäre es auch möglich eine spearman Korrelation Bzw Regression durchzuführen
(Dies wurde in einem paper bei nicht-linearität getan)

2. was ist, sollten die Residuen bei einer nicht-linearen Regression zusätzlich nicht normalverteilt sein?
Welche Methode wähle ich dann?

Vielen Dank vorab!
Christopherkch
Grünschnabel
Grünschnabel
 
Beiträge: 6
Registriert: Sa 29. Okt 2022, 22:41
Danke gegeben: 7
Danke bekommen: 0 mal in 0 Post

Re: Multiple Regressionsanalyse

Beitragvon PonderStibbons » So 30. Okt 2022, 00:36

Ich würde vorschlagen, dass Du die Studie zusammenhängend und nachvollziehbar schilderst, also Thema, konkrete
Fragestellungen, Erhebungsdesign, Stichprobengröße, Variablen und deren Messverfahren, bisher durchgeführte
Analysen.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11258
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 50
Danke bekommen: 2473 mal in 2457 Posts

folgende User möchten sich bei PonderStibbons bedanken:
Christopherkch

Re: Multiple Regressionsanalyse

Beitragvon bele » So 30. Okt 2022, 10:13

Hi!

Christopherkch hat geschrieben:1.Wäre es auch möglich eine spearman Korrelation Bzw Regression durchzuführen
(Dies wurde in einem paper bei nicht-linearität getan)


Wenn Du unter Spearman Regression eine lineare Regression nach Rangtransformation verstehst ist das natürlich möglich. Ist es denn geeignet, Deine Fragestellung zu beantworten?

was ist, sollten die Residuen bei einer nicht-linearen Regression zusätzlich nicht normalverteilt sein?
Welche Methode wähle ich dann?


Das lässt sich so allgemein nicht beantworten. Siehe z. B. nutzung-des-forums-f44/gelman-hill-vehtari-normalverteilung-lineare-regression-t13567.html#p52429
Kommt immer darauf an, wozu die Regression dienen soll. Bei einer guten Beschreibung des Problems hilft vielleicht nutzung-des-forums-f44/das-musste-mal-gepostet-werden-t6682.html

LG, Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5774
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1356 mal in 1343 Posts

folgende User möchten sich bei bele bedanken:
Christopherkch

Re: Multiple Regressionsanalyse

Beitragvon Christopherkch » So 30. Okt 2022, 17:09

Hallo, vielen Dank für die Antworten!

Es geht um folgendes: ich habe 30 Plots Bzw. Ausschnitte von Streuobstwiesen (Rasterdaten).
Für diese habe ich einen Index berechnet, der die Strukturelle Komplexität misst.
Nun möchte ich untersuchen inwiefern andere Parameter (der selben Plots z.b. Höhe der Bäume, Bedeckung des Bodens - auch alles über Rasterdaten - diesen Index beeinflussen bzw. Erklären.

In einem Paper, das Ähnliches untersucht, wurde die Korrelation über Spearman gemessen (da keine Linearität bestand) und ein Regressionsmodell über ein generalized additive model erstellt.

Meine Daten sind ebenfalls nicht linear verteilt.

Vielleicht erstmal eine grundlegende Frage:

Sollte ich die Korrelation meiner Daten über Spearman Berechnen, steht es mir dann frei
mit welcher Methodik (bspw. polynomiale oder GAM) ich ein Modell entwerfe?

Oder gibt es ein regressionsmodel dass man erstellen muss, wenn man die spearman Korrelation in seiner Arbeit angibt?
(Im paper nämlich wurden Scatterplots mit der spearman Korrelation angegeben wobei das Model über ein GAM erstellt wurde)

Sehr viele Fragen für die ich mich wirklich entschuldigen muss. Ich hoffe jedoch, dass sie verständlich sind!

VG und danke vorab
Christopherkch
Grünschnabel
Grünschnabel
 
Beiträge: 6
Registriert: Sa 29. Okt 2022, 22:41
Danke gegeben: 7
Danke bekommen: 0 mal in 0 Post

Re: Multiple Regressionsanalyse

Beitragvon PonderStibbons » So 30. Okt 2022, 19:55

Es geht um folgendes: ich habe 30 Plots Bzw. Ausschnitte von Streuobstwiesen (Rasterdaten).
Für diese habe ich einen Index berechnet, der die Strukturelle Komplexität misst.

Ist das eine intervallskalierte Messung, oder ein e ordinalkalierte (sow wie "wenig / mittelmäßig / sehr / exztrem komplex")?
Nun möchte ich untersuchen inwiefern andere Parameter (der selben Plots z.b. Höhe der Bäume, Bedeckung des Bodens - auch alles über Rasterdaten - diesen Index beeinflussen bzw. Erklären.

Zur Sicherheit: das heißt, diese übrigen Parameter sind nicht in den Index eingegangen?
Wie viele solcher Parameter sind es?
Meine Daten sind ebenfalls nicht linear verteilt.

Kann man das übersetzen mit: "der Zusammenhang aller Parameter mit dem Index ist in jedem einzelnen Fall zuverlässig
als nichtlinear anzusehen"? Wie hast Du das bei gerade einmal n=30 feststellen können (unterstellt, der Index ist
intervalllskalier und nicht oordinal, in welchem Fall die Diskussion eine andere ist)?

Vielleicht erstmal eine grundlegende Frage:

Sollte ich die Korrelation meiner Daten über Spearman Berechnen, steht es mir dann frei
mit welcher Methodik (bspw. polynomiale oder GAM) ich ein Modell entwerfe?

Vielleicht versteht bele diese Frage. Ich sehe nur, dass Du eine sehr kleine Stichprobe hast und sehr starke
Annahmen über Verteilungseigenschaften, die sich aus den Stichprobendaten üblicherweise so gar nicht
ableiten lassen, und fragst nach Verfahren, die für n=30 in der Regel nicht geeignet sind. Geht es nicht
eine Nummer kleiner?
Sehr viele Fragen für die ich mich wirklich entschuldigen muss. Ich hoffe jedoch, dass sie verständlich sind!

Wer betreut das eigentlich, dafür aus Steuergeldern bezahlt, und warum gibt er/sie keine Rückmeldung?
Irgendwie sieht das aus wie der Auftrag, auf einer Glatze Locken zu drehen.

Mit freundlichen Grüßen

PinderStibbon
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11258
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 50
Danke bekommen: 2473 mal in 2457 Posts

folgende User möchten sich bei PonderStibbons bedanken:
Christopherkch

Re: Multiple Regressionsanalyse

Beitragvon bele » So 30. Okt 2022, 21:44

Hallo Christopher,

Christopherkch hat geschrieben:Für diese habe ich einen Index berechnet, der die Strukturelle Komplexität misst.
Nun möchte ich untersuchen inwiefern andere Parameter (der selben Plots z.b. Höhe der Bäume, Bedeckung des Bodens - auch alles über Rasterdaten - diesen Index beeinflussen bzw. Erklären.


Wie PonderStibbons schon geschrieben hat, wäre das Skalenniveau jeweils wichtig. Wieviele "andere Parameter" gibt es und werden die alle nur paarweise mit der Strukturellen Komplexität in Beziehung gesetzt oder alles gemeinsam in einem großen multiplen Modell?

Meine Daten sind ebenfalls nicht linear verteilt.


Linear beschreibt Zusammenhänge, nicht Verteilungen.


Sollte ich die Korrelation meiner Daten über Spearman Berechnen, steht es mir dann frei
mit welcher Methodik (bspw. polynomiale oder GAM) ich ein Modell entwerfe?


Das sind wahrscheinlich zwei verschiedene Vorgänge, die Du unabhängig voneinander wählen kannst. Ich vermute, dass das eine einfach die Existenz eines Zusammenhangs beweisen und das andere die Form des Zusammenhangs möglichst frei beschreiben sollte.

Oder gibt es ein regressionsmodel dass man erstellen muss, wenn man die spearman Korrelation in seiner Arbeit angibt?


Nein. Zwei verschiedene Vorgänge.

(Im paper nämlich wurden Scatterplots mit der spearman Korrelation angegeben wobei das Model über ein GAM erstellt wurde)


Das verstehe ich nicht. Nehmen wir an, dass Du und ich den Begriff Modell unterschiedlich verwenden. Kannst Du das dann nochmal erklären?

...und fragst nach Verfahren, die für n=30 in der Regel nicht geeignet sind. Geht es nicht
eine Nummer kleiner?


Vielleicht geht es ja um eine Serie bivariater Zusammenhänge und gar nicht um ein multiples Modell -- dann könnte man ja durchaus versuchen, aus je 30 Wertepaaren eine Zusammenhangsform abzuschätzen. Vielleicht dient die Korrelation dem p-Wert und der Rest nur dem Einzeichnen einer plausible Kurve in eine Punktwolke?

LG, Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5774
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1356 mal in 1343 Posts

folgende User möchten sich bei bele bedanken:
Christopherkch

Re: Multiple Regressionsanalyse

Beitragvon Christopherkch » So 30. Okt 2022, 22:08

Vielen Dank für die Antworten!

Beim Index (Box counting Dimension bzw fractional Dimension) handelt es sich meines Wissens nach
Um intervallskalierte Daten.

Es gibt bisher 10 andere Parameter (Intervallskalliert), die ich untersuchen möchte. Eventuell folgen weitere.

Es ist noch nichts in Stein gemeißelt. Ich bin ziemlich am Anfang und überlege noch wie ich die Zusammenhänge
Am besten darstellen kann. Es ist also keine multiple Regression oder ähnliches gefordert! Was das angeht habe ich alle Freiheiten. Das heißt also auch, dass die Daten ‚nur‘ paarweise verglichen werden könnten. Andererseits dachte ich jedoch, dass ein multiples Modell weiterhelfen könnte, um die Einflüsse der Parameter übersichtlicher zu beschreiben.

Da dies bei einer so kleinen Stichprobe nun aber nicht in Frage kommt, wäre meine nächste Frage welche Art der Regression möglich wäre?

Auf welche Weise liesse sich eine plausible Kurve berechnen? Wäre dies nicht auch eine Form der Regression?

VG
Christopherkch
Grünschnabel
Grünschnabel
 
Beiträge: 6
Registriert: Sa 29. Okt 2022, 22:41
Danke gegeben: 7
Danke bekommen: 0 mal in 0 Post

Re: Multiple Regressionsanalyse

Beitragvon bele » So 30. Okt 2022, 23:14

Hallo Christopher,

Christopherkch hat geschrieben:... meines Wissens nach
Um intervallskalierte Daten.


Das sind dann schonmal gute Nachrichten.

Es gibt bisher 10 andere Parameter (Intervallskalliert), die ich untersuchen möchte. Eventuell folgen weitere.


Dann solltest Du Dich bezüglich Signifikanztestung mit dem Thema Alphafehkerkummulation beschäftigen. Such mal nach Bonferroni-Korrektur. Nicht weil Du die Einsetzen sollst sondern um zu verstehen, wo das Problem liegt, wenn Du keine einsetzt.

Andererseits dachte ich jedoch, dass ein multiples Modell weiterhelfen könnte, um die Einflüsse der Parameter übersichtlicher zu beschreiben
.

Im Allgemeinen stimmt das, aber es besteht ein Missverhältnis von 30 Beobachtungen zu zehn Prädiktoren und das wird immer krasser, je mehr Freiheiten Du für nicht-Linearität einsetzen willst. Es gibt einfach sehr viele verschiedene Möglichkeiten, eine Summe aus zehn Werten zu bilden bei der fast das gleiche herauskommt und dann weiß man nicht welches die richtige ist.

Auf welche Weise liesse sich eine plausible Kurve berechnen? Wäre dies nicht auch eine Form der Regression?


Ja. Bei bivariatem Vorgehen haben wir 30 Beobachtungen für einen Prädiktor, das öffnet viele Türen. Ein GAM ist super elegant aber (nicht nur) für einen Anfänger rechg kompliziert. Du willst ja wahrscheinlich auch erklären können, was der Computer da gemacht hat. Wenn Du keinen p-Wert zu der nichtlinearen Kurve brauchst ist eine LOESS-Kurve/Schätzung/Regression viel leichter zu verstehen und im Zweifel wahrscheinlich auch in mehr Software verfügbar.

https://www.statisticshowto.com/lowess-smoothing/

https://peltiertech.com/loess-smoothing-in-excel/

https://www.itl.nist.gov/div898/handboo ... pmd144.htm

https://andrewirwin.github.io/data-visu ... thing.html

https://towardsdatascience.com/loess-373d43b03564

Belies Dich mal dazu und überleg, ob das für Dich passt.

LG, Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5774
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1356 mal in 1343 Posts

folgende User möchten sich bei bele bedanken:
Christopherkch

Re: Multiple Regressionsanalyse

Beitragvon Christopherkch » Mo 31. Okt 2022, 08:57

Hallo Bernhard,

danke für die Links und zahlreichen Antworten! Werde ich mir defintiv ansehen. Vielleicht stellt das LOESS-Verfahren eine gute Alternative dar.

Bei meiner weiteren Recherche bin ich auf die Faustregel gestossen, dass pro Prädiktor 10 Beobachtungen nötig sind. Demzufolge könnte ich doch ein Modell entwerfen, das
3 unabhängige Variablen (bei n=30) enthält, oder? Hier stellt sich nun wieder die Frage welche Regression man durchführen könnte bzw. sich eignen würde. Ich dachte hierbei an eine simplere polynomiale Regression. Diese würde mir auch p-Werte (welche ich eigentlich gerne hätte) liefern.

Eine andere Frage: Wenn ich die Werte transfomieren würde, um einen linearen Zusammenhang zwischen den Variablen herzustellen, kann ich diese neuen Werte dann nutzen, um
eine lineare Regression durchzuführen, oder muss ich dann dennoch auf ein nicht lineares Verfahren zurückgreifen?

Danke vorab!

Christopher
Christopherkch
Grünschnabel
Grünschnabel
 
Beiträge: 6
Registriert: Sa 29. Okt 2022, 22:41
Danke gegeben: 7
Danke bekommen: 0 mal in 0 Post

Re: Multiple Regressionsanalyse

Beitragvon bele » Mo 31. Okt 2022, 11:33

Hallo,

Christopherkch hat geschrieben:Bei meiner weiteren Recherche bin ich auf die Faustregel gestossen, dass pro Prädiktor 10 Beobachtungen nötig sind.


Das ist eine verbreitete Faustregel, die man auch mit 5 oder 15 finden kann. Das Problem ist, dass in der polynomialen Regression aus einer Variablen zwei Prädiktoren werden, wenn Du ein quadratisches Modell wählst und drei, wenn Du ein kubisches Modell wählst und generell n wenn Du Dich für Polynome n-ten Grades entscheidest. Bei einem typischen GAM mit cubischen Splines ist das alles etwas flexibler und dafür nicht so einfach vorhersagbar, aber auch da verbrauchst Du pro Vorhersagevariable mehr als einen Freiheitsgrad.

Eine geeignete Transformation kann Dich aus dem Dilemma herausbringen und nach Deiner Faustregel könntest Du zwei bis drei Prädiktoren nutzen, aber eben keine zehn. Außerdem will so eine passende Transformation erstmal gefunden werden. Ob es die überhaupt gibt und wenn ja, ob man das aus dreißig Beobachtungen erkennen kann ist beides nicht garantiert. Wenn es gute theoretische Gründe gibt, dass ein quadrierter or logarithmisierter Wert passen sollte, dann wäre das sicher der Königsweg. Wenn Fu einfach wild alle denkbaren Transformationen durchprobierst würde ich dem daraus resultierenden p-Wert auch nicht mehr über den Weg trauen. (Suchbegriffe: Garden of forking paths und Researcher's degrees of freedom)

Vielleicht sollten wir uns der Sache aber von einer anderen Seite nähern. Nicht: Was kann man mit diesen Zahlen machen, sondern: Was war denn eigentlich genau die Frage die mich dazu gebracht hat, diese Daten zu sammeln?

LG, Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5774
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1356 mal in 1343 Posts

folgende User möchten sich bei bele bedanken:
Christopherkch

Nächste

Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste

cron