STATISTIK-FORUM.de

Hashtag · von **Hashtag** » So 23. Feb 2020, 19:56

Hallo liebe Forengemeinde,

ich habe eine Frage die mich umtreibt und zu der ich leider bislang keine geeignete Antwort gefunden habe. Ich komme in der Hoffnung, dass mich ggf. jmd auf den richtigen Weg führen kann

Zunächst kurz zum Kontext:

Ich analysiere derzeit im Rahmen meiner Abschlussarbeit Angebots- und Transaktionspreise von Wohnimmobilien. Ich habe einen Datensatz erhoben (n=1476) der den prozentualen Abschlag - also der Abschlag von X% der beim Kauf gewährt wird - mit anderen beschreibenden Variablen wie Wohnfläche, Jahr der Transaktion, Stadtbezirk der Transaktion usw. verknüpft.

Meine Forschungshypothesen sind neben anderen:

a) Der Transaktionsabschlag unterscheidet sich in den Stadtbezirken signifikant
b) Der Transaktionsabschlag unterscheidet sich zwischen den Transaktionsjahren signifikant (hat sich verringert; bspw. infolge gestiegenem Nachfragedruck)

Nun habe ich zunächst eine multiple ANOVA ins Auge gefasst, um die Unterschiede zwischen den Faktorstufen zu beleuchten. Die Voraussetzung der Varianzhomogenität habe ich über den Levene-Test für beide Kategorien überprüft (p=0,064 & p=0,084), weshalb ich von Varianzhomogenität ausgehe. Darüber hinaus habe ich die Normalverteilung der Residuen über Kolmogorov-Smirnov und Shapiro-Wilk getestet, die auf keine Normalverteilung der Daten schließen lassen. Das Ergebnis habe ich über einen Q-Q-Plot überprüft. Auch hier würde mein (unerfahrendes) Auge von keiner Normalverteilung ausgehen, da insbesondere an den Rändern starke Abweichungen zu sehen sind, zusätzlich auch eine kurvige Verteilung im Trendbereinigten Q-Q-Plot mit recht bedeutsamen Abweichungen. Auch wenn sich die ANOVA wohl Stellenweise robust gegen Abweichungen von der Normalverteilungsannahme zeigt habe ich mich, aufgrund zusätzlich verschieden großer Stichprobengrößen innerhalb der Faktorstufen, für das Abstellten auf ein nichtparametrisches Testverfahren entschieden (hier: Kruskal-Wallis-Test). Entsprechend meiner Recherche habe ich hierbei keine Voraussetzungen und der Test ist auch robust gegen die Abweichenden Gruppenstärken meiner Stichprobe.

Insofern stütze ich mich derzeit im Zuge der Überprüfung meiner Hypothesen (a) und (b) jeweils auf die Ergebnisse des Kruskal-Wallis-Tests. In beiden Fällen wird der Test nicht signifikant (Asymptotische Signifikanzen =0,149 & =0,534).

Meine Fragestellung ist dementsprechend, gibt es etwas auszusetzen an meinem Vorgehen?
Insbesondere bei der Anwendung des t-Tests zur Überprüfung von Unterschiede wird auf die ANOVA verwiesen, da hierbei keine Adjustierung des Signifikanzniveaus nötig wird. Auch bei der "mehrfachen" Anwendung der einfaktoriellen ANOVA erschaffe ich "weniger relevante" Aussagen, wie eine multiple ANOVA. Deshalb Frage ich mich, ob das Abarbeiten meiner beiden Forschungsfragen mithilfe meiner gewählten Methodik adäquat abgebildet ist.

Auf die Unterstützung meines Betreuers kann ich im vorliegenden Fall nicht bauen (nicht mein Professor), da er nach eigener Aussage selbst keine verbindlichen Aussagen zur Methodik treffen kann.

Insofern, ggf. hat der Eine oder Andere eine Anregung für mich.
Bis dahin, einen schönen Sonntag Abend

Grüße.

P.S. Bei Bedarf kann ich natürlich alles noch konkretisieren.

strukturmarionette · von **strukturmarionette** » So 23. Feb 2020, 22:11

Hi,

Meine Fragestellung ist dementsprechend, gibt es etwas auszusetzen an meinem Vorgehen?

- an welcher Fachliteraur orientierst Du Dich?
- prinzipiell besteht dabei m.E. ein beachtliches Defizit

Gruß
S.

Hashtag · von **Hashtag** » So 23. Feb 2020, 22:39

Grüße Strukturmarionette,

für die ANOVA bzw. deren Voraussetzungen habe ich mich verschiedener Literatur bedient. Maßgebend beispielsweise Backhaus et at: Multivariate Analysemethoden. 13. Auflage: Springer Verlag. S.158ff.
Kannst du ausführen wo du das Defizit explizit siehst? Ich bin da für jede Anregung offen wie gesagt

Besten Dank vorab!

Hashtag · von **Hashtag** » So 23. Feb 2020, 23:15

Als Ergänzung noch Cleff: Angewandte Induktive Statistik und Statistische Testverfahren, 2019. S.191

strukturmarionette · von **strukturmarionette** » So 23. Feb 2020, 23:18

Hi,

- du könntest dir zunächst klarmachen:
a) Welche Bedeutung hat die NV-Annahme der Residuen im Allgemeinen Linearen Modell bei große Stichproben (N =1476)?
b) Wie lauten konkret H0 und H1 bei allen von dir angewendeten Signifikanztests?

Gruß
S.

Hashtag · von **Hashtag** » So 23. Feb 2020, 23:38

Grüße,

zu a) Lese ich leider allzu verschiedenes. Einige Autoren sehen die Verletzung Annahme Normalverteilung der Residuen kritisch, deshalb wollte ich mit meinem nicht-parametrischen Test auf "Nummer sicher" gehen.
Wiederum andere Autoren sehen die Annahme bereits über den zentralen Grenzwertsatz bestätigt. Wenn ich es richtig verstanden habe - und bitte verbessere mich gerne - basiert die Annahme der Normalverteilung der Residuen darauf, dass mein Fehlerterm nicht deterministisch sein darf. Ich will also kein Muster erkennen im "nicht vorhersagbaren" Teil meiner Annäherung. Verletzte ich diese Annahme, dann fehlt meinem Modell diesbezüglich Erklärungsgehalt.

Zu b)
Levene-Test auf Varianzhomogenität: H0 = "Gleiche Gruppenvarianzen (Homoskedastizität)" H1 = "Abweichung in Gruppenvarianzen (Heteroskedastizität)"; mit den berechneten Signifikanzen (p=0,064 & p=0,084) verwerfe ich die Nullhypothese nicht, also habe zunächst keinen Grund Heteroskedastizität zu unterstellen. Der Test fällt allerdings vergleichsweise "knapp" aus, das war auch ein Grund für mich in Richtung Kruskal-Wallis zu schielen

Shapiro-Wilk: H0 = "Normalverteilung vorliegend" H1: "Keine Normalverteilung vorliegend", im meinem Fall p=0,000.. werde ich die Nullhypothese verwerfen und die Alternativhypothese annehmen. Eine grafische Analyse der Residuen im Q-Q-Plot bestätigt mir diese Annahme, Kurtosis von 5,xx und optische Begutachtung des Histogramms der Residuen deuten auf das gleiche hin.

Deshalb bin ich auch vorerst zum Schluss gelangt, dass ein nicht-parametrisches Testverfahren der bessere Weg sein wird meinen hier dargestellten Forschungsfragen zu begegnen.

Kannst du mir sagen wo mein Denkfehler steckt & wo du das Defizit siehst?

Besten Dank und Grüße,
P.

Hashtag · von **Hashtag** » Mo 24. Feb 2020, 00:03

Diesbezüglich als kleine Ergänzung:

Meine Faktorstufen (Stadtbezirk =25) wurden vorab zu 18 Gruppen zusammengeführt, weil ich vergleichsweise wenige Stichproben in einzelnen Faktorstufen hatte (n=10 vs. n=160). Die Stichprobengrößen liegen in den 18 Gruppen zwischen 60-190 Einträgen.

Die Faktorstufen Jahr sind gleichmäßiger verteilt n2016=250 n2017-2019=rd. 400.

PonderStibbons · von **PonderStibbons** » Mo 24. Feb 2020, 10:58

Hashtag hat geschrieben:Ich habe einen Datensatz erhoben (n=1476) der den prozentualen Abschlag - also der Abschlag von X% der beim Kauf gewährt wird - mit anderen beschreibenden Variablen wie Wohnfläche, Jahr der Transaktion, Stadtbezirk der Transaktion usw. verknüpft.

Meine Forschungshypothesen sind neben anderen:

a) Der Transaktionsabschlag unterscheidet sich in den Stadtbezirken signifikant
b) Der Transaktionsabschlag unterscheidet sich zwischen den Transaktionsjahren signifikant (hat sich verringert; bspw. infolge gestiegenem Nachfragedruck)

Dann brauchst Du Verfahren, die mehrere Prädiktoren zugleich einbeziehen,
weil davon auszugehen ist, dass Wohnfläche/Jahr/etc. mit Stadtbezirk assoziiert
sind, Du also möglichst die Einflüsse solcher Faktoren einbeziehen solltest.
Andernfalls könnte der Effekt von Wohnfläche (etc.) irrtümlich dem
Stadtbezirk zugeschlagen werden. Kruskal-Wallis kann das nicht leisten.
Ich würde hier dem Levene-Test folgen und ausreichende Varianzhomogenität
annehmen.

Mit freundlichen Grüßen

PonderStibbons

NB, wissenschafliche Hypothesen enthalten nicht den Ausdruck "signifikant",
der inferenzstatistische Test ist nur ein statistisches Hilfsmittel. Es sein denn,
Du meinst damit signifikant im Altagssinnm d.h. bedeutend/wichtig/relevant,
aber das wäre dann wohl erstmal noch genauer zu definieren.

Hashtag · von **Hashtag** » Mo 24. Feb 2020, 11:47

Grüße PonderStibbons,

schon einmal vielen Dank für deine Antwort.

Also vorab um meine formulierten Forschungsfragen noch zu spezifizieren.

a) "Der Transaktionsabschlag unterscheidet sich in den Stadtbezirken signifikant."

Hintergrund: Ich vermute, dass der Transaktionsabschlag in innenstadtnäheren Stadtbezirken geringer ist, als in denen, die weiter von der Innenstadt entfernt sind. Deshalb lag mein Interesse darin mögliche Unterschiede diesbezüglich herauszuarbeiten.

b) "Der Transaktionsabschlag unterscheidet sich zwischen den Transaktionsjahren signifikant"

Hintergrund: Analoges gilt für das Transaktionsjahr. Der Nachfragedruck ist auf einem anhaltend hohen Niveau (Angebot<Nachfrage >> Kein Druck der Anbieter ihre Preise im Verkaufsprozess zu senken)

Ich gehe davon aus, dass die Prädikatoren "Wohnfläche"; "Vermietungsstand"; "Angebotsdauer"; "Stadtbezirk"; "Wohnlage" auf meine abhängige Variable wirken, diesbezüglich führe ich im Moment auch eine Lineare Regressionsanalyse durch, um zu sehen welchen Effekt die erklärenden Variablen haben & ob sich der prozentuale Abschlag damit tendenziell überhaupt sinnvoll erklären lässt. (Andere Studien deuten zumindest darauf hin, dass er sich schwerlich durch die jeweilig gewählte Modellbildung erklären lässt, weil der Verhandlungsprozess deutlich vielschichtiger ist).

Was ich mit dem Kruskal-Wallis (bzw. eigentlich mit einer ANOVA) zuvor machen wollte ist lediglich Unterschiede über die Faktorstufen herauszuarbeiten.
Wenn ich es richtig verstehe bildet mir der Kruskal-Wallis ja eine zentrale Tendenz meiner Datensätze ab durch das Rangverfahren. Erhalte ich darüber keine Aussage zu Unterschieden der jeweiligen Faktorstufe zur abhängigen Variable?
Das Ergebnis des Kruskal-Wallis wäre natürlich in den Kontext zu setzen, dass andere Prädikatoren (auch nicht erfasste) einen Einfluss haben könnten. Um diesen Einfluss zu quantifizieren und zu untersuchen stelle ich dementsprechend im Verlauf meiner Arbeit auf die Regression ab.

Sorry, dass ich so blauäugig frage, aber ich bin (wie man voraussichtlich merkt) noch nicht so tief verankert in der Statistik

.

Grüße,
P.

Hashtag · von **Hashtag** » Fr 28. Feb 2020, 15:05

Damit es hier nicht als ungelöstes Fragment des Internet verbleibt kurz meine Vorgehensweise zum beschriebenen Problem, dem ein oder anderen mag die Sache dienlich sein.

Zunächst habe ich zur Untersuchung der zentralen Tendenz eine zweifaktorielle ANOVA durchgeführt. Diesbezüglich bin ich auf das ausschließen denkbarer Einflussfaktoren auf den Erkenntnisgegenstand eingegangen.
Die Ergebnisse lassen sich in zentraler Tendenz dennoch interpretieren.

Der Problemstellung mit der Verletzung der Annahme einer Normalverteilung im Zuge der ANOVA begegne ich mit dem zentralen Grenzwertsatz (ausreichende Stichprobengröße), sowie der konservativen Einschätzung des Kolmogorov-Smirnov/ Shapiro-Wilk bei großen Stichprobenumfängen. Diese werden häufig bereits bei kleineren Abweichungen signifikant, das zeigt sich auch in einer grafischen Auswertung des Histogramms der Residuen. Oftmals sind die Daten annähernd normalverteilt, obwohl K-S/ und Shapiro das nicht vermuten lassen.
Dennoch werden die Tendenzen mittels non-parametrischer Tests gegengeprüft (natürlich im Anschluss im Textteil auch kritisch diskutiert).

In einer späteren Regression werden weitere Einflussfaktoren einbezogen und wiederum kritisch diskutiert.

Geeignete Literatur hierzu:

Bortz, Jürgen; Schuster, Christof: Statistik für Human- und Sozialwissenschaftler. 7.Auflage Berlin: Springer-Verlag, 2010.
Cleff, Thomas: Angewandte Induktive Statistik und Statistische Testverfahren – Eine computergestützte Einführung mit Excel, SPSS und Stata. 1.Aufl. Wiesbaden: Springer Gabler, 2019.

STATISTIK-FORUM.de

Kruskal-Wallis Test geeignet für Hypothesenprüfung?

Kruskal-Wallis Test geeignet für Hypothesenprüfung?

Re: Kruskal-Wallis Test geeignet für Hypothesenprüfung?

Re: Kruskal-Wallis Test geeignet für Hypothesenprüfung?

Re: Kruskal-Wallis Test geeignet für Hypothesenprüfung?

Re: Kruskal-Wallis Test geeignet für Hypothesenprüfung?

Re: Kruskal-Wallis Test geeignet für Hypothesenprüfung?

Re: Kruskal-Wallis Test geeignet für Hypothesenprüfung?

Re: Kruskal-Wallis Test geeignet für Hypothesenprüfung?

Re: Kruskal-Wallis Test geeignet für Hypothesenprüfung?

Re: Kruskal-Wallis Test geeignet für Hypothesenprüfung?

Wer ist online?