STATISTIK-FORUM.de

niwe93 · von **niwe93** » Mi 22. Jun 2022, 18:25

Hallo zusammen,

ich habe folgenden Datensatz: N=451, Aufgeteilt in Radfahrer R=344 und NR=107. Die Radfahrer werden weiter in Vollzeit-Radfahrer VZR = 125 und Teilzeitradfahrer TZR = 219 unterteilt.

Ich möchte die Einstellungen zum Radfahren zwischen verschiedenen Gruppen untersuchen. Die Einstellungen wurden im Rahmen einer Umfrage mit einer Likert-Skala erfragt (Zwischen -10 bis 10)

1) Für den R-NR Vergleich und den VZR-TZR Vergleich habe ich den ungepaarten T-Test in SPSS benutzt. Normalverteilung war nicht gegeben, habe ich aber wg. N>30 'ignoriert'. Wenn Varianzhomogenität nicht gegeben war, habe ich den Welch-Test interpretiert (wird in SPSS direkt mit ausgegeben) --> Kann ich das so machen und begründen?

2) Weiter habe ich die einzelnen Radfahrgruppen nochmal in 3 Distanzkategorien (Weg zur Arbeit) aufgeteilt. Dadurch ergeben sich jedoch teilweise sehr ungleiche Stichprobenverteilungen. Bspw. sind in der Kategorie 'Kleiner 5KM' bei den Radfahrern N=190, bei den Nicht-Radfahrern nur N= 4 --> Welchen Test kann ich hier anwenden? Gibt es überhaupt einen aussagekräftigen Test für so ungleich verteile Gruppen?

Vielen Dank und LG,
Nico

PonderStibbons · von **PonderStibbons** » Mi 22. Jun 2022, 18:48

Die Einstellungen wurden im Rahmen einer Umfrage mit einer Likert-Skala erfragt (Zwischen -10 bis 10)

Tatsächlich Likert-Skala (ein Messinstrument, das aus mehreren Likert-Items besteht, die summiert werden), oder bloß
einzelne Rating-Items? Das Antwortformat -10 bis +10 sieht auch nicht nach einem Likert-Item aus.

Wenn Varianzhomogenität nicht gegeben war, habe ich den Welch-Test interpretiert (wird in SPSS direkt mit ausgegeben)

Nimm immer den Welch-Test, ohne Vortest. Und eine unterschiedliche Varianz zwischen den Gruppen
(= größere Streubreite der Meinungen) ist für sich genommen ebenfalls oft ein relevantes Ergebnis.

2) Weiter habe ich die einzelnen Radfahrgruppen nochmal in 3 Distanzkategorien (Weg zur Arbeit) aufgeteilt. Dadurch ergeben sich jedoch teilweise sehr ungleiche Stichprobenverteilungen. Bspw. sind in der Kategorie 'Kleiner 5KM' bei den Radfahrern N=190, bei den Nicht-Radfahrern nur N= 4 --> Welchen Test kann ich hier anwenden?

Zweifaktorielle Varianzanalyse. Oder lineare Regression mit dummy-codierten Prädiktoren
(z.B. Radfahrer ja=1, nein=0, Teilzeit ja=1, nein = 0; Nichtradfahrer als Referenzkategorie
ohne eigene dummy-Variable) und gegebenenfalls Variablen für die Wechselwirkung(en).
Ob man bei solchen Analysen die Kategorie "< 5 km" ganz weglässt, wäre eine Überlegung.
Es könnte für sich schon ein relevantes Ergebnis sein, dass eine bestimmte (Nicht-)Nutzergruppe
zu weniger als 4% kurze Wege hat. Ist dann aber die Frage, ob man für diese Kombination
aureichend für die Schlussfolgerungen verwendbare Informationen hat.

LG,

wtf

Mit freundlichen Grüßen

PonderStibbons

niwe93 · von **niwe93** » Mi 22. Jun 2022, 19:08

Danke für die Antworten!

PonderStibbons hat geschrieben:Tatsächlich Likert-Skala (ein Messinstrument, das aus mehreren Likert-Items besteht, die summiert werden), oder bloß
einzelne Rating-Items? Das Antwortformat -10 bis +10 sieht auch nicht nach einem Likert-Item aus.

Die Einstellungen wurden nicht direkt erfasst. Es wurden zu einem Merkmal des Radfahrens wie 'mental entspannend' zuerst die Zustimmung (-2 bis 2) und dann die Wichtigkeit (1 bis 5) erfragt. Der Wert für die Einstellung ergibt sich aus Zustimmung * Wichtigkeit.

PonderStibbons hat geschrieben:Und eine unterschiedliche Varianz zwischen den Gruppen
(= größere Streubreite der Meinungen) ist für sich genommen ebenfalls oft ein relevantes Ergebnis.

Das wäre dann aber ein Teil für die Diskussion der Ergebnisse oder?

PonderStibbons hat geschrieben:Zweifaktorielle Varianzanalyse. Oder lineare Regression mit dummy-codierten Prädiktoren

Haben diese Verfahren nicht beide auch die Bedingung von normalverteilten Variablen, was bei N=4 nicht gegeben sein kann?

PonderStibbons hat geschrieben:Ob man bei solchen Analysen die Kategorie "< 5 km" ganz weglässt, wäre eine Überlegung.
Es könnte für sich schon ein relevantes Ergebnis sein, dass eine bestimmte (Nicht-)Nutzergruppe
zu weniger als 4% kurze Wege hat. Ist dann aber die Frage, ob man für diese Kombination
aureichend für die Schlussfolgerungen verwendbare Informationen hat.

Das war letztlich auch meine Überlegung, da die anderen Gruppen eine ähnlich ungleiche Verteilung (93-7, 59-24, 55-6) haben. Bei dem VZR-TZR Vergleich ist allerdings eine 95-95 Aufteilung in der >5KM Kategorie. Ich überlege daher, für die Kombinationen, bei denen beide Gruppen N>30 sind, den T-Test bzw. Welch Test machen und die zu kleinen Gruppen auszulassen.

Gruß
Nico

PonderStibbons · von **PonderStibbons** » Mi 22. Jun 2022, 19:17

Die Einstellungen wurden nicht direkt erfasst. Es wurden zu einem Merkmal des Radfahrens wie 'mental entspannend' zuerst die Zustimmung (-2 bis 2) und dann die Wichtigkeit (1 bis 5) erfragt. Der Wert für die Einstellung ergibt sich aus Zustimmung * Wichtigkeit.

Interessant. Ist das Vorgehen denn validiert? Es fallen einem auf Anhieb mehrere Gründe ein, worin Probleme
bestehen, aber das kann ja durchaus durch Prüfungen ausgeräumt worden sein. Jedenfalls hat das Ergebnis mit
einer Likert-Skala nichts zu tun.

Haben diese Verfahren nicht beide auch die Bedingung von normalverteilten Variablen, was bei N=4 nicht gegeben sein kann?

Wieso bedeutet n=4, dass die Grundgesamtheit, aus der die 4 Beobachtungen stammen, nicht normalverteilt sein
kann? Das eine hat mit dem anderen ja nichts zu tun. Man kann es bei n=4 bloß nicht überprüfen. Für lineare
Regressionen wie für Varianzanalysen gilt, dass die Modellfehler aus einer normalverteilten Grundgesamtheit
stammen sollten, damit der statistische Signifikanztest zuverlässig ist. Aber bei einer ausreichend großen
Gesamtstichprobe (ca. n > 30) ist der Test durch nicht-normalverteilte Fehler nicht mehr berührt.
Ich hätte bei n=4 eher inhaltliche als methodische Bauchschmerzen.

Mit freundlichen Grüßen

PonderStibbons

niwe93 · von **niwe93** » Mi 22. Jun 2022, 20:14

PonderStibbons hat geschrieben:Interessant. Ist das Vorgehen denn validiert? Es fallen einem auf Anhieb mehrere Gründe ein, worin Probleme
bestehen, aber das kann ja durchaus durch Prüfungen ausgeräumt worden sein. Jedenfalls hat das Ergebnis mit
einer Likert-Skala nichts zu tun.

Ich kopiere das methodische Vorgehen von einem Paper, in dem das so gemacht wird. Oder von welchen Problemen und Prüfungen sprichst du?

PonderStibbons hat geschrieben:Wieso bedeutet n=4, dass die Grundgesamtheit, aus der die 4 Beobachtungen stammen, nicht normalverteilt sein
kann? Das eine hat mit dem anderen ja nichts zu tun. Man kann es bei n=4 bloß nicht überprüfen. Für lineare
Regressionen wie für Varianzanalysen gilt, dass die Modellfehler aus einer normalverteilten Grundgesamtheit
stammen sollten, damit der statistische Signifikanztest zuverlässig ist. Aber bei einer ausreichend großen
Gesamtstichprobe (ca. n > 30) ist der Test durch nicht-normalverteilte Fehler nicht mehr berührt.
Ich hätte bei n=4 eher inhaltliche als methodische Bauchschmerzen.

Dann habe ich vielleicht etwas Grundsätzliches nicht verstanden - aber kann ich dann mit der Argumentation aus methodischer Sicht nicht auch T-Tests bei dem Vergleich von der 190-4 Kategorie machen? Oder gilt dies nicht für die T-Tests, dass die Gesamtstichprobe ausreichend groß sein muss?

Gruß
Nico

PonderStibbons · von **PonderStibbons** » Mi 22. Jun 2022, 21:41

Ich kopiere das methodische Vorgehen von einem Paper, in dem das so gemacht wird. Oder von welchen Problemen und Prüfungen sprichst du?

Das ist ja eine freihändige Multiplikation ordinalskalierter Daten. Da sollte in dem
Originalpaper an sichl eine Referenz dazu stehen, ob es tatsächlich das abbildet,
was es abbilden soll und wie zuverlässig es ist.

Dann habe ich vielleicht etwas Grundsätzliches nicht verstanden - aber kann ich dann mit der Argumentation aus methodischer Sicht nicht auch T-Tests bei dem Vergleich von der 190-4 Kategorie machen?

Immer von vornherein mit Welch-Korrektur. Durchführbar ist das allemal. Nur ist eben
die Frage, ob man tatsächlich irgendwas schlussfolgern möchte auf der Basis von einer
Gruppe mit n=4, unabhängig von statistischen Überlegungen.

Mit freundlichen Grüßen

PonderStibbons

niwe93 · von **niwe93** » Do 23. Jun 2022, 13:47

PonderStibbons hat geschrieben:Immer von vornherein mit Welch-Korrektur. Durchführbar ist das allemal. Nur ist eben
die Frage, ob man tatsächlich irgendwas schlussfolgern möchte auf der Basis von einer
Gruppe mit n=4, unabhängig von statistischen Überlegungen.

Verstehe ich das also richtig, dass der Welch-Test durchführbar ist, wenn die zu untersuchende Variable in der Grundgesamtheit normalverteilt ist oder die Grundgesamtheit mehr als 30 Beobachtungen enthält?

Ich habe es so verstanden, dass die Variable in den einzelnen Gruppen (also in den Gruppen mit 190 bzw. 4 Teilnehmern) normalverteilt sein muss?

D.h. ich kann den Welch-Test durchführen und in der Diskussion auf die zu kleine Teilnehmerzahl in den Untergruppen hinweisen und die geringe Aussagekraft unterstreichen?

Gruß
Nico

PonderStibbons · von **PonderStibbons** » Do 23. Jun 2022, 14:03

Verstehe ich das also richtig, dass der Welch-Test durchführbar ist, wenn die zu untersuchende Variable in der Grundgesamtheit normalverteilt ist oder die Grundgesamtheit mehr als 30 Beobachtungen enthält?

Nein, die Welch-Korrektur hat damit nichts zu tun.

Ich habe es so verstanden, dass die Variable in den einzelnen Gruppen (also in den Gruppen mit 190 bzw. 4 Teilnehmern) normalverteilt sein muss?

Das kenne ich so nicht.

Mit freundlichen Grüßen

PonderStibbons

bele · von **bele** » Do 23. Jun 2022, 14:06

Hallo niwe93,

Verstehe ich das also richtig, dass der Welch-Test durchführbar ist, wenn die zu untersuchende Variable in der Grundgesamtheit normalverteilt ist

Normalverteilung kann immer nur in der Grundgesamtheit bestehen, nie in Stichproben. Wenn man von normalverteilten Stichproben spricht dann ist das Slang für "aus einer normalverteilten Grundgesamtheit gezogene Stichprobe".

oder die Grundgesamtheit mehr als 30 Beobachtungen enthält?

Die Beobachtungen heißen nicht mehr Grundgesamtheit sondern Stichprobe. Wenn man aus einer beliebigen Verteilung ausreichend große Stichproben zieht, dann ist der Mittelwert dieser Stichprobe auch dann normalverteilt, wenn die Ausgangsverteilung nicht normal ist. Wie groß die Stichprobe dafür sein muss hängt dann doch wieder von der Ausgangsverteilung und Deinen Ansprüchen an "Normalität" ab. Dreißig ist dabei keine magische Zahl, sondern einfach nur eine pragmatische Daumenregel, die man auch nicht überstrapazieren sollte und neben der es noch andere Werte gibt, die genauso gut oder schlecht sind.

Wenn man sich mit Verteilung und Zahl der Beobachtungen unwohl fühlt und die Schraube nicht überdrehen will, könnte man an verteilungsfreie Tests denken.

PonderStibbons wichtigste Aussage hast Du aber nicht aufgegriffen:

niwe93 hat geschrieben:
PonderStibbons hat geschrieben:Durchführbar ist das allemal. Nur ist eben die Frage, ob man tatsächlich irgendwas schlussfolgern möchte auf der Basis von einer Gruppe mit n=4, unabhängig von statistischen Überlegungen.

Vielleicht sind in der Gruppe <5km und Nicht-Radfahrer Menschen dabei, die im gleichen Haus arbeiten, in dem sie auch wohnen, vielleicht Gefängnis-Insassen oder Bewohner eines Behinderten-Wohn-und Arbeitsstädte oder vielleicht sind das Künstler mit Atelier/Schreibstube im eigenen Wintergarten? Alle Tests, auch der Welch-Test, unterstellen als Voraussetzung, dass die Daten aus der gleichen Grundgesamtheit gezogen wurden und bei so kleinen Stichproben wie n = 4 reicht ein einziger, der eigentlich aus einer anderen Grundgesamtheit gezogen wurde (z., B. "Menschen die den Fragebogen nicht verstehen" oder "Seefahrer, der auf dem Schiff schläft, auf dem er arbeitet und deshalb kein Fahrrad braucht" oder ...) aus, um ein Viertel der Beobachtungen zu verfälschen.

LG,
Bernhard

niwe93 · von **niwe93** » Mi 29. Jun 2022, 13:05

Vielen Dank schon eimal für euren hilfreichen Antworten!

bele hat geschrieben:Die Beobachtungen heißen nicht mehr Grundgesamtheit sondern Stichprobe. Wenn man aus einer beliebigen Verteilung ausreichend große Stichproben zieht, dann ist der Mittelwert dieser Stichprobe auch dann normalverteilt, wenn die Ausgangsverteilung nicht normal ist. Wie groß die Stichprobe dafür sein muss hängt dann doch wieder von der Ausgangsverteilung und Deinen Ansprüchen an "Normalität" ab. Dreißig ist dabei keine magische Zahl, sondern einfach nur eine pragmatische Daumenregel, die man auch nicht überstrapazieren sollte und neben der es noch andere Werte gibt, die genauso gut oder schlecht sind.

Ich ziehe daraus, dass meine Stichprobe mit N = 451 ausreichend groß ist, um eine Normalverteilung anzunehmen - ist das richtig?

Mich verwirrt leider immer noch, ob die Voraussetzung der Normalverteilung für den t-Test bzw. Welch-Test die Stichprobe N = 451 betrifft oder die einzelnen Untergruppen meiner Stichprobe, also dass die Daten der Variable aus der Gruppe N=4 normalverteilt sein muss?

Final würde ich für meine Arbeit folgendermaßen vorgehen: Normalverteilung kann angenommen werden, da N=451 >> 30. Welch-Test für alle Gruppen durchführen und bei Interpretation der "kleinen" Gruppen auf die fragliche Aussagekraft eingehen.

Gruß,
Nico

STATISTIK-FORUM.de

Welches Testverfahren?

Welches Testverfahren?

Re: Welches Testverfahren?

Re: Welches Testverfahren?

Re: Welches Testverfahren?

Re: Welches Testverfahren?

Re: Welches Testverfahren?

Re: Welches Testverfahren?

Re: Welches Testverfahren?

Re: Welches Testverfahren?

Re: Welches Testverfahren?

Wer ist online?