STATISTIK-FORUM.de

Liebes Forum,

ich möchte die Produktion von Nebensätzen im Zweitspracherwerb analysieren. Dazu habe ich insgesamt 853 Nebensätze aus 15 Texten von Lernenden auf B2-Niveau + 15 Texten von Lernenden auf C1-Niveau untersucht und nach verschiedenen nominal skalierten Kriterien (z.B. Verbstellung, syntaktische Funktion usw.) klassifiziert. Jetzt würde ich mir gerne ansehen, ob es Unterschiede zwischen den B2- und C1-Texten gibt (z.B. ob in den C1-Texten die Verbstellung korrekter ist als in den B2-Texten).

Ich habe schon ein paar nette Kreuztabellen erstellt, verzweifle aber momentan an der Interpretation - konkret weiß ich nicht, wie ich einschätzen kann, ob meine Ergebnisse statistisch signifikant sind. Wenn ich es richtig verstehe, benutzt man dazu normalerweise Chi-Quadrat-Tests. Da gibt es bei mir aber 2 Probleme: Erstens sind die zu erwartenden Häufigkeiten teilweise kleiner als 5 (habe im Internet gelesen, dass das ungünstig sei), und zweitens weichen innerhalb derselben Kreuztabelle manche Werte stark vom erwarteten Wert ab, manche dafür gar nicht - hier wäre es doch sinnvoll, wenn ich nicht die ganze Kreuztabelle teste, sondern nur einzelne Felder, oder? Geht das überhaupt?

Ein Beispiel: Bei der Variable "Funktion" gibt es die Ausprägungen "Komplementsatz", "Adverbialsatz", "Attributsatz" und "weiterführender Nebensatz". Die B2- und C1-Texte haben einen annähernd gleich großen Anteil an Komplementsätzen (38,60% vs. 38,88%), dafür unterscheiden sie sich aber (meines Erachtens) bei den Adverbial- und Attributsätzen (30,83% vs. 35,06% / 30,57% vs. 25,84%). Ein weiterführender Nebensatz wurde überhaupt nur ein einziges Mal produziert.

Wie kann ich an diese Daten nun herangehen? Welche(r) Test(s) wären empfehlenswert?

Vielen Dank im Voraus!

Hallo sarahhh,

wenn ich Deinen Post richtig interpretiere, dann nimmst Du alle B2-Texte und alle C1-Texte als untereinander homogen an. Es gibt also nicht verschiedene Autoren die je besser oder schlechter sind sondern jeder Nebensatz auf jedem Sprachniveau ist gleichermaßen representativ für dieses Sprachniveau. Dann hast Du alle vorhandenen Nebensätze in Kategorien unterteilt und jeder Nebensatz gehört in genau eine Kategorie und jetzt willst Du die Häufigkeitsverteilung der Nebensatzkategorien in beiden Sprachniveaus mit einem Chi-Quadrat-Unabhängigkeitstest vergleichen. Soweit richtig?

Chiquadrat-Unabhängigkeitstests hat man klassisch mit der Chiquadrat-Verteilung angenähert und dafür war es wichtig, dass erwartete Zellenbesetzungen (nicht wirkliche Besetzungen) nicht zu klein waren. Heute rechnest Du das ja aber nciht mehr von Hand sondern hast einen Computer dafür und damit ergibt sich die Möglichkeit, statt einer Approximation über eine Verteilungsformel die Signifikanz via Monte Carlo-Verfahren zu bestimmen.

Siehe dazu beispielsweise hier ab Seite 3: https://www.ibm.com/docs/en/SSLVMB_27.0 ... _Tests.pdf

LG,
Bernhard

Lieber Bernhard,

danke für deine Antwort! Ja, es ist genau so, wie du es im ersten Absatz beschrieben hast.

Ob der Chi-Quadrat-Unabhängigkeitstest die geeignetste Möglichkeit ist, weiß ich eben leider nicht. Wenn er aber für meine Zwecke passt, dann würde ich ihn mit PSPP machen (das habe ich leider vergessen, oben zu erwähnen) - verstehe ich es richtig, dass es bei PSPP dann egal ist, wie groß die erwarteten Werte sind?

Wie ist es mit dem zweiten Problem, das ich beschrieben habe - kann man den Chi-Quadrat-Test statt für eine ganze Kreuztabelle auch nur für einen Teil davon machen, damit man sieht, wie signifikant die einzelnen Werte sind (bzw. macht diese Überlegung überhaupt Sinn)?

Ich fürchte, mir fehlen hier viele Grundlagen; ich bin also sehr dankbar für deine Hilfe!

LG,
Sarah

Hallo sarahhh,

sarahhhh hat geschrieben:Ob der Chi-Quadrat-Unabhängigkeitstest die geeignetste Möglichkeit ist, weiß ich eben leider nicht.

Soweit Du das bisher geschildert hast erscheint er mir passend.

Wenn er aber für meine Zwecke passt, dann würde ich ihn mit PSPP machen (das habe ich leider vergessen, oben zu erwähnen) - verstehe ich es richtig, dass es bei PSPP dann egal ist, wie groß die erwarteten Werte sind?

Von PSPP weiß ich noch weniger als von SPSS. Ich mache alles mit R. Wenn Du mit PSPP an dieser Stelle nicht zurecht kommen solltest, kannst Du für diesen Test auf R ausweichen. R steht zwar zurecht in dem Ruf, erstmal eine steile Lernkurve zu haben, aber wenn es nur darum geht, einen Chiquadrattest zu rechnen, ist das schnell erklärt.

Wie ist es mit dem zweiten Problem, das ich beschrieben habe - kann man den Chi-Quadrat-Test statt für eine ganze Kreuztabelle auch nur für einen Teil davon machen, damit man sieht, wie signifikant die einzelnen Werte sind (bzw. macht diese Überlegung überhaupt Sinn)?

Die Reihenfolge der Fragen muss man umstellen: Wenn die Kreuztabelle sinnvoll ist, dann kann man damit auch einen Chiquadrat-Test rechnen. Wenn Du also eine Kreuztabelle erstellst, die B2 und C2 in den Zeilen und "Adverbialsatz" versus "Nicht-Adverbialsatz" in den Spalten stehen hast, dann kannst Du damit untersuchen, ob der Anteil der Adverbialsätze an allen gezählten Sätzen sich in beiden Sprachniveaus unterscheidet. Wenn es linguistisch Sinn macht, dann wird sich auch ein Weg finden, das zu rechnen.

LG,
Bernhard

PS: Ist das eine Abschluss/Qualifizierungsarbeit oder steht das wissenschaftliche oder Publikationsinteresse im Vordergrund?

Lieber Bernhard,

Wenn Du also eine Kreuztabelle erstellst, die B2 und C2 in den Zeilen und "Adverbialsatz" versus "Nicht-Adverbialsatz" in den Spalten stehen hast, dann kannst Du damit untersuchen, ob der Anteil der Adverbialsätze an allen gezählten Sätzen sich in beiden Sprachniveaus unterscheidet. Wenn es linguistisch Sinn macht, dann wird sich auch ein Weg finden, das zu rechnen.

Das war gerade eine Erleuchtung für mich!! Also kann ich praktisch für jede Ausprägung einer Variable eine eigene 2x2-Kreuztabelle mit "x" und "alles außer x" erstellen und bei dieser dann einen Chi-Quadrat-Test machen, damit ich weiß, ob der Unterschied bei dieser einen Ausprägung signifikant ist? Das wäre wirklich genau das, was ich brauche!

Von PSPP weiß ich noch weniger als von SPSS. Ich mache alles mit R. Wenn Du mit PSPP an dieser Stelle nicht zurecht kommen solltest, kannst Du für diesen Test auf R ausweichen. R steht zwar zurecht in dem Ruf, erstmal eine steile Lernkurve zu haben, aber wenn es nur darum geht, einen Chiquadrattest zu rechnen, ist das schnell erklärt.

R kenne ich leider gar nicht, aber würde ich zur Not auch probieren. Bei PSPP kommt bei den Chi-Quadrat-Tests eine kleine Tabelle raus, wo in den Reihen "Pearson Chi-Quadrat", "Likelihood-Quotient" und "Zusammenhangstest linear-mit-linear" steht; in den Spalten steht dann jeweils "Wert", Freiheitsgrade und "Asymp. Sig. (2-seitig)". Wenn im Asymp.-Sig.-Feld bei Pearson-Chi-Quadrat ein Wert <0,05 steht, heißt das, dass das Ergebnis nur mit 5%-iger Wahrscheinlichkeit zufällig sein kann, oder? So hätte ich das bis jetzt verstanden. (Die anderen Reihen sind glaub ich andere Tests?)

PS: Ist das eine Abschluss/Qualifizierungsarbeit oder steht das wissenschaftliche oder Publikationsinteresse im Vordergrund?

Es ist eine Abschlussarbeit! Meine erste, wie man vermutlich merkt.

Danke noch einmal und LG,
Sarah

Liebe Sarah,

sarahhhh hat geschrieben:Das war gerade eine Erleuchtung für mich!! Also kann ich praktisch für jede Ausprägung einer Variable eine eigene 2x2-Kreuztabelle mit "x" und "alles außer x" erstellen und bei dieser dann einen Chi-Quadrat-Test machen

Ja, das kannst Du. Leider verdünnt sich dabei die Bedeutung von "signifikant" werden jedes Mal ein wenig. Es wäre gut, wenn Du ein oder zwei dieser Hypothesentest vorher als Hauptfragestellung und die anderen als Nebenfragestellungen definieren könntest. Such mal in Büchern und/oder Internetz zum Thema "Alphafehlerakummulation" bzw "multiples Testen" und "Bonferroni". Wenn es eine mündliche Verteidigung Deiner Arbeit gibt, solltest Du auf Rückfragen dazu vorbereitet sein.
Die beste Antwort dürfte eine a priori definierte Hauptfragestellung sein.

R kenne ich leider gar nicht, aber würde ich zur Not auch probieren.

Es gibt ja freundliche Menschen in freundlichen Internetforen und viele andere Hilfen im Netz.

Wenn im Asymp.-Sig.-Feld bei Pearson-Chi-Quadrat ein Wert <0,05 steht, heißt das, dass das Ergebnis nur mit 5%-iger Wahrscheinlichkeit zufällig sein kann

"Asymp." heißt wohl, dass es sich um eine asymptotische Berechnung, also um eine Näherung mit der Chi-Quadrat-Verteilung handelt. Der Satz mit der 5%igen Wahrscheinlichkeit ist falsch! Du bewegst Dich mit diesen klassischen Tests grundsätzlich nicht in einem System, das die Wahrscheinlichkeit der Nullhypothese berechnet, sondern in einem System, in dem die Nullhypothese entweder stimmt oder nicht stimmt und keine Wahrscheinlichkeiten darüber errechnet werden. Der p-Wert ist keine Wahrscheinlichkeit der Nullhypothese sondern eine Wahrscheinlichkeitsaussage über Deine Daten. Richtig ist dagegen, dass bei so kleinen p-Werten die Nullhypothese verworfen wird und wahrscheinlich ist das genau das Ergebnis, das Du Dir wünschst.

Viel Erfolg mit der Arbeit,
Bernhard

Lieber Bernhard,

vielen Dank für deine Hilfe und Anregungen!! Damit komme ich schon einmal gut weiter. Ich werde auf jeden Fall noch weiter bezüglich Alphafehlerakkumulation, R und der Interpretation des p-Werts recherchieren...

LG,
Sarah

STATISTIK-FORUM.de

Signifikanztests? Chi-Quadrat-Test?

Signifikanztests? Chi-Quadrat-Test?

Re: Signifikanztests? Chi-Quadrat-Test?

Re: Signifikanztests? Chi-Quadrat-Test?

Re: Signifikanztests? Chi-Quadrat-Test?

Re: Signifikanztests? Chi-Quadrat-Test?

Re: Signifikanztests? Chi-Quadrat-Test?

Re: Signifikanztests? Chi-Quadrat-Test?