STATISTIK-FORUM.de

Michelle2m3 · von **Michelle2m3** » Sa 10. Dez 2022, 14:33

Hey,

ich möchte testen, welches von zwei Übersetzungstools bessere Übersetzungen liefert. Dafür wollte ich folgende Hypothese aufstellen: "Übersetzungstool x ist besser als Übersetzungstool y".
Macht diese Hypothese überhaupt Sinn, wenn ich herausfinden will, welches der beiden Tools besser ist?
Wäre dann die Nullhypothese "Übersetzungstool x ist schlechter als Übersetzungstool y" oder "Übersetzungstool x ist nicht besser als Übersetzungstool y"? Nicht besser würde ja implizieren, dass es auch genau so gut sein kann und damit wüsste ich ja letztendlich nicht, welches von beiden besser ist.

Ich habe 12 Texte von den beiden Übersetzungstools übersetzen lassen und die Fehler markiert. Jeder Fehler wurde dann einer von 20 Kategorien zugeordnet. Das Übersetzungstool, das insgesamt weniger Fehler aufweist als das andere, ist dann das bessere. Ich habe also letztendlich zwei Werte: die Fehleranzahl von Übersetzungstool x und die Fehleranzahl von Übersetzungstool y. Meine Frage ist nun, was ich statistisch mit diesen beiden Werten machen kann? Ich habe überlegt, zu berechnen, ob diese zwei Werte sich signifikant voneinander unterscheiden, aber ich weiß nicht, ob das Sinn macht.

Schon mal danke für eure Hilfe.
Michelle

bele · von **bele** » Sa 10. Dez 2022, 16:17

Hallo Michelle,

folgende Hypothese aufstellen: "Übersetzungstool x ist besser als Übersetzungstool y".
Macht diese Hypothese überhaupt Sinn, wenn ich herausfinden will, welches der beiden Tools besser ist?

Die Formulierung impliziert, dass x besser ist. Du musst für Dich überlegen, ob es Dich auch interessieren würde, ob y besser ist. In der Regel wird beides von Interesse sein. Dann wäre die Hypothese also "DIe Übersetzungstools sind verschieden gut" bzw in Deiner Instrumentalisierung von "gut" ausgedrückt: "Die Übersetzungstools machen am gleichen Text unterschiedlich viele Fehler". Die Nullhypothese dementsprechend "Die Übersetzungstools machen gleich häufig Fehler". Wenn Du mit einem statistischen Test zeigen kannst, dass beide nicht gleich viele Fehler machen, dann kannst Du ja einfach nachschauen, welches wenige Fehler gemacht hat. Dieser letzte Schritt muss nicht Teil Deiner Nullhypothese sein.

Ein wenig unglücklich ist, dass Du jetzt einfach nur eine Zahl pro Übersetzungstool hast und nicht mehrere. Mit mehreren kann man eine Streuung bestimmen und dann die Abweichung zwischen den Übersetzungstools in Relation zu der Streuung setzen.

Wenn man beispielsweise auszählen könnte, wieviele Fehler jede Übersetzungmaschine pro Text oder pro Satz im Text gemacht hat, dann könnte man diese Zahlen miteinander vergleichen und schauen, ob ein ÜBersetzungstool systematisch mehr Fehler pro Text oder pro Satz gemacht hat als die andere (siehe Vorzeichen-Rangtest). Man müsste dann ggf. die Nullhypothese noch anpassen, sodass sie immer noch das ausdrückt, was wissenschaftlich interessant ist aber sich eben einem Dir bekannten Test zuführen lässt (in diesem Beispiel den Passus "pro Satz" oder "pro Text" in der Nullhypothese ergänzen.

Jeder Fehler wurde dann einer von 20 Kategorien zugeordnet.

Diese Kategorien tauchen sonst in Deiner Anfrage nicht mehr auf. Ich habe sie daher hier erstmal ignoriert. Gegebenenfalls nochmal nachfragen.

LG,
Bernhard

Michelle2m3 · von **Michelle2m3** » Sa 10. Dez 2022, 17:18

Hallo Bernhard,

schon mal vielen Dank, deine Antwort war sehr hilfreich.

Wenn man beispielsweise auszählen könnte, wieviele Fehler jede Übersetzungmaschine pro Text oder pro Satz im Text gemacht hat, dann könnte man diese Zahlen miteinander vergleichen und schauen, ob ein ÜBersetzungstool systematisch mehr Fehler pro Text oder pro Satz gemacht hat als die andere (siehe Vorzeichen-Rangtest).

Das wäre sogar möglich, da ich die Fehler pro Text notiert habe. Wäre hier dann zusätzlich ein Zweistichproben-t-test möglich (und sinnvoll)?

Diese Kategorien tauchen sonst in Deiner Anfrage nicht mehr auf. Ich habe sie daher hier erstmal ignoriert. Gegebenenfalls nochmal nachfragen.

Diese Fehlerkateogrien dienen dazu zu identifizieren, wo welches Übersetzungstool die meisten Fehler macht und aus welchem Grund. Ich könnte hier dann auch überprüfen, wie viele Fehler der Kategorie a jede Übersetzungsmaschine pro Text macht.

LG,
Michelle

bele · von **bele** » Sa 10. Dez 2022, 17:38

Hallo Michelle,

Michelle2m3 hat geschrieben:Das wäre sogar möglich, da ich die Fehler pro Text notiert habe. Wäre hier dann zusätzlich ein Zweistichproben-t-test möglich (und sinnvoll)?

Wenn wir den Begriff gleich benutzen, dann ist das ein Test für zwei unabhängige Stichproben. Ich habe Dich aber so verstanden, dass beide Übersetzungshilfen die gleichen Texte übersetzt haben. Dann erscheint es mir sinnvoll die Fehler die Übersetzer A in Text 1 gemacht hat mit den Fehlern von Übersetzer B in Text 1 und die Fehler von Übersetzer A in Text 2 mit denen von Übersetzer B in Text 2 zu vergleichen und so weiter. Demnach wären die Fehlerzahlen von A und B verbundene Stichproben und sollten auch mit einem Test für verbundene Stichproben verglichen werden. Ein t-Test für verbundene Stichproben wäre damit schon passender.
T-Tests basieren auf der t-Verteilung und das ist eine Verteilung für kontinuierliche Zahlen. Ich nehme an, dass deine Fehler in kleinen, ganzen Zahlen vorkommen und die t-Verteilung nicht so ganz passend ist. Deshalb würde ich persönlich ein verteilungsfreies Verfahren wir den Vorzeichenrangtest oder einen Permutationstest vorziehen, aber vielleicht bin ich da auch zu streng. Wenn der t-Test für verbundene Stichproben (das läuft auf einen Einstichproben-t-Test hinaus) der einzige Test für verbundene Stichproben ist, der bei Euch gelehrt wurde, dann kann es schon sein, dass Deine Betreuer den sehen wollen.

LG,
Bernhard

Michelle2m3 · von **Michelle2m3** » Sa 10. Dez 2022, 20:38

Hallo Bernhard,

Eventuell sprechen wir aneinander vorbei. Ich möchte überprüfen ob beide Übersetzungstools an denselben Texten unterschiedlich viele Fehler machen. Das Tool mit durchschnittlich weniger Fehlern pro Text, wäre dann das bessere. Ich addiere also die Fehleranzahl aller 12 Texte von Übersetzungstool A zusammen und teile durch 12, habe also die mittlere Fehleranzahl pro Text für Übersetzer A. Ich wiederhole das für Tool B und habe die mittlere Fehleranzahl pro Text für Übersetzer B. Bei einem Einstichprobentest wird doch nur ein Mittelwert verwendet, oder habe ich da etwas falsch verstanden?

LG,
Michelle

bele · von **bele** » Sa 10. Dez 2022, 22:59

Hallo Michelle,

ich habe Dich soweit verstanden. Darf ich erstmal zurück fragen, ob Du mit den Konzepten verbundener und unverbundener Stichproben vertraut bist und deshalb nachvollziehen kannst, dass ein t-Test für unverbundene Stichproben hier nicht passt?

LG, Bernhard

Michelle2m3 · von **Michelle2m3** » So 11. Dez 2022, 13:43

Hallo Bernhard,

Darf ich erstmal zurück fragen, ob Du mit den Konzepten verbundener und unverbundener Stichproben vertraut bist und deshalb nachvollziehen kannst, dass ein t-Test für unverbundene Stichproben hier nicht passt?

Bei verbundenen Stichproben gibt es zu jedem Wert aus Stichprobe A (in meinem Fall Übersetzungstool A) einen zugehörigen Wert aus Stichprobe B (Übersetzungstool B), wobei die Werte an denselben Daten erhoen wurden (12 Texte).

Ich glaube, dass ich es nun verstanden habe. Korrigiere mich bitte, wenn es doch falsch ist.
Ich habe die Fehleranzahl von Übersetzungstool A und B zu jedem der 12 Texte. So hat bspw. Übersetzungstool A beim ersten Text 32 Fehler gemacht, Übersetzungstool B dafür nur 7. Die Differenz zwischen beiden ist also 25 (bzw. -25?). Das wiederhole ich bei allen Texten und berechne den Mittelwert aller 12 Texte und habe somit auch nur einen Mittelwert, mit dem ich den Einstichproben-t-test anwenden kann. Stimmt das so?

LG
Michelle

Michelle2m3 · von **Michelle2m3** » So 18. Dez 2022, 15:48

Hallo nochmal,

weiß sonst noch jemand, ob das so stimmt?

LG

bele · von **bele** » So 18. Dez 2022, 19:17

Nanu, ich war überzeugt, dass ich Dir geantwortet hätte - muss ich wohl vergessen haben auf Absenden zu klicken oder es ist was dazwischen gekommen und die Verbindung war weg.

So hat bspw. Übersetzungstool A beim ersten Text 32 Fehler gemacht, Übersetzungstool B dafür nur 7. Die Differenz zwischen beiden ist also 25 (bzw. -25?). Das wiederhole ich bei allen Texten und berechne den Mittelwert aller 12 Texte und habe somit auch nur einen Mittelwert,

Im Prinzip alles so richtig. Aber Du hast eben nicht nur einen Mittelwert, sondern auch ein Maß dafür, wie weit die die Einzelwerte um diesen Mittelwert streuen. Aus beidem zusammen macht der Computer dann das Testergebnis.
Beim Vorzeichenrangtest ist es ähnlich. Da werden auch erst die Differenzen gebildet und dann sortiert, ob die betragsmäßig großen Differenzen alle ein Plus oder ein Minus davor haben, aber auch das macht der Computer dann für Dich.

Die Differenz zwischen beiden ist also 25 (bzw. -25?).

Richtig, entweder Plus oder Minus, hauptsache immer gleich herum gerechnet, also immer A-Wert minus B-Wert oder immer anders herum.

LG,
Bernhard

Michelle2m3 · von **Michelle2m3** » So 26. Feb 2023, 16:33

Hallo nochmal,

vielen Dank für deine Hilfe. Ich hätte noch eine Frage: Beim Einstichproben t-test wird ja ein vermuteter Mittelwert verwendet. Welcher wäre das in meinem Fall? Ich habe überlegt, ob es 0 sein könnte, da ich ja in meiner Nullhypothese davon ausgehe, dass beide Übersetzungstools gleich viele Fehler pro Text machen. Dann müsste die Differenz ja 0 sein und somit wäre der Mittelwert auch 0.
Danke im Voraus!

STATISTIK-FORUM.de

Welches statistische Verfahren könnte man anwenden?

Welches statistische Verfahren könnte man anwenden?

Re: Welches statistische Verfahren könnte man anwenden?

Re: Welches statistische Verfahren könnte man anwenden?

Re: Welches statistische Verfahren könnte man anwenden?

Re: Welches statistische Verfahren könnte man anwenden?

Re: Welches statistische Verfahren könnte man anwenden?

Re: Welches statistische Verfahren könnte man anwenden?

Re: Welches statistische Verfahren könnte man anwenden?

Re: Welches statistische Verfahren könnte man anwenden?

Re: Welches statistische Verfahren könnte man anwenden?

Wer ist online?