STATISTIK-FORUM.de

Nulbus · von **Nulbus** » Sa 6. Apr 2019, 11:46

Hallo zusammen,

ich möchte 2 unterschiedliche Outputs, die aus dem selben Input hervorgehen, auf statistische Signifikanz untersuchen.

Hier etwas ausfürhlicher:

Datensatz A: Es handelt sich um einen Datensatz von 10,000 Videos, die paarweise mehrmals von unterschiedlichen Menschen miteinander verglichen worden sind. Z.b. welche Person im Video ist freundlicher? Nach merhmaligen Vergleichen wurde daraus ein Ranking erstellt (Freundlichkeit von 0-100%).

Datensatz B: Es handelt sich um ein zufälliges Sample von 250 Videos aus Datensatz A. Diese Videos wurden nun aber nicht paarweise verglichen, sondern einzeln auf einer 5-Punkte Likert Skala bewertet - Wie freundlich ist diese Person von 0 bis 4? (0%, 25%, 50%, 75%, 100%)
Jedes Video wurde auch hier von mehreren Menschen bewertet und der Durchschnitt daraus genommen (0-100%).

Meine ursprüngliche Hypothese lautete, dass der paarweise Vergleich aus Datensatz A zwingend zu falschen Klassifikationen führt. Wird z.B, eine sehr freundliche Person stets mit Menschen verglichen, die sehr sehr freundlich sind, wird diese ggfs. als unfreundlich klassifiziert.
Daher wollte ich Testen ob das Verwenden einer absoluten Skala zu signifikanten Unterschieden führt.

Auf den ersten Blick sehen die beiden Outputs aus Variante A und Variante B zu diesen 250 Videos auch sehr unterschiedlich aus. Wie würdet ihr an dieser Stelle aber vorgehen, um das statistisch zu belegen?
Macht an dieser Stelle ein t-Test Sinn?

Ich danke euch vielmals!
Nico

bele · von **bele** » Sa 6. Apr 2019, 18:19

Hallo Nico,

Zu Datensatz A hast Du nicht geschrieben, wie das Ranking erstellt wurde. Ich hatte mal ein ähnliches Problem und habe recht lange gebraucht, bis ich das Bradley-Terry-Modell gefunden habe. Wenn Du das kennst, ist ja alles gut. Wenn nicht, solltest Du Dich dazu belesen und Dir überlegen, ob Du das nicht als Referenz verwenden möchtest. Insbesondere zieht das ins Kalkül ein, ob die Vergleichspersonen selbst nur sehr freundlich oder selbst gar sehr, sehr freundlich sind. Soviel als Lesehinweis, den Du natürlich übergehen kannst, wenn das schon alles bekannt ist.

Ansonsten würde meine Hüftschussantwort auf Deine eigentliche Frage lauten: Rechne doch eine Spearman-Korrelation aus den gemittelten Freundlichkeitswerten und dem Ranking.

LG,
Bernhard

Nulbus · von **Nulbus** » Mi 10. Apr 2019, 09:50

Danke dir Bernhard für deine Antwort!

Die Spearman-Korrelation kannte ich noch nicht, aber sie macht auf jeden Fall an dieser Stelle.

Dieser Vergleich deckt einen sehr kleinen Teil meiner Masterthesis ab und ich wollte an dieser Stelle zeigen, dass die beiden Messmethoden zu unterschiedlichen Ergebnissen führen. Daher hatte ich urprünglich gehofft es gebe einen Test, der mir das signifikant angibt. Stattdessen werde ich die geringen Spearman-Korrelationen aufzeigen - Oder hättest du hier zusätzliche Ideen?

Zu Datensatz A habe ich leider keine weiteren Informationen, da die Daten nicht von mir erhoben wurden sind.

Vielen Dank
Nico

bele · von **bele** » Mi 10. Apr 2019, 11:06

Hallo Nico,
ich befürchte, die Fragestellung ist noch unzureichend spezifiziert:

> ich wollte an dieser Stelle zeigen, dass die beiden Messmethoden zu unterschiedlichen Ergebnissen führen

Das ist leicht gezeigt: Sind die Ergebnisse unterschiedlich? Bestimmt. Also zu dieser Hypothese fertig.

Du willst aber noch irgendeinen Test rechnen und für den ist mir nicht klar, was der aussagen soll. Dass fünf weniger ist als sieben, dafür braucht man keinen Test. Für welche Aussage genau brauchst Du einen Test?

LG,
Bernhard

Nulbus · von **Nulbus** » Mi 10. Apr 2019, 11:34

Servus Bernhard,

das ganze diente und dient einem Neuronales Netz, was Persönlichkeitsmerkmale feststellen soll - in diesem konkreten Beispiel die Freundlichkeit.

Dabei kritisiere ich die Datenerhebung in Datensatz A und möchte zeigen, dass wenn eine Likert Skala verwendet wird, völlig unterschiedliche Ground Truth Daten entstehen würden. Dies legitimiert dann wiederum mein weiteres Vorgehen das bestehende Netz mit neuen Daten (absoluten) neu zu trainieren.

Du würdest an dieser Stelle also nur die geringe Korrelation aufzeigen, um diese Hypothese zu bestätigen?

VG
Nico

PonderStibbons · von **PonderStibbons** » Mi 10. Apr 2019, 11:39

Relibialitäten sind erstmal eine Sache für Korrelationsrechnungen. Da Deine Daten
Rangdaten sind (NB hast Du keine Likert-Skala, sondern allenfalls ein Likert-skaliertes
einzelnes Item; Likert-Skala ist die Bezeichnung eines Messinstruments mit mehreren
Items vom Likert-Typ), erscheint Spearman passend.

Mit freundlichen Grüßen

PonderStibbons

bele · von **bele** » Mi 10. Apr 2019, 14:19

Nach dieser kurzen Beschreibung würde ich davor warnen, die Fähigkeit der Rater zu überschätzen, die Sympathie auf einer 5stufigen Skala absolut zu bewerten. Da werden tausend Störfaktoren rein spielen und am Ende hast Du, wenn Du ehrlich bist, eine Ordinalskala, die sich auf eine viel kleinere Anzahl von Videos bezieht. Wenn Du paarweise Vergleiche hast, dann berechne die Sympathiewerte mit einem Bradley-Terry-Modell. Das ist sauber, erprobt und Du hast ein sauberes Intervallskalenniveau, mit dem Du Dein Neuronales Netz füttern kannst.

https://cran.r-project.org/web/packages ... yTerry.pdf
https://cran.r-project.org/web/packages ... lable.html

JMTC,
Bernhard

STATISTIK-FORUM.de

Gleicher Input, unterschiedlicher Output -> t-Test?

Gleicher Input, unterschiedlicher Output -> t-Test?

Re: Gleicher Input, unterschiedlicher Output -> t-Test?

Re: Gleicher Input, unterschiedlicher Output -> t-Test?

Re: Gleicher Input, unterschiedlicher Output -> t-Test?

Re: Gleicher Input, unterschiedlicher Output -> t-Test?

Re: Gleicher Input, unterschiedlicher Output -> t-Test?

Re: Gleicher Input, unterschiedlicher Output -> t-Test?

Wer ist online?