STATISTIK-FORUM.de

NinaK · von **NinaK** » Do 17. Aug 2017, 13:52

Guten Tag,

ich stehe gerade ein wenig auf dem Schlauch und hoffe, dass Ihr mich bei meiner Problematik unterstützen könnt.
Es geht um Folgendes:
Ich habe über einen längeren Zeitraum Konsumdaten von einer bestimmten Anzahl an Studienteilnehmern erhoben.
Pro Teilnehmer habe ich Werte zu den folgenden Variablen:
- Menüs insgesamt
- Menüs mit Fleisch
- Menüs mit Fisch
- Vegetarische/ Vegane Menüs

Ziel ist es, pro Teilnehmer eine Variable zu schaffen, die die RELATIVE Häufigkeit seiner Menüwahl beschreibt, sprich % Anteil an Fleischmenüs, % Anteil an Veg-Menüs etc. Diese Prozentsätze zu berechnen ist natürlich grundsätzlich kein Problem.

Das eigentliche Problem ist aber, dass nicht jeder Teilnehmer die gleiche Anzahl an Menüs im Studienzeitraum konsumiert hat. Die Spanne reicht von 1 bis 19 Menüs insgesamt. In den relativen Häufigkeiten werden diese Unterschiede jedoch nicht abgebildet: Jemand der nur 1x ein Menü verzehrt hat, welches Fleisch enthielt, wird beim Anteil der Fleischmenüs 100% erhalten, was meiner Ansicht nach aber nicht vergleichbar ist mit jemandem der 19x da war und 19x Fleisch gegessen hat (auch dieser Teilnehmer hat beim Anteil der Fleischmenüs dann einen Wert von 100%).

Ich möchte nun eine Art der Gewichtung kreieren, die die Anzahl an insgesamt konsumierten Menüs widerspiegelt. Diese Gewichtung ist nicht nur dafür gedacht, einen gewichteten Mittelwert o.Ä. zu berechnen. Wie man hier vorgeht, wüsste ich. Ziel ist es, einen gewichteten Datensatz zu erhalten, sprich die einzelnen Werte pro Teilnehmer durch die Gewichtung so zu "verändern", dass sie vergleichbar sind.
[b]
Wie gehe ich vor, um Gewichtungsfaktoren zu berechnen, die dieses Ziel erfüllen? [/b]

Eine Idee von mir war folgende: Ich berechne die durchschnittliche Anzahl an konsumierten Menüs (= 7,78), und berechne das Gewicht, indem ich die Gesamtzahl der konsumierten Menüs pro Teilnehmer (z.B. Teilnehmer X hat insgesamt nur 1 Menü gegessen) durch diesen Wert teile -> für Teilnehmer X wäre der Gewichtungsfaktor 1/7,78 = 0,129, was bedeuten würde, dass ich die relativen Anteile mit diesem Wert multiplizieren würde. Sprich: Wenn das konsumierte Menü dieses Teilnehmers X Fleisch enthielt, und die "normale" relative Häufigkeit der Fleischmenüs daher 100% betragen würde, würden sich diese 100% durch die Gewichtung auf 12,9% reduzieren (0,129 * 100%). [b]Macht das Sinn? Welche Alternativen gibt es? [/b]

Ich danke Euch jetzt schon vielmals für Eure großartige Hilfe!

Liebe Grüße,
Nina

PonderStibbons · von **PonderStibbons** » Do 17. Aug 2017, 14:14

Das eigentliche Problem ist aber, dass nicht jeder Teilnehmer die gleiche Anzahl an Menüs im Studienzeitraum konsumiert hat. Die Spanne reicht von 1 bis 19 Menüs insgesamt.

Dann musst Du ein Einschlußkriterium formulieren der Art "im Beobachtungszeitraum mindestens 6 Menues" oder dergleichen.

Mit freundlichen Grüßen

PonderStibbons

folgende User möchten sich bei PonderStibbons bedanken:
NinaK

NinaK · von **NinaK** » Do 17. Aug 2017, 14:30

PonderStibbons hat geschrieben:
Das eigentliche Problem ist aber, dass nicht jeder Teilnehmer die gleiche Anzahl an Menüs im Studienzeitraum konsumiert hat. Die Spanne reicht von 1 bis 19 Menüs insgesamt.

Dann musst Du ein Einschlußkriterium formulieren der Art "im Beobachtungszeitraum mindestens 6 Menues" oder dergleichen.

Mit freundlichen Grüßen

PonderStibbons

Danke für die schnelle Antwort!

Aufgrund der eher niedrigen Teilnehmerzahl benötige ich aber alle Observationen.
Außerdem behebt Deine Lösung das Problem ja leider immer noch nicht, da ein Teilnehmer, der 6 Menüs konsumiert hat, jedesmal mit Fleisch, immer noch den selben relativen Häufigkeitswert für die Anzahl an Fleischmenüs erhält, wie derjenige, der insgesamt nur ein Menü, mit Fleisch, isst.

bele · von **bele** » Do 17. Aug 2017, 14:51

Hallo NinaK,

NinaK hat geschrieben:Ziel ist es, pro Teilnehmer eine Variable zu schaffen, die die RELATIVE Häufigkeit seiner Menüwahl beschreibt, sprich % Anteil an Fleischmenüs, % Anteil an Veg-Menüs etc. Diese Prozentsätze zu berechnen ist natürlich grundsätzlich kein Problem.

Damit ist dieses Ziel erfolgreich erreicht. Wir haben keine offenen Ziele mehr.

NinaK hat geschrieben:Das eigentliche Problem ist aber, dass nicht jeder Teilnehmer die gleiche Anzahl an Menüs im Studienzeitraum konsumiert hat. [...] In den relativen Häufigkeiten werden diese Unterschiede jedoch nicht abgebildet

Deine Schilderung verschweigt, warum das ein Problem ist. Offensichtlich willst Du noch ein weiteres, bisher nicht beschriebenes, Ziel verfolgen. Ich bin überzeugt, dass sich eine für Dich befriedigende Lösung, die über das von PonderStibbons erwähnte hinaus geht, nur finden lassen wird, wenn das eigentlich angestrebte Ziel erklärt ist. Wenn ich jetzt einen genialen Geistesblitz hätte, der Dein Problem löst, woran würde ich erkennen, dass er Dein Problem löst?

Dein Gewichtungsansatz führt bisher dazu, dass jemand, der nur einmal gegessen hat und das mit Fleisch, bei Dir zu 12% der Fälle Fleisch ist. Ohne weitere Ziele von Dir zu kennen erscheint mir das als sinnfrei bis verwirrend. Es kommt aber wohl darauf an, was Du mit diesen Zahlen weiter machen und wie Du sie verarbeiten willst.

LG,
Bernhard

PonderStibbons · von **PonderStibbons** » Do 17. Aug 2017, 16:29

Außerdem behebt Deine Lösung das Problem ja leider immer noch nicht, da ein Teilnehmer, der 6 Menüs konsumiert hat, jedesmal mit Fleisch, immer noch den selben relativen Häufigkeitswert für die Anzahl an Fleischmenüs erhält, wie derjenige, der insgesamt nur ein Menü, mit Fleisch, isst.

Letzterer käme gar nicht in die Analyse, wenn Du meinem Vorschlag folgend nur Probanden einschließt, die so viele Beobachtungen haben dass ihr Verhalten sinnvoll auszuwerten ist.

Aufgrund der eher niedrigen Teilnehmerzahl benötige ich aber alle Observationen.

Wieso? Wie viele Teilnehmer sind es denn, wie viele haben weniger als 5 Menues konsumiert, und wieso würde für die Auswertung eine niedrige Teilnehmerzahl eine Rolle spielen? Wie lautet den überhaupt die Fragestellung und wie sollen diese "relative Häufigkeitsdaten" statistisch analysiert werden?

Mit freundlichen Grüßen

PonderStibbons

NinaK · von **NinaK** » Do 17. Aug 2017, 16:49

Hallo,

danke für Eure Unterstützung.

@ PonderStibbons: Ja, sorry ich meinte natürlich die Vergleichbarkeit zwischen jemandem der 6 Menüs und jemandem der 19 Menüs gegessen hat. Die Stichprobenanzahl benötige ich, um eine Difference-in-Difference Evaluierung durchzuführen, die mir den Effekt meiner Intervention aufzeigt.

@ bele: Das erste beschriebene Ziel ist es tatsächlich, eine Variable mit relativen Häufigkeiten zu erhalten. Die "normalen" relativen Häufigkeiten (Anzahl Fleischmenüs / Gesamtanzahl der Menüs) geben nur leider nicht den Unterschiede zwischen den Teilnehmern bezüglich deren Gesamtanzahl an konsumierten Menüs wieder. Daher möchte ich eine Variable mit "gewichteten" relativen Häufigkeiten kreieren. Dies ist das Ziel.

Schaut man sich nun die Anwendungslogik des weighted average an, findet sich hier eine Gewichtungslösung, um auf genau solche Unterschiede in der Datenverfügbarkeit einzugehen. Hier würde man einfach die individuelle Gesamtanzahl gewählter Menüs durch die insgesamt, von allen Teilnehmern konsumierte Anzahl an Menüs teilen und so eine Gewichtung erhalten, um einen gewichteten Mittelwert errechnen zu können, bei dem Individuen mit einer höheren Anzahl an gewählten Menüs stärker ins Gewicht fallen. Die aus dieser Methode resultierenden Gewichtungsfaktoren sind allerdings sehr kleine Beträge wie 0.0005 etc. Diese mit der "normalen" relative Häufigkeit zu multiplizieren würde wenig Sinn ergeben.

Daher suche ich nach einer Methode, die Gewichtungsfaktoren ergibt, die um den Wert 1 herum liegen (0,8 oder 1,2 o.Ä.) um im Mittel 1 ergeben, sodass die eigentlichen Datenwerte nicht substantiell verzerrt werden.

Ich hoffe, mein Ziel ist nun etwas klarer

PonderStibbons · von **PonderStibbons** » Do 17. Aug 2017, 16:59

@ PonderStibbons: Ja, sorry ich meinte natürlich die Vergleichbarkeit zwischen jemandem der 6 Menüs und jemandem der 19 Menüs gegessen hat.

Die Vergleichbarkeit stellst Du darüber her, dass Du Raten berechnest. Dass die Reliabilität der Schätzung der Raten bei k=6 Messungen geringer ist als bei k=19, dem ist leider nicht abzuhelfen.

Die Stichprobenanzahl benötige ich, um eine Difference-in-Difference Evaluierung durchzuführen, die mir den Effekt meiner Intervention aufzeigt.

Das ist leider keine verständliche nachvollziehbare Darstellung einer Studie (Thema, Fragestellung, Erhebungsdesign, konkrete Analysemethoden). Die konkrete Frage nach Stichprobengröße wurde nicht beantwortet.

bei dem Individuen mit einer höheren Anzahl an gewählten Menüs stärker ins Gewicht fallen.

Ist das also Deine Fragestellung - nicht irgendwas in Bezug auf Individuen zu ermitteln, sondern in Bezug auf Menues?

Ich hoffe, mein Ziel ist nun etwas klarer

Mir schonmal leider nicht.

Mit freundlichen Grüßen

PonderStibbons

NinaK · von **NinaK** » Do 17. Aug 2017, 17:25

Ich möchte einfach nur eine Variablenspalte mit nach Menü-Gesamtanzahl gewichteten relativen Häufigkeiten. So wie man nach demographischen Aspekten gewichten kann, um eine Stichprobe einer Grundgesamtheit anzupassen, und die Ergebnisse der Stichprobe daher repräsentativer zu machen, muss man doch auch irgendwie nach meinem Faktor (Anzahl Gesamtmenüs) gewichten können?!?!

bele · von **bele** » Fr 18. Aug 2017, 16:17

NinaK hat geschrieben:@ bele: Das erste beschriebene Ziel ist es tatsächlich, eine Variable mit relativen Häufigkeiten zu erhalten.

Dieses Ziel hast Du ja aber schon erreicht.

NinaK hat geschrieben:Schaut man sich nun die Anwendungslogik des weighted average an, findet sich hier eine Gewichtungslösung, um auf genau solche Unterschiede in der Datenverfügbarkeit einzugehen.

Da findet die Gewichtung während der Datenaggregation statt. Bei der Mittelwertbildung wird etwas im Zähler und etwas im Nenner verändert und beides ergänzt sich in sinnvoller Weise. Dem Anschein nach willst Du aber nicht bei der Datenaggregation sondern pro Mensabesucher etwas gewichten. Du willst irgendwie im Zähler des Mittelwertes herumbasteln, ohne den Nenner zu erwähnen. Weil Du nicht einen einzelnen gewichteten Mittelwert, sondern gleich eine ganze Variable mit einem Wert für jeden Essenden haben willst, führt die Analogie zum gewichteten Mittelwert nicht zum Ziel.

NinaK hat geschrieben:Die "normalen" relativen Häufigkeiten (Anzahl Fleischmenüs / Gesamtanzahl der Menüs) geben nur leider nicht den Unterschiede zwischen den Teilnehmern bezüglich deren Gesamtanzahl an konsumierten Menüs wieder. Daher möchte ich eine Variable mit "gewichteten" relativen Häufigkeiten kreieren. Dies ist das Ziel.

Eine Variable zu kreieren ist nie das eigentliche Ziel, sondern immer nur ein Zwischenschritt. Einsichten in die Ernährungsgewohnheiten von Menschen zu gewinnen kann ein Ziel sein, die Rohstoffeinkäufe einer Mensa zu optimieren kann ein Ziel sein. Wenn wir mitdenken sollen, musst Du uns erzählen, worüber wir nachdenken sollen.

LG,
Bernhard

NinaK · von **NinaK** » So 20. Aug 2017, 12:25

Hallo,

das Ziel der ganzen Arbeit ist es, zu analysieren ob es Mensagänger durch eine Informationsmanipulation ihr Essverhalten verändern. Ich habe eine Test und eine Treatmentgruppe, sowie Vorher-/ Nachher-Konsumdaten. Allerdings weiß ich nicht, warum das nun eine Rolle spielen soll bei meinem Problem

@ bele: Deine Erklärung zum gewichteten Mittelwert macht sehr viel Sinn und dessen war ich mir bereits bewusst. Es sollte nur andeuten in welche Richtung das ganze grob gehen soll. Tatsächlich soll die Gewichtung vor der Aggregierung stattfinden. Tut man dies aber nicht zum Beispiel, wenn man, wie bereits beschrieben, versucht, eine Stichprobe durch Gewichtung an die Grundgesamtheit "anzupassen"?

Lieben Dank für die Hilfe und einen schönen Sonntag.

STATISTIK-FORUM.de

Gewichtung bei unterschiedlicher Anzahl an Observationen

Gewichtung bei unterschiedlicher Anzahl an Observationen

Re: Gewichtung bei unterschiedlicher Anzahl an Observationen

Re: Gewichtung bei unterschiedlicher Anzahl an Observationen

Re: Gewichtung bei unterschiedlicher Anzahl an Observationen

Re: Gewichtung bei unterschiedlicher Anzahl an Observationen

Re: Gewichtung bei unterschiedlicher Anzahl an Observationen

Re: Gewichtung bei unterschiedlicher Anzahl an Observationen

Re: Gewichtung bei unterschiedlicher Anzahl an Observationen

Re: Gewichtung bei unterschiedlicher Anzahl an Observationen

Re: Gewichtung bei unterschiedlicher Anzahl an Observationen

Wer ist online?