STATISTIK-FORUM.de

BMo8 · von **BMo8** » Di 21. Mär 2017, 22:41

Hallo,

ich habe Usage-Daten eines Internet-Services mit 3 unabhängigen Gruppen. Die Gruppen haben unterschiedliche Varianten des Internet-Services genutzt.
Die Daten sind stark logarithmisch verteilt. Insgesamt bilden die Daten recht gut die 1%-Regel ab -> https://de.wikipedia.org/wiki/Ein-Prozent-Regel_(Internet)
Wir haben also in jeder Gruppe ein paar Ausreißer, die ziemlich viel gemacht haben und in jeder Gruppe eine große Masse an Nutzer die wenig oder nix gemacht haben.

Mein Mittelwert ist daher in allen Gruppen bei 2 -> bzw. nahe bei 0 und nicht wirklich aussagekräftig, da ich eine extrem hohe Streuung habe. Mich interessieren vor allem die Unterschiede der Ausreißer in den Gruppen.
Allerdings möchte ich die Daten nicht einfach irgendwo abschneiden.

- Kann mir jemand einen Rat geben, wie ich die Daten transformieren muss, damit ich unterschiede zwischen den Gruppen deskriptiv und mit Tests sinnvoll auswerten und interpretieren kann?

Danke

PonderStibbons · von **PonderStibbons** » Di 21. Mär 2017, 23:28

ich habe Usage-Daten eines Internet-Services mit 3 unabhängigen Gruppen. Die Gruppen haben unterschiedliche Varianten des Internet-Services genutzt.
Die Daten sind stark logarithmisch verteilt.

Was für Daten, was wurde gemessen?

Mein Mittelwert ist daher in allen Gruppen bei 2 -> bzw. nahe bei 0 und nicht wirklich aussagekräftig, da ich eine extrem hohe Streuung habe.

Aussagekräftig in Bezug worauf? Wie lautet das Thema der Studie, die Fragestellung?

Mich interessieren vor allem die Unterschiede der Ausreißer in den Gruppen.

Was meinst Du damit?

- Kann mir jemand einen Rat geben, wie ich die Daten transformieren muss, damit ich unterschiede zwischen den Gruppen deskriptiv und mit Tests sinnvoll auswerten und interpretieren kann?

Sinnvoll in Bezug worauf? Was soll dargestellt werden, welche Fragen sollen beantwortet werden?

NB sollte stets die Stichprobengröße angegeben werden.

Mit freundlichen GRüßen

PonderStibbons

bele · von **bele** » Mi 22. Mär 2017, 12:28

Und was sind logarithmisch verteilte Daten? Log-Normal verteilte Daten? https://de.wikipedia.org/wiki/Logarithm ... verteilung ?

BMo8 · von **BMo8** » Do 23. Mär 2017, 12:15

Hallo,

erst mal Danke für eure Rückmeldung. Tut mir leid, ich versuche es nochmal.

Was für Daten wurden gemessen:
Wir haben 3 Services, die vom Prinzip her gleich sind und sich im Interface unterscheiden.
Es wurden Nutzer eingeladen die Services zu nutzen. Wir haben gemessen wie häufig die Nutzer darauf zugreifen.
Ich habe aktuell Daten von
Gruppe 1 - 106 User
Gruppe 2 - 132 User
Gruppe 3 - 42 User

Wenn ich nun die Zugriffe absteigend sortiere kommt für jede der 3 Gruppen etwa folgende Verteilung raus:
Bild

Es gibt also wenige Nutzer die den Service sehr oft genutzt haben (ca. 1% der user), ein paar die den Service etwas genutzt haben (ca. 10%) und viele die ihn quasi gar nicht genutzt haben (ca. 90%).

Meine Hypothese ist, dass sich die Variation in den Interfaces sich auch die Nutzung auswirkt.
In der Tat sehe ich auch leichte Unterschiede bei den "Power-Usern", die aber in der Gesamtheit der Daten eher als Ausreißer auftreten.

Meine Interpretation ist: Der Service scheint generell nur eine bestimmte Art von Menschen anzusprechen (die 10% und 1%).

Meine Frage an euch ist nun, wie bekomme ich heraus, ob die unterschiede im Interface einen Einfluss auf die Personen hat, die der Service anspricht?
Ich denke, dass Datentransformation -> http://www.statistik-und-beratung.de/20 ... rmationen/ mir hier weiterhelfen kann.
Allerdings habe ich keine Erfahrung damit und suche nach Tips zur weiteren Vorgehensweise. Danke.

PonderStibbons · von **PonderStibbons** » Do 23. Mär 2017, 14:13

Meine Hypothese ist, dass sich die Variation in den Interfaces sich auch die Nutzung auswirkt.

Das ist vor dem Hintergrund, dass zum Nutzungsverhalten Vorwissen existiert, doch viel zu allgemein,
Was soll es bedeuten - dass der Anteil Nutzer mit Nutzungshäufigkeiten von mehr als 1x unterschiedlich
hoch ist? Dass Mittelwert oder Median der Nutzungshäufigkeiten unterschiedlich ist? Dass der Anteil der
häufigen Nutzer (wie auch immer definiert) unterschiedlich ist? Dass die Häufigkeit der Nutzung bei den
Mehrfachnutzern unterschiedlich ist?

Mit freundlichen Grüßen

PonderStibbons

BMo8 · von **BMo8** » Do 23. Mär 2017, 14:47

Hallo zusammen,

ich glaube ich bin einen Schritt weiter.
ich habe es noch nicht getestet, aber vom Ansatz her folgen meine Daten einer power-law-distribution -> http://epubs.siam.org/doi/pdf/10.1137/070710111
Das Problem wird aus hier schonmal beschrieben: http://stats.stackexchange.com/question ... buted-data

Hat mit dem Vergleich von Gruppen mit power law distributed data in SPSS schon mal jemand Erfahrung gesammelt?

bele · von **bele** » Do 23. Mär 2017, 18:08

Hallo BMo8,

ich denke, ich würde in einem ersten Schritt die Nutzungshäufigkeiten der drei Interfaces mit einem ganz banalen Rangsummentest (Wilcoxon oder Kruskall-Wallis) miteinander vergleichen. Angesichts brauchbarer Fallzahlen könnte das gut trotz Zero-Inflation funktionieren und dann bliebe Dir der ganze Aufwand mit Transformationen, zero-inflated models oder Herauslöschen aller Null-User erspart.

LG,
Bernhard

BMo8 · von **BMo8** » Do 23. Mär 2017, 20:37

Hallo Bernhard,

vielen Dank. Ja ich denke auch, dass nicht-parametrische Test wahrscheinlich am besten sind.
Ich habe heute auch ein paar log-log-plots gemacht.
Das funktioniert recht gut, um mögliche Unterschiede zu visualisieren.

Kennt jemand ein wiss. Paper, bei dem etwas ähnliches untersucht wurde und an dem ich mich orientieren könnte?

Viele Grüße
Benedikt

STATISTIK-FORUM.de

Logarithmische verteilte Daten vergleichen

Logarithmische verteilte Daten vergleichen

Re: Logarithmische verteilte Daten vergleichen

Re: Logarithmische verteilte Daten vergleichen

Re: Logarithmische verteilte Daten vergleichen

Re: Logarithmische verteilte Daten vergleichen

Re: Logarithmische verteilte Daten vergleichen

Re: Logarithmische verteilte Daten vergleichen

Re: Logarithmische verteilte Daten vergleichen

Wer ist online?