STATISTIK-FORUM.de

Chris07 · von **Chris07** » So 17. Jun 2018, 12:58

Hallo liebes Statistik-Forum,
ich sitze zur Zeit an einer Datenanalyse für meine Bachelorarbeit. Leider weiß nicht wohin ich noch mit meinen Fragen gehen soll, weshalb ich mich an euch wende.
Der letzte Statistik-Kurs ist leider auch schon einige Semester her und eine Datenanalyse habe ich noch nie durchgeführt. Ich würde einfach mal mein Problem hier darlegen und vielleicht findet sich ja jemand der sich meinem Problem annehmen könnte.

Zu meinem Datensatz:
Er enthält ca. 8700 Y-Variablen und ca. 6.3 Millionen Beobachtungen in diesen Y-Variablen. Insgesamt liegen 12 X-Variablen vor. Die Y-Variablen sind verschiedene Computerspiele, die in einem Zeitraum von 2015-2018 gemessen wurde, also zu jedem Tag gibt es Beobachtungen zu den 12 X-Variablen. Mein erster Gedanke war, dass der Datensatz eine Zeitreihe ist. Aber das ist Problematisch, da einige Spiele (Y-Variablen) z.B. nur in einem Zeitraum von 2016-2018 gemessen wurden. Das bedeutet, dass die verschiedenen Spiele unterschiedliche Zeiträume der Messung haben.

Aufgabe ist es einen Effekt von Updates auf das Verhalten von Spielern nachzuweisen. Dabei habe ich verschiedenen X-Variablen, wie z.B. die durchschn. Spielzeit eines Users, die Median Spielzeit eines Users, die täglichen Spieler, die Gesamtanzahl der Besitzer dieses Spiels und die Pos/Neg-Bewertung dieses Spiels an diesem Tag. In meinen Augen ist die wichtigste X-Variable die, in der die Größe des Updates (in Bytes) steht. Mein Prof. sagte zu mir, ich soll den Datensatz in eine Dummy Variable umformen und versuchen verschiedene Spiele in 2 Gruppen zu sortieren. Besonderen Wert legt er anscheinend auf die Update-Größe und auf die Anzahl der Updates eines Spieles.
Meine Frage dazu: Ist es möglich einen Zeitreihendatensatz so zu gruppieren, dass man eine Gruppe mit der dummy Variablen 0=Spiele mit großen Updates und 1=Spiele mit kleinen Updates erhält?
Wenn ich meinen Prof. richtig verstanden habe möchte er eher weniger ein Zeitreihenmodell.

Ich hoffe ihr könnt mein Problem verstehen bzw. mir Tipps geben wir ich diesen riesigen Datensatz bändigen kann und auf verwertbare Ergebnisse komme.
Falls ihr noch spezifischere Infos braucht sagt bitte bescheid, ich versuche mein Bestes.

Danke und viele Grüße
Chris

strukturmarionette · von **strukturmarionette** » So 17. Jun 2018, 13:43

Hi,

ich sitze zur Zeit an einer Datenanalyse für meine Bachelorarbeit.

- Thema, Fragestellungen, Hypothesen

riesigen Datensatz bändigen

- ?

verwertbare Ergebnisse

- ohne siehe oben nix zu machen

Gruß
S.

Chris07 · von **Chris07** » So 17. Jun 2018, 16:52

Hallo,
danke für die schnelle Antwort.

- Thema, Fragestellungen, Hypothesen

- Thema: der Effekt von Updates auf das Nutzungsverhalten von Usern.
- Mögliche Fragestellung/Hypothesen sind:
a) Große Updates erhöht die durchschn. Spielzeit...die median Spielzeit..die Pos/Neg-Bewertung des Spiels etc.
b) Kleine Updates erhöht die durchschn. Spielzeit...die median Spielzeit..die Pos/Neg-Bewertung des Spiels etc. nicht
c) Große Anzahl Updates erhöht die durchschn. Spielzeit...die median Spielzeit..die Pos/Neg-Bewertung des Spiels etc.
d)Kleine Anzahl Updates erhöht die durchschn. Spielzeit...die median Spielzeit..die Pos/Neg-Bewertung des Spiels etc. nicht

Problem dabei: Als Variable für die Updates hat man nur die Größe der Updates angegeben in Bytes.

riesigen Datensatz bändigen

Naja es sind 6,3 Millionen Observations bei ca. 8700 Y-Variablen und 12 X-Variablen

verwertbare Ergebnisse

Ob ihr mir Hilfe/Tipps geben könnt, wie ich mit den gegebenen Daten einen Ansatz finde, um Hypothesen nachweisen zu können.
Langt es zum Beispiel einfach die Mittelwerte pro Spiel für die verschiedenen Variablen (tägliche Spielerzahl, durchschn. Spielzeit, median Spielzeit etc.) zu berechnen und mit Hilfe einer Regression den Einfluss von der Update-Frequenz und der Update-Anzahl auf den Mittelwert von tägliche Spielerzahl, durchschn. Spielzeit, median Spielzeit etc. über alle Apps nachzuweisen. (Das somit die zeitliche Struktur vernachlässigt wird und nur Apps im Mittel z.B. mehr Spieler haben wenn sie mehr Updates bekommen). Wäre ein solche Ansatz für eine Bachelorarbeit zu einfach?

Sorry für diese Informationsflut und schon mal vielen Dank!
Gruß
Chris

STATISTIK-FORUM.de

Auswahl des geeigneten Modells bei Zeitreihendatensatz

Auswahl des geeigneten Modells bei Zeitreihendatensatz

Re: Auswahl des geeigneten Modells bei Zeitreihendatensatz

Re: Auswahl des geeigneten Modells bei Zeitreihendatensatz

Wer ist online?