Stichprobenziehung bei Datensätzen

Fragen zur Planung einer Untersuchung oder eines Projekts.

Stichprobenziehung bei Datensätzen

Beitragvon Kaiser » Do 5. Okt 2017, 20:31

Hi,

ich bin gerade mit einem Text-Mining-Projekt beschäftigt und habe eine Frage zur Stichprobenziehung. Bei dem Projekt geht es um eine automatisierte Inhaltsanalyse, die mit einem Amazon-Datensatz durchgeführt wird. Über einen Zeitraum von Mai 1996 bis Juni 2014 wurden die gesamten Kundenreviews (142.8 Millionen) von Amazon extrahiert. Der Datensatz enthält Reviews und Produktmetadaten. Insgesamt sind 24 Produktkategorien mit unterschiedlicher Fallzahl enthalten. Auch wenn es sich um Text-Mining handelt, ist es unmöglich den gesamten Datensatz zu bearbeiten.
Meine Frage ist, wie man bei der Stichprobenziehung vorgeht, um möglichst generalisierbare Schlüsse ziehen zu können? Meine Idee war eine geschichtete Stichprobe zu ziehen, wobei die Produktkategorien die einzelnen Schichten darstellen würden. Das Konfidenzintervall habe ich auf 95% und den Standardfehler auf 5% festgelegt. Wenn man es so machen würde, wäre der Gesamtaufwand noch vertretbar. Allerdings stellt der Datensatz nicht die Grundgesamtheit dar, sondern der ist ja ebenfalls nur eine Stichprobe. Hat jemand vielleicht ne Idee wie man da vorgehen könnte?
Kaiser
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Mi 23. Mai 2012, 14:57
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Stichprobenziehung bei Datensätzen

Beitragvon strukturmarionette » Do 5. Okt 2017, 23:19

Hi,

Meine Frage ist, wie man bei der Stichprobenziehung vorgeht, um möglichst generalisierbare Schlüsse ziehen zu können?

- einfache Zufallsstichprobe

Das Konfidenzintervall habe ich auf 95%

- worum geht es denn? Thema? Fragestellungen?

Standardfehler auf 5% festgelegt

- Googlo?

Allerdings stellt der Datensatz nicht die Grundgesamtheit dar, sondern der ist ja ebenfalls nur eine Stichprobe

- s.o.

Gruß
S.
strukturmarionette
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 4313
Registriert: Fr 17. Jun 2011, 22:15
Danke gegeben: 32
Danke bekommen: 582 mal in 579 Posts

Re: Stichprobenziehung bei Datensätzen

Beitragvon Kaiser » Fr 6. Okt 2017, 21:16

Hi,

danke für die Antwort.
Ziel der Studie ist die Customer Experience der Kunden zu ermitteln und diese in Bezug zur Kundenzufriedenheit zu setzten. Customer Experience ist vereinfacht gesagt die Gesamterfahrung mit einem Produkt und lässt sich anhand von sechs Dimensionen bestimmen. Dabei wird nicht nur das Auftreten, sonderen auch die Valenz und Qualität bestimmt. Dies ist mit einer 3-Stufingen Skalierung geaplant (0 = wertneutral, 1 = positiv, - 1 = negativ, NA = Nicht vorhanden). Kundenzufriedenheit wird anhand der Bewertungen/Rating der Produkte operationalisiert. Das Ganze basiert auf einer automatisierten Inhaltsanalyse mit einem navive bayes Klassifikator.

VG
Kaiser
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Mi 23. Mai 2012, 14:57
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post


Zurück zu Versuchsplanung

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast