STATISTIK-FORUM.de

ALKU · von **ALKU** » Mo 29. Jun 2015, 09:47

Liebe Forenmitglieder,

als Data-Mining-Einsteiger bin ich unsicher bei der Herangehensweise an meine erste Analyse. Konkret handelt sich um einen xls-Datensatz in dem Verkaufsmengen pro Monat zu bestimmten Artikeln erfasst wurden. In der ersten Spalte stehen Artikelnummern ca. 3900 Stck, in den Spalten zwei und drei Merkmale zu den Artikel (Rabattgruppe und Verkaufsgruppe). In den folgenden Spalten sind Verkaufsmengen pro Monat der letzten drei Jahre eingetragen, also 36 Spalten mit den jeweiligen Mengen.
Aufgrund der Menge an Artikeln interessiert mich, ob sich anhand der Verkaufsmengen und Monate Cluster (k-means-Verfahren) bilden lassen, so dass man feststellen kann ob Artikel bestimmter Verkaufsgruppen an bestimmten Monaten im Jahr besonders häufig verkauft werden.

In einer zweiten Analyse wollte ich versuchen die Artikel etwaigen Clustern zu zuordnen. Hier dachte ich an das MLP-Verfahren.

Im dritten Schritt wollte ich prüfen, ob sich für bedeutende Artikel (mit den höchsten Verkaufsmengen) Verbrauchsvorhersagen mittels eines Regressionsmodell (lineare Regression) erstellen lassen.

Mich würde interessieren wie man an diese Aufgabe am geschicktesten herangeht. Als Software stünde beispielsweise RapidMiner zur Verfügung. Ich bin Student und verfolge keinen kommerziellen Ziele.

Vielen Dank für Eure Meinungen.

strukturmarionette · von **strukturmarionette** » Di 30. Jun 2015, 01:18

Hi,

- was ist Deier Auffassung nach unter 'Data-Mining' und 'RapidMiner' zu verstehen?

In einer zweiten Analyse wollte ich versuchen die Artikel etwaigen Clustern zu zuordnen

- das ist ein Ergebnis Deines ersten Schrittes einer Clusteranalyse

Im dritten Schritt wollte ich prüfen, ob sich für bedeutende Artikel (mit den höchsten Verkaufsmengen) Verbrauchsvorhersagen mittels eines Regressionsmodell (lineare Regression) erstellen lassen.

- bei N =3900 mit Verkaufsmengen als Abhängige Variable sicher machbar. Ob die anderen Variablen zur Vorhersage was taugen, kannst Du am besten selber entscheiden

Gruß
S.

folgende User möchten sich bei strukturmarionette bedanken:
ALKU

ALKU · von **ALKU** » Di 30. Jun 2015, 09:59

Hallo Strukturmarionette,

vielen Dank für Deine Rückmeldung. Anbei meine Kommentare.

strukturmarionette hat geschrieben:Hi,

- was ist Deier Auffassung nach unter 'Data-Mining' und 'RapidMiner' zu verstehen?

> RapidMiner Studio ist die Software mit der ich die angesprochenen Analysen durchführen möchte. Data Mining = Prozess der Wissensentdeckung der je nach Autor mehrere Phasen umfasst

In einer zweiten Analyse wollte ich versuchen die Artikel etwaigen Clustern zu zuordnen

- das ist ein Ergebnis Deines ersten Schrittes einer Clusteranalyse

> Verzeihung ich meinte Klassifikation

Im dritten Schritt wollte ich prüfen, ob sich für bedeutende Artikel (mit den höchsten Verkaufsmengen) Verbrauchsvorhersagen mittels eines Regressionsmodell (lineare Regression) erstellen lassen.

- bei N =3900 mit Verkaufsmengen als Abhängige Variable sicher machbar. Ob die anderen Variablen zur Vorhersage was taugen, kannst Du am besten selber entscheiden

Mich hätte interessiert ob du eine Analyse des Datasatzes für sinnvoll erachtest. Ich weiß dass ist vor der Analyse schwer abzuschätzen, vielleicht gibt es aber k.o.-Kriterien bei denen du sagst es wäre sinnvoller anstatt der angesprochenen Verfahren andere zu nutzen oder eine komplett andere Herangehensweise als Alternative.

Bin etwas unsicher da ich bis hierher als Autodidakt mein Glück versuchte.

Vielen Dank für Deine Unterstützung.

strukturmarionette · von **strukturmarionette** » Di 30. Jun 2015, 15:10

Hi,

Mich hätte interessiert ob du eine Analyse des Datasatzes für sinnvoll erachtest.

- Es ist meist üblich, sich hierbei an aktuellen anderen Forschungen zum Thema zu orientieren.
(wie haben die das gemacht?)

- Dann schauen, ob Deine Rohdaten dazu geeignet sind.

Ich weiß dass ist vor der Analyse schwer abzuschätzen

- Schätzungen sind doch Kernpunkte der Befunde aus den Analysen (nachher)

- Ob RapidMiner für hierarchische Clusteranalysen und Regressionsanalysen geeignet ist, kann ich nicht sagen, kenne ich nicht.

Gruß
S.

STATISTIK-FORUM.de

Vorgehensweise Cluster, Klassifikation und Regression

Vorgehensweise Cluster, Klassifikation und Regression

Re: Vorgehensweise Cluster, Klassifikation und Regression

Re: Vorgehensweise Cluster, Klassifikation und Regression

Re: Vorgehensweise Cluster, Klassifikation und Regression

Wer ist online?