Liebe Forenmitglieder,
als Data-Mining-Einsteiger bin ich unsicher bei der Herangehensweise an meine erste Analyse. Konkret handelt sich um einen xls-Datensatz in dem Verkaufsmengen pro Monat zu bestimmten Artikeln erfasst wurden. In der ersten Spalte stehen Artikelnummern ca. 3900 Stck, in den Spalten zwei und drei Merkmale zu den Artikel (Rabattgruppe und Verkaufsgruppe). In den folgenden Spalten sind Verkaufsmengen pro Monat der letzten drei Jahre eingetragen, also 36 Spalten mit den jeweiligen Mengen.
Aufgrund der Menge an Artikeln interessiert mich, ob sich anhand der Verkaufsmengen und Monate Cluster (k-means-Verfahren) bilden lassen, so dass man feststellen kann ob Artikel bestimmter Verkaufsgruppen an bestimmten Monaten im Jahr besonders häufig verkauft werden.
In einer zweiten Analyse wollte ich versuchen die Artikel etwaigen Clustern zu zuordnen. Hier dachte ich an das MLP-Verfahren.
Im dritten Schritt wollte ich prüfen, ob sich für bedeutende Artikel (mit den höchsten Verkaufsmengen) Verbrauchsvorhersagen mittels eines Regressionsmodell (lineare Regression) erstellen lassen.
Mich würde interessieren wie man an diese Aufgabe am geschicktesten herangeht. Als Software stünde beispielsweise RapidMiner zur Verfügung. Ich bin Student und verfolge keinen kommerziellen Ziele.
Vielen Dank für Eure Meinungen.