Bachelorarbeit - Allg. Fragen Software und Vorgehen

Fragen, die sich auf kein spezielles Verfahren beziehen.

Bachelorarbeit - Allg. Fragen Software und Vorgehen

Beitragvon sportsman » Do 31. Jul 2014, 16:48

Hallo zusammen,

ich schreibe gerade meine Bachelorarbeit zum Thema Zeitreihenanalyse und Verbesserung von Prognosen mit statistischen Methoden. Dabei geht es darum, alternative Prognosemethoden zu finden, die (idealerweise natürlich) bessere Prognosen liefern, als die aktuellen Prognosen via Expertenbefragung.

Ich hatte selbstverständlich Statistik im aktuellen Bachelor-Studium, aber eben inhaltlich auch nur in dem entsprechenden Umfang. Darum hoffe ich, mir hier noch weitere Tipps, Anregungen und Hilfe zu meiner Arbeit holen zu können.

Kommen wir zu den Fakten.
Folgendes liegt vor:

Umsatz-Istdaten für
  • ca. 50 Länder
  • ca. 42 Zeitreihen (Ab 2010, evtl. auch früher (aktuell in Klärung)) je Land

und zusätzlich Prognosen für
  • alle Länder, die auch Ist Daten haben
  • ca. 30 Zeitreihen je Land (2010 monatliche Prognosen, später teilweise nur Prognose für letzten Monat/letzten zwei Monate pro Quartal (also z.B. Feb/Mrz;Mai/Jun;Aug/Sep etc.))

Diese Rohdaten liegen alle in Excel vor (allerdings verschiedene Dateien mit leicht abweichenden Formaten, daher aufbereitung nötig)

Zum geplanten Vorgehen:
Zunächst möchte ich natürlich die Ist-Daten mit den Prognosen (der Expertenbefragung) vergleichen und schauen, wie groß die Prognosefehler pro Land sind. Hierfür wollte ich z.B. auf Kennzahlen wie Mean squared error (MSE), Median absolute deviation (MAD) oder Mean absolute percentage error (MAPE) zurückgreifen und berechnen. Anschließend soll es eine kurze Einführung in Zeitreihen und Prognosen geben. Hier sollen Fragen behandelt werden wie, was ist überhaupt eine Zeitreihe, was für Arten von Zeitreihen gibt es (univariate, multivariate etc.) und auch was für Arten von Prognosen gibt es (quantitative und qualitative Verfahren) mit den jeweiligen Vor- und Nachteilen (allgemeiner Natur). Anschließend möchte ich 4 Verfahren detailliert erläutern:

  • Gleitender Durchschnitt
  • Exponentielle Glättung
  • Lineare Regression
  • Arima (Box-Jenkins)

Im Anschluss daran sollen diese 4 Verfahren auf einen Teil der Zeitreihe angewendet werden und anschließend das Verfahren, welches die besten Prognosen liefert, ausgewählt werden (auch hier mittels MSE/MAD bzw. MAPE). Dies soll anschließend auf den zweiten Teil der Zeitreihe angwendet und dadurch überprüft werden.

Das erst mal zum geplanten Vorgehen. Ist das aus eurer Sicht schlüssig oder seht ihr hier Probleme?

Jetzt zum praktischen Teil, hier hab ich noch einige offene Punkte/Fragen:
Für mich (als Nicht-Statistiker) sind das erstmal sehr viele Daten (mindestens 2100 Ist-Werte, zusätzlich ca. 1500 Prognosewerte und dann natürlich auch die Prognosewerte, welche ich dann über die statistischen Modelle erhalten werde) und ich frage mich, womit bearbeite ich diese Datenmasse am besten? Ich habe über die Universität z.B. die Möglichkeit SPSS 22 günstig zu erwerben (Campuslizenz). Ich habe allerdings noch nie mit dem Programm gearbeitet und müsste mich da wohl erst einarbeiten und die Rohdaten hier reinbekommen. Dann hatte ich überlegt, alles mit Excel zu machen (evtl. mit XLStat als Add-In; 30 Tage Demoversion), da mir zumindest Excel vertraut ist und die Rohdaten bereits in Excel vorliegen. Hier besteht aber natürlich die Gefahr, dass Formeln falsch eingegeben werden etc.
Die zetliche Komponente spielt hier dann auch eine große Rolle (nur noch ca. 6 Wochen Bearbeitungszeit)

Bevor ich jetzt mit weiteren Fragen komme, warte ich erstmal so eure Empfehlungen ab :)

Sofern ihr bis hierher durchgehalten habt, schon mal vielen Dank im Voraus alle Tipps :)

Beste Grüße
Stefan
sportsman
Grünschnabel
Grünschnabel
 
Beiträge: 6
Registriert: Do 31. Jul 2014, 15:39
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Bachelorarbeit - Allg. Fragen Software und Vorgehen

Beitragvon Lukki » Mo 4. Aug 2014, 18:06

Hier ein Link zu verschiedener Statistiksoftware:


http://www.inwt-statistics.de/blog-artikel-lesen/Statistik-Software-R_SAS_SPSS_STATA_im_Vergleich.html


Ich persönlich benutze R! und bin sehr zufrieden damit. Die Einarbeitung kann etwas umständlich sein, letztendlich bietet es aber einen extremen Funktionsumfang, da es mit Packages beliebig erweitert werden kann. Hauptvorteil: Es ist kostenlos! Du kannst dir die neueste Version unter: http://cran.r-project.org/bin/windows/base/ herunterladen. Wenn du eine ansprechende GUI benötigst ist http://www.rstudio.com/ zu empfehlen. In diesem Forum ist auch ein R! Forum verlinkt, da kannst du dich bei Fragen hinwenden.

Ich weiß nicht, ob ihr an der Uni auch Zugang zu ebooks habt. Im Buch "Grundlegende Statistik mit R" von Jürgen Groß ist der Zeitreihenanalyse ein Kapitel gewidmet.


hoffe das hilft dir erstmal bei deiner Entscheidung zur "praktischen" Methodik ;)

beste Grüße,
Lukki
Lukki
Mitglied
Mitglied
 
Beiträge: 27
Registriert: Mo 14. Jul 2014, 09:40
Danke gegeben: 1
Danke bekommen: 2 mal in 2 Posts

Re: Bachelorarbeit - Allg. Fragen Software und Vorgehen

Beitragvon bele » Di 5. Aug 2014, 13:38

Hallo!

Ich will vor allem eine Warnung los werden: Excel ist nicht das richtige Tool für umfangreiche statistische Analysen. 30-Tage-Lizenzen sind nicht das Richtige für Abschlussarbeiten. Wenn viele und ausgefallene Statistiken gerechnet werden sollen, nimm eines der in Lukkis Link verzeichneten Programme. Aus finanziellen Gründen schränkt das die Auswahl wahrscheinlich auf R und SPSS ein. Für SPSS finde ich in den Buchhandlungen meistens mehr Bücher als für R, aber wenn man bei Amazon guckt, dann hat R in den letzten Jahren erfreulich aufgeholt. Zu beiden Programmen findet man auch online viel.

Wenn R, dann empfehle ich dringend die Kombination von R und RStudio, beide kostenlos. Wenn Du ein Forum zu R suchst, dann vergleiche das Schwesterforum von diesem hier mit forum.r-statistik.de . Wo ist mehr Aktivität, wo bleiben die meisten Beiträge unbeantwortet, wie ist die Antwortgeschwindigkeit?

Ein letzter kurzer Hinweis: Wenn Du mit dem Bachelor fertig bist und irgendwann die Uni verlässt, wieviel ist Deine Investition (Einarbeitungszeit) für SPSS dann noch wert und wieviel die für R?

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5771
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1353 mal in 1340 Posts

Re: Bachelorarbeit - Allg. Fragen Software und Vorgehen

Beitragvon DHA3000 » Di 5. Aug 2014, 16:52

Und eine zweite Warnung, da ich ein wenig Erfahrung mit Studenten habe, die sich in der Abschlussarbeit das erste Mal mit der Empirie beschäftigen.

Dein Datensatz ist viel zu groß. Du wirst heillos überfordert mit der Strukturierung und Auswertung der Daten, sowie der Modelle sein. Von einer sinnvollen
Präsentation in der Arbeit hinterher ganz zu schweigen. Diese ist meiner Ansicht garnicht möglich, da du nur univariate Zeitreihenanalyse betreibst.
Abgesehen von der "linearen Regression", was auch immer das in deinem Kontext heißen mag. Oder willst du dir für jede der 30 Zeitreihen ein ökonomisches Modell
ausdenken? Sofern du nicht "Einführung in der Ökonometrie" (o.ä.) gehabt hast, sondern nur Statistik I oder II (o.ä.) dann lass Regressionsmodelle weg.


Vergiss Excel sofort. Von R würde ich erst einmal abstand halten, sofern du es später nicht wieder verwendet. SPSS und Eview bieten sich bei den von dir vorgeschlagenen
Modellen an, da man mit wenigen Klicks resultate sieht. Trotz allerdem musst du ein umfangreichen Datenmanagement vorher betreiben. Die Tatsache, dass du nur noch sechs WOchen hast,
zeigt schon, dass du dich um Zeitmanagement verschätzt hast. Ich empfehle meinen Studenten immer zwei Drittel der Zeit allein für den Empirieteil inklusive der Aufbereitung der
Daten zu investieren. Es bietet sich also erst einmal an, den Datensatz zu reduzieren und vor allem dies mit deinem Betreuer abzusprechen.
DHA3000
Elite
Elite
 
Beiträge: 478
Registriert: So 8. Jul 2012, 15:08
Danke gegeben: 0
Danke bekommen: 62 mal in 62 Posts

Re: Bachelorarbeit - Allg. Fragen Software und Vorgehen

Beitragvon sportsman » Di 5. Aug 2014, 18:58

Hallo zusammen und erstmal Vielen Dank für die Tipps und Hinweise.

Bzgl des praktischen Teils:
Ich hatte mit meinem Betreuer schon gesprochen, dass sofern es zeitlich knapp wird man sich auch alternativ überlegen könnte auf eine andere Aggregationsebene zu gehen (sprich auf Gesamtunternehmenseben und nicht auf Länderbene) oder eine Art 80/20 Ansatz zu verfolgen (sprich nur die Länder, die ca 75-80% des gesamten Umsatzes ausmachen; das wären dann ca 12-15). Gegenüber den ursprünglichen 50 Zeitreihen wäre das natürlich schon eine deutliche verschlankung der eigentlichen Rohdaten und damit auch des Analyseaufwandes. Bzgl der Zeitreihenanalyse selber hatte mein Betreuer keine Präferenz, dies sollte sich an den Zielen der Arbeit orientieren. Ziel der Arbeit ist es zu prüfen, inwiefern statistische Verfahren bessere Prognosen ermitteln, als die Schätzungen der Länder (allerdings immer auf das Gesamte Unternehmen bezogen). Meinerster Ansatz war, dadurch das sich Länder untereinander unterscheiden was z.B. Größe, Vertriebsstruktur (Großhandel, Einzelhandel, Trends, Saisonalität) etc. angeht, müsste ich mir eigentlich die Länder separat anschauen und im Zweifel für jedes Land das beste Verfahren ermitteln um Prognosen zu erstellen. Später hätte man dann natürlich die Prognosen aggregieren müssen um dann eine für das Gesamte Unternehmen zu erhalten. NAtürlich kann man aber auch auf Gesamtunternehmensebene ausweichen und die Analysen direkt auf Basis dieser Zeitreihe macchen

An der eigentlichen Vorgehensweise ändert sich dadurch ja nichts, die Verfahren, die beschrieben werden sollen ändern sich nicht etc.

Also zusammengefasst:
In Abhängigkeit der zur Verfügung stehenden Zeit kann ich eigenständig entscheiden, ob ich einen 80/20 Ansatz wähle oder auf Ebene des Gesamtunternehmens wechsel.

Zur Software:
R als Software hatte ich für mich eigentlich ausgeschlossen, da es wohl komplett über Konsole geht und (zumindest für mich) mehr Programmieren ist. Hier schätze ich die Einarbeitungszeit als relativ hoch an, auch wenn es Bücher und Videos etc im Internet gibt und die Wahrscheinlichkeit, das ich bei Anwendung der Modelle in R nachher einen Fehler mache scheint mir weitaus größer als z.B. mit SPSS.
Eview sagte mir bisher nichts, kann ich aber über unsere Uni auch nicht günstig erwerben. Auf der Herstellerseite kostet eine Studentenversion immer noch 400€. Dann wird es wohl bei SPSS bleiben, da erhalte ich eine Lizenz über die Uni für 25€

Bezogen dann jetzt speziell auf die Analyse mit SPSS:
Haltet ihr z.B. einen 80/20 Ansatz (sprich maximal 15 Zeitreihen á 36 Zeitpunkte) für unrealistisch?

Besten ank im Voraus für weitere Tipps
sportsman
Grünschnabel
Grünschnabel
 
Beiträge: 6
Registriert: Do 31. Jul 2014, 15:39
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Bachelorarbeit - Allg. Fragen Software und Vorgehen

Beitragvon DHA3000 » Di 5. Aug 2014, 22:20

Also, müsste ich deine Arbeit betreuen, würde ich wollen, dass du erst einmal mit dem wichtigsten Land anfängt und exemplarische die Prognosemodelle durchexerzierst. Erstens damit ich ich sehe, dass es überhaupt alles machebar ist und zweitens, damit ich auch sehe, dass es für dich machbar ist und du es auch verstanden hast.

Ich vermute, du wirst einige Ergebnisse bekommen, wenn auch diese Fragestellung mit Panelanaysen besser zu bearbeiten ist.

Evies und/oder SPSS sollten über Campuslizenzen schon längst für dich verfügbar sein. Da musst du nichts für zahlen.
Was mir noch eingefallen ist freie Alternative: GRETL. Ich schlage vor, du denkst nicht weiter nach, was du noch alles tun könntest, sondern fängst Schritt für Schritt an. Es kann hier niemand in dich hineinsehen, daher helfen auch Ratschläge in der hinsicht nicht.
DHA3000
Elite
Elite
 
Beiträge: 478
Registriert: So 8. Jul 2012, 15:08
Danke gegeben: 0
Danke bekommen: 62 mal in 62 Posts

Re: Bachelorarbeit - Allg. Fragen Software und Vorgehen

Beitragvon bele » Mi 6. Aug 2014, 10:01

@sportsman: Ich bin ein leidenschaftlicher Verfechter von R. Sehr leidenschaftlich. Aber wenn Zeitnot ein Thema ist und DHA3000 sagt, dass die von Dir geforderten Modelle darin durch anklicken zu erhalten sind (SPSS ist nicht mehr leichter als R, wenn man auch dort auf die Kommandebene muss), dann nimm SPSS. Hast Du schon geschrieben, ich wollte es als Vertreter der R-Fraktion nur nochmal bestätigen. Mit dieser Entscheidung hat DHA3000 dann auch nicht Unrecht, dass man zwar überlegt an die Auswertung heran geht, aber irgendwann auch einmal anfangen muss. Der längste Weg beginnt bekanntlich mit dem ersten Schritt.

LG,
Bernhard


PS: Und nach der Bachelorarbeit wechsle auf die richtige Seite und lerne R. SCNR.
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5771
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1353 mal in 1340 Posts

Re: Bachelorarbeit - Allg. Fragen Software und Vorgehen

Beitragvon DHA3000 » Mi 6. Aug 2014, 15:36

Hehe, ich bin/war auch ein großer Verfechter von R, bis es mir zu langsam geworden ist.

Aber in diesem Fall kann man die Kirche im Dorf lassen. Die Modelle oben sind ja nun Standardanwendungen und seit zig Jahren in allen möglichen Programmen implementiert.
Wenn man also später damit nicht weiter machen woll, muss man nicht gleich eine ganze Sprache neu erlernen.
Wenn man damit im Master später weiter machen will, empfielt es sich erst einmal die entsprechenden Kurs zu belegen. Denn die "richtigen" Prognosemodelle, sind hier ja noch
garnicht genannt und bedarfen ein wenig mehr Kenntnisse an Ökonometrie.
DHA3000
Elite
Elite
 
Beiträge: 478
Registriert: So 8. Jul 2012, 15:08
Danke gegeben: 0
Danke bekommen: 62 mal in 62 Posts

Re: Bachelorarbeit - Allg. Fragen Software und Vorgehen

Beitragvon bele » Mi 6. Aug 2014, 17:03

DHA3000 hat geschrieben:Hehe, ich bin/war auch ein großer Verfechter von R, bis es mir zu langsam geworden ist.


Hehe, Du weißt aber schon, was für eine Diskussion Du hier los trittst :D . R ist nicht langsam :!: Aufwendige Rechenoperationen erfordern etwas Überlegung, um sie in R schnell zu machen. Naive Anwendung von R kann langsam sein. Auch würde ich die Behauptung zurückweisen, dass man programmieren muss, um in R Statistiken zu rechnen. Man muss Befehle eintippen und man kann Programmieren. Für mich ist das noch nicht dasselbe.

Kann man in SPSS inzwischen auch schnell inline ein paar Funktionen in C++ schreiben, wenn es wirklich schnell werden muss, oder sind die da noch nicht so weit wie R?

Einfache Dinge kann man in SPSS anklicken, komplexere muss man in SPSS programmieren. In R muss man schon für die einfachen Dinge Befehle eintippen und hat so später einen vereinfachten Zugang zum Programmieren. Die Hürde kommt bei R also einfach nur ein bisschen weiter vorne im Prozess. Die OpenSource-Bewegung wäre nicht die OpenSource-Bewegung, wenn man nicht auch für R grafische Oberflächen erfunden hätte, aber auch das ist sicher ein zu großes Fass, um es hier aufzumachen.

Viele Grüße,
Bernhard


PS:
Greg Snow hat geschrieben:When talking about user friendlyness of computer software I like the analogy of cars vs. busses:

Busses are very easy to use, you just need to know which bus to get on, where to get on, and where to get off (and you need to pay your fare). Cars on the other hand require much more work, you need to have some type of map or directions (even if the map is in your head), you need to put gas in every now and then, you need to know the rules of the road (have some type of drivers licence). The big advantage of the car is that it can take you a bunch of places that the bus does not go and it is quicker for some trips that would require transfering between busses.

Using this analogy programs like SPSS are busses, easy to use for the standard things, but very frustrating if you want to do something that is not already preprogrammed.

R is a 4-wheel drive SUV (though environmentally friendly) with a bike on the back, a kayak on top, good walking and running shoes in the pasenger seat, and mountain climbing and spelunking gear in the back.

R can take you anywhere you want to go if you take time to leard how to use the equipment, but that is going to take longer than learning where the bus stops are in SPSS
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5771
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1353 mal in 1340 Posts

folgende User möchten sich bei bele bedanken:
Lukki

Re: Bachelorarbeit - Allg. Fragen Software und Vorgehen

Beitragvon DHA3000 » Do 7. Aug 2014, 02:29

Hehe,

die Diskussion kann man glaube ich dahingehend beenden, als das es jede Fraktion gibt, die ihre Ansichten vertritt. :)
Es bringt ja auch nichts, wenn jeder ein Beispiel postet, wo dann sein Programm am schnellsten ist. ;)

Ich benutze jedenfalls seit kurzem lieber Python, weil es unseren Code schneller umsetzt, als R. Und weil ich es schon
ein paar Mal erlebt habt, dass unsere Bootstrap-Loops R zerschossen haben. Und ich weiß immer noch nicht warum.

Aber egal, Python wäre sowieso etwas zu viel des Guten hier. ;) Ich würde bei solchen Standardanalysen immer ein einfaches Programm nehmen, wenn man noch keine Affinität zur Statistik/Ökonometrie allgemein gebildet hat. Also GRETL! Das eignet sich super zur Heranführung an die Thematik: Später, für den Master, kann man sich sicherlich umfassend mit R auseinander setzen. Davon würde ich auch hier aus zeitlichen Gründen abraten.
DHA3000
Elite
Elite
 
Beiträge: 478
Registriert: So 8. Jul 2012, 15:08
Danke gegeben: 0
Danke bekommen: 62 mal in 62 Posts

Nächste

Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 6 Gäste