STATISTIK-FORUM.de

Dexter · von **Dexter** » Mi 25. Jul 2018, 15:52

Moin Leute,

ich bin nicht ganz fit in Statistik und hoffe auf Eure Hilfe! Sorry, wenn meine Fragen "doof" wirken!

Ich habe einen Datensatz aus jährlichen Renditen für 30 Fonds per Kategorie (Large, Mid and Small Cap) und damit insgesamt 90 Fonds. Der zeitraum beträgt 2000 - 2018 (18 Jahre und 6 Monate). Die Renditen habe ich mit Logarithmus naturalis berechnet, da diese stetige Renditen ergibt, die normalverteilt entgegen wirken sollen. Für einen parametrischen Test müssen die Daten ja n => 30 sein, damit eine Normalverteilung angenommen wird. Die stetigen Renditen sollten ja normalverteilt (habe den Kolmogorov-Smirnoff-Test und Shapiro-Wilk-Test noch nicht gemacht). Zudem habe ich zu jeder Kategorie eine Benchmark (ein Markt-Index) mit jährlichen stetigen Renditen (2000 - Mitte 2018). Ich habe nsgesamt 3 Benchmarks (BM), wobei pro Fond-Kategorie eine BM zugeordnet wird. Jede BM hat 18,5 Jahre jährliche Renditen.

Kurze Zusammenfassung zu meinen Daten:
30 Fonds pro Kategorie, es gibt drei kategorien (Large Cap, Mid Cap und Small Cap) --> Zeitraum von 18,5 Jahren und für jedes Jahr wird eine jährliche stetige Rendite pro Fond berechnet
3 Benchmarks, 1 BM pro Fond-Kategorie --> Zeitraum von 18,5 Jahren und für jedes Jahr wird eine jährliche stetige Rendite pro BM berechnet

ZWISCHENFRAGE:
Wäre es statistisch korrekt, wenn ich für 2017 jeden Excess-Return der Fonds nehme und daraus den Durchschnitt bilde? Dann hätte ich 18 Durchschnittswerte (Fonds stetige Excess-Renditen) für Fonds und 18 Werte für die BM (keine Durchschnittswerte, lediglich stetige Excess-Renditen der BM). Oder ist dieser Ansatz total falsch?

Mein Ziel:
Ich möchte diese gesammelten Daten auf Signifikanz testen, ob Fonds pro Kategorie die BM outperformen UND ob alle drei Fond-Kategorien die 3 BM outperformen (die Unterschiede im Mittel signifikant sind). Ich habe für jedes Jahr zusätzlich die Fond und BM-Renditen gegeneinander gerechnet, sodass ich einen Excess Return (Rendite[Fond]-Rendite[BM]-risikoloserZins=Outperformance oder Underperformance) erhalte. Ich hänge eine Beispiel-Excel an.

Mein Problem:
Ich bin ganz neu bei SPSS und finde lediglich ganz einfache Beispiele zum ANOVA-Test und kann das auf meinen Datensatz nicht übertragen.

Ich habe:
Fonds pro Gruppe --> n =30
Fonds insgesamt --> n = 90
BM pro Gruppe --> n = 1
BM insgesamt --> n = 3
Jahre pro Fond / BM --> n = 19 (18 Jahre + 0,5 Jahr --> eventuell entferne ich die 0,5 Jahre, weil das was halbes ist und mit den ganzen Jahren schwer vergleichbar ist)

Meine Verwirrung:
Handelt es sich um einen parametrischen oder nicht-parametrischen Test? Ist meine Ausgangsbasis die Jahreszahlen (also 18 Jahre [ohne die 0,5 Jahre] und damit n = 18) Die stetigen Renditen pro Fond = 18, Renditen für 30 Fonds = 30 * 18 = 540 Werte --> Aber denke ich hier richtig oder ist das statistisch gesehen totaler Unsinn? Was mache ich mit den 3 BM, wie kann ich diese "korrekt" integrieren in den Datensatz?

Ich habe die Daten in einer Exceltabelle (die Daten für die Fonds und die BM sind auf Tagesbasis vorhanden, woraus die stetigen jährlichen Renditen berechnet wurden), wenn ich einer die Daten angucken möchte. Zudem weiss ich nicht, wie ich die oeben beschriebenen Daten in SPSS richtig anordnen soll (welche Daten kommen in Spalten und welche in Zeilen?), damit es zu einer korrekten Auswertung kommt. Kann oder soll ich eventuell die Jahresangaben wegelassen bei dieser Analyse?

Solltet Ihr Rückfragen haben oder etwas unklar sein, gebt mir gerne Bescheid! Ich danke vielmals für Eure Hilfe!!! Ich habe zwar mal 1 Statistikvorlesung besucht, aber ein Semester ist nicht viel bei so einem umfangreichen und wichtigem Thema!

Viele Grüße,

Dexter

PonderStibbons · von **PonderStibbons** » Do 26. Jul 2018, 10:30

Wenn ich es richtig verstehe, hast Du n=90 Fonds, in 3 Gruppen aufgeteilt, zu jedem Fond 18 Messwerte (Differenz zur jeweiligen Benchmark). Klassisch wäre das eine "gemischte" Varianzanalyse mit einem Messwiederholungsfaktor "Messzeitpunkt" (18 Stufen) und dem Zwischensubjektfaktor "Kategorie" (3 Stufen). In einem Spreadsheet wären es 90 Zeilen und 20 Spalten (Fonds-Id, Kategoriezugehörigkeit, Messwerte 1 bis 18).

Für einen parametrischen Test müssen die Daten ja n => 30 sein, damit eine Normalverteilung angenommen wird.

Eine nichtnormale Verteilung verwandelt sich nicht wundersamerweise in eine normale, wenn die Stichprobe von 29 auf 30 erhöht wird. Aber ab ca. 30 kann man das Problem der Normalverteilung (der Werte innerhalb der einzelnen Gruppen zu dem jeweiligen Messzeitpunkt) in Hinsicht auf den F-Test der Varianzanalyse weitgehend ignorieren.

Mit freundlichen Grüßen

PonderStibbons

Dexter · von **Dexter** » Sa 28. Jul 2018, 10:55

Danke für Deine Antwort!

Ich konnte Dir nicht ganz folgen, weil ich nicht sehr fit in Statistik bin. Messwiederholung und 18-Stufen klang logisch, kann ich aber nicht nachvollziehen. Ich nutze SPSS, bin aber auch da völliger Anfänger (mit YouTube kann man aber schon einiges machen).

Ich möchte die Daten auf Signifikanz testen (Hypothesentests) zwischen den Fonds und nur EINER Benchmark. Einmal will ich 30 Fonds gegen 1 Benchmarks testen (pro Gruppe) und einmal Will ich die drei Gruppen untereinander testen.

Meine Daten sind nicht normalverteilt (mit SPSS getestet), also nicht-parametrischer Test. Kann ich 18 Benchmarkwerte mit 30 Fond-Werte über 18 Jahre denn auf Signifikanz testen? Müsste ich die Daten für die Fonds aggregieren, das heißt, soll ich die 30 Datensätze (Renditen) der Fonds addieren und daraus einen Durchschnitt berechnen? Denn damit könnte ich aus 30 Fonds (30*18 = 540 Datensätze) auf 18 Datensätze runter aggregieren. Oder wäre das totaler Blödsinn?

Viele Grüße!

PonderStibbons · von **PonderStibbons** » Sa 28. Jul 2018, 14:46

Normalverteilte Daten sind bei Varianzanalysen unerheblich. Allenfalls die Werte innerhalb der einzelnen Gruppen zu den einzelnen Zeitpunkten sollten aus normalverteilten Populationen stammen. Bei n (Gesamt) größer 30 sind Varianzanalysen aber robust gehe Verstöße gegen diese Annahme. Insofern erscheint Messwiederholungs- oder welche Varianzanalyse auch immer als durchführbar. Warum Du aggregieren willst, habe ich leider nicht verstanden.

Mit freundlichen Grüßen

Ponderstibbons

Dexter · von **Dexter** » Sa 28. Jul 2018, 18:29

Also, ich denke ein Mann-Whitney-U-Test ist das Richtige hier, denn die Daten sind nicht normaleverteilt (Schiefe: linksschief; Kurtosis: positiver Wert). Aber kann ich 540 Fonds-Werte gegen 18 Benchmark-Werte auf Signifikanz testen oder müssen beide Gruppen eine ähnliche Anzahl haben: also 18 Werte für Fonds (gruppiert?) und 18 Werte für die Benchmark. Dann Mann-Whitney-U-Test drüber laufen lassen und fertig!? Ich habe das Problem, da die Fond-Werte die Benchmark-Werte bei weitem überwiegen. Ich weiß nicht, wie ich hier richtig vorgehen soll. Wüsste auch nicht, ob ich dazu zwei Variablen in SPSS eingeben mit Fonds (540 Werte) und Benchmark (18 Werte) und dann den mann-Whitney-U durchführe?!

Und wenn nur eine Variable nicht-normalverteilt ist, dann handelt es sich ja direkt um einen nicht-parametrischen Test, korrekt?

Gerne erstelle ich eine SPSS-Datei, wenn Du mich beim Druchführen des Tests unterstützen kannst!?

Danke für Deine Antowrten, PonderStibbons!

STATISTIK-FORUM.de

Ist ANOVA der richtige Test für mich?

Ist ANOVA der richtige Test für mich?

Re: Ist ANOVA der richtige Test für mich?

Re: Ist ANOVA der richtige Test für mich?

Re: Ist ANOVA der richtige Test für mich?

Re: Ist ANOVA der richtige Test für mich?

Wer ist online?