STATISTIK-FORUM.de

Nadinee · von **Nadinee** » Di 18. Jan 2022, 13:37

Hallo,

ich bin ganz neu und habe zuvor noch nie etwas statistisches gemacht. Ich hoffe ich kann hier einfach dieses Frage stellen. Ich verzweifel seit mehreren Wochen an meiner Abschlussarbeit. Ich habe verschiedene Datenreihen die ich statistisch auswerten möchte um ZUsammnhänge zwischen den verschiedenen Daten zu quantifizieren. Ich habe einmal Vulkanausbrüche also deren Ausbruchsalter, Stress in der Lithosphäre über die Zeit und eine Elementverteilung über die Zeit. Hier möchte ich jetzt eigentlich bloß herausfinden ob sie sich gegenseitig bedingen. Bei den Vulkanausbrüchen stehe ich vor der Herausforderungen, dass sie mir ja keinen echten Zahlenwert geben sondern nur eine Zeit. Ich habe versucht das zu umgehen in dem einen Index daraus gemacht habe also wie viele Ausbrüche über eine gewisse Zeit passiert sind. Leider haben auch alle meine Datenreihen unterschiedliche Zeitschritte, die Datenreihe mit dem Stress hat sehr unregelmässige Zeitschritte. Ich muss wahrscheinlich aber für alle Daten gleiche Zeitschritte haben um die vergleichbar zu machen oder? Ich wäre wirklich über jeden Tipp unglaublich dankbar. Manchmal reicht ja ein kleiner Schubs in die richtige Richtung.

Ganz liebe Grüße,
Nadine

bele · von **bele** » Di 18. Jan 2022, 13:50

Hallo Nadine,

da wären zwei Fragen zu klären. Erstens die nach der Dir vertrauten Software. Es bringt ja nun nicht viel, wenn Dir einer sagt, wie man das in Python programmieren kann, Du aber eine Statistik in SPSS rechnen möchtest.
Zweitens, und vorrangig, gilt es sachwissenschaftliche Erkenntnisse zu berücksichtigen, was also inhaltlich eine sinnvolle Herangehensweise wäre. Man könnte ja beispielsweise zu jedem Zeitpunkt, an dem eine Stress-Messung vorliegt berechnen, wie viele Ausbrüche es in den folgenden 14 Tagen gegeben hat oder wieviele in Minuten es bis zum nächsten Ausbruch gedauert hat. Ob eine Statistik der letzten 14 Tage sinnvoll ist oder eine auf Minutenebene, das kann Dir keiner von uns raten. Dazu wird man wohl jemanden brauchen, der was von Vulkanen und Lithostress versteht.
Drittens (ja ich weiß, das ist eine mehr als zwei) stellt sich die Frage nach den Restriktionen. Du betitelst den Beitrag "Korrelationen" und bei einer Korrelationsrechnung muss man sehr genau vorgeben, welcher Wert mit welchem anderen verknüpft werden soll. Es gibt aber auch Verfahren des Maschinenlernens, da wirft man ganz viele Daten hinein und der Algorithmus sucht sich heraus, was passt. Beispiele wären randomForests oder Neuronale Netze. Korrelationen kann man schon mit zehn Beobachtungen rechnen, für den randomForests sind wahrscheinlich hunderte besser und für Neuronale Netze können es kaum je genug sein. Eine grobe Einschätzung, wieviele Daten zur Verfügung stehen, bis zu welchen statistischen Verfahren Du im Studium gekommen bist und wieviel Zeit und Lust Du hast, Dich in was neues einzuarbeiten wäre auch nicht ganz verkehrt.

LG,
Bernhard

folgende User möchten sich bei bele bedanken:
Nadinee

strukturmarionette · von **strukturmarionette** » Di 18. Jan 2022, 15:45

Hi,

- du könntest zunächst drei Korrelationen berechnen
- Variable a mit b und Var b mit c und Var a mit c

Gruß
S.

folgende User möchten sich bei strukturmarionette bedanken:
Nadinee

Nadinee · von **Nadinee** » Mi 19. Jan 2022, 11:30

Vielen Dank für euer Antworten!
Also ich versuche mal die Fragen nach einander zu beantworten.
Zur ersten Frage ich arbeite gerade mit Python über Jupiterlab. Damit hatte ich vorher auch nichts zutun aber ich versuche mir das gerade beizubringen.
Dann zu zweiterns, da liegt eigentlich ein großer Teil des Problems. Ich habe nur sehr weniger Ausbruchsdaten über den Zeitraum von 200000 Jahre nur 23, wobei der größte Teil in den vergangenen 25000 Jahren liegt und diese Verteilung wahrscheinlich aufgrund von besserer Nachweisbarkeit der aktuellen VUlkane, nicht im Ansatz der Wahrheit entspricht. Gibt es da eine Methode wie man dieses Wissen mit einbeziehen kann?
Stress und nennen wir es mal Temperatur habe ich im grob 2000 Jahres Abschnitt und komme da auch 96 Daten. Muss ich um das vergleichen zu können gleich viele Daten in allen Datenreihen haben? Sind das zu wenige Daten um Verfahren des Maschinenlernens zu nutzen?

LG,
Nadine

bele · von **bele** » Mi 19. Jan 2022, 16:23

Hallo Nadinee,

Nadinee hat geschrieben:Zur ersten Frage ich arbeite gerade mit Python über Jupiterlab. Damit hatte ich vorher auch nichts zutun aber ich versuche mir das gerade beizubringen.

Das Gute daran ist, dass Dir von der Software keine Grenzen gesetzt werden. Mit Python geht alles. Du kannst scikit-learn verwenden, PyStan oder selbst was programmieren. The sky is the limit. Dafür wird die Lernkurve etwas steiler sein als in einer Software, in der Du einfach Datenreihen anklickst. Das andere Problem ist, dass Du hier im Forum zur Umsetzung mit Python nicht viel Unterstützung erwarten solltest. https://www.python-forum.de/ war mal ein sehr gut funktionierendes, freundliches Forum mit viel Know-how. Da ich seit vielen Jahren kein Python mehr genutzt habe, kann ich nicht berichten, ob das heute noch so ist.

Stress und nennen wir es mal Temperatur habe ich im grob 2000 Jahres Abschnitt und komme da auch 96 Daten

Ich bin nicht sicher, ob ich das verstehe. Es gibt 96 Werte, die jeweils einen Zeitraum von 2000 Jahren beschreiben und so kommen wir dann auf die etwa 200000 Jahre, aus denen Daten vorliegen?

Muss ich um das vergleichen zu können gleich viele Daten in allen Datenreihen haben?

Das verstehe ich nicht.

Sind das zu wenige Daten um Verfahren des Maschinenlernens zu nutzen?

Nein, das wäre falsch. Aber es sind definitiv zu wenige, um dem Computer alle Freiheiten zu geben und ihn einfach mal frei assoziieren zu lassen, wonach man suchen könnte. Stattdessen musst Du eine hinreichend einfache, zugleich aber auch geologisch sinnhafte Struktur vorgeben. Ein Arzt für schwerhörige Kinder im Internet der Granit kaum von Quartz unterscheiden kann, könnte sich das so denken:

Wir haben 23 Ereignisse, und weil das nicht viele sind, kann man ohne große Python-Programmierung händisch nachschauen, was der letzte vor jedem Ereignis gemessene Stress und der letzte vor jedem Ereignis gemessene Temperatur ist. Dann können wir entweder 23 oder 46 oder so Zeitpunkte auswürfeln, an denen es möglichst sicher nicht zu einem Ereignis gekommen ist. Für die suchen wir auch wieder den zuletzt davor gemessenen Stress und die letzte davor gemessene Temperatur und schreiben das alles in eine Tabelle. Dann nimmt man beispielsweise eine logistische Regression (oder einen randomForest, beide sind in scikit-learn als Classifier verfügbar) und versucht, aus Stress und Temperatur vorherzusagen, ob es sich um einen Eintrag mit oder ohne Ausbruch handelt.

...wobei der größte Teil in den vergangenen 25000 Jahren liegt und diese Verteilung wahrscheinlich aufgrund von besserer Nachweisbarkeit der aktuellen VUlkane, nicht im Ansatz der Wahrheit entspricht. Gibt es da eine Methode wie man dieses Wissen mit einbeziehen kann?

Dann muss man erstens überlegen, ob man vielleicht nur die letzten 25.000 Jahre untersucht. Kommt halt drauf an, ob das von der Fragestellung her akzeptabel ist und ob genügend Datensätze übrigbleiben. Sonst könnte ich mir vorstellen, dass man eine zusätzliche Spalte in die Tabelle mit den Ereignissen und den Nicht-Ereignissen macht, in der eine 0 für Daten älter als 25.000 und eine 1 für Daten jünger als 25.000. Wenn man die als Prädiktor mit in das logistische Modell aufnimmt kann das Modell für jüngere Daten eine höhere Prävalenz modellieren als für alte. Vielleicht macht auch die Stufe bei 25.000 keinen Sinn und man überlegt sich irgendeine andere Variable die geologisch begründet ein Maß für den Einfluss des Alters abbildet. Oder man geht alles ganz anders an

Das muss alles nicht perfekt sein, aber dennoch geologisch gut durchdacht.

Ich hoffe, ich konnte Dir etwas helfen,
LG,
Bernhard

STATISTIK-FORUM.de

Korrelationen zwischen verschiedenen Datenreihen

Korrelationen zwischen verschiedenen Datenreihen

Re: Korrelationen zwischen verschiedenen Datenreihen

Re: Korrelationen zwischen verschiedenen Datenreihen

Re: Korrelationen zwischen verschiedenen Datenreihen

Re: Korrelationen zwischen verschiedenen Datenreihen

Wer ist online?