STATISTIK-FORUM.de

Cellschock · von **Cellschock** » Mo 15. Mär 2021, 10:49

Hallo zusammen,

ich habe mehrere Fragen an euch, aber erst mal erkläre ich euch mein Problem: Ich habe ein Pulver, was ich mit einer Bindemittellösung zu einem größeren Granulat agglomeriere. Ich werte nach der Partikelgröße aus, wie stark sie angewachsen ist. Dazu habe ich einen statistischen Versuchsplan erstellt auf 2 Stufen - ich nutze ein kommerzielles Programm (Design Expert). Bereits während der Versuche habe ich festgestellt, dass je nachdem welche Prozessparameter angewendet werden, eine starke Agglomeration eintreten kann, aber auch überhaupt keine Agglomeration auftritt und das Pulver annähernd seine Anfangsgröße behält.

Frage 1) Nach meinem Verständnis wird bei der Varianzanalyse (ANOVA) ein F-Test durchgeführt, der von einer Normalverteilung ausgeht oder?

Ich habe meine Partikelgrößendaten spaßeshalber mal in Matlab eingegeben, ein Histogramm erstellt und mit Jarque-Bera- und Lilliefors-Test auf Normalverteilung getestet. Das Histogramm zeigt eine Schulter nach rechts an, nach links hin hört die Kurve schlagartig auf (unzwar genau dann, wenn gar nicht agglomeriert wurde und die Partikelgröße konstant geblieben ist). Beide Tests auf Normalverteilung zeigen erwartungsgemäß an, dass keine Normalverteilung vorliegt. Das ergibt auch durchaus Sinn für mich.

Ich möchte dennoch mit dem statistischen Versuchsplan nach dem Partikelgrößenzuwachs auswerten.

Frage 2) Wenn ich keine Normalverteilung habe, kann ich dann überhaupt eine ANOVA machen?

Ich habe diese Annahmen einer Normalverteilung einfach mal ignoriert und die ANOVA durchführen lassen. Man wird gewissermaßen durch das Programm durch die verschiedenen Phasen geleitet.

1. Als erstes soll man sein Modell wählen (z.B. Linear, Berücksichtigung von 2-fach Wechselwirkungen, quadratische Effekte etc.). Logischerweise kann ich bei einem 2-stufigem Versuchsplan nicht auf quadratische Effekte testen. Der Plan ist so konstruiert, dass Haupteffekte mit 3-fach Wechselwirkungen vermengt sind und 2-fach Wechselwirkungen miteinander vermengt sind. Ich habe ausgewählt, dass ich nur Haupteffekte betrachten will.
2. Als nächstes wählt das Programm signifikante Variablen aus. Ich habe angegeben, dass es das nach dem Akaike-Kriterium (rückwärts) machen soll. Ich hätte aber genauso gut auch nach p-Wert auswählen können. Von meinen ursprünglich 9 Parametern bleiben noch 5 übrig (diese besitzen alle einen p-Wert von unter 0,05).
3. Nun kann ich mir die Ergebnisse der ANOVA anzeigen lassen. Mein Modell ist signifikant mit einem p-Wert von unter 0,05 und ich habe ein R² von etwa 0,78. Meines Wissens nach kann ich also 78% der Streuung mit den ausgewählten Variablen erklären.
4. Der nächste Reiter zeigt ein paar weitere Tests an. Ich habe es mal als Bild unter folgendem Link angehangen:
https://ibb.co/C888XvC
Im ersten Bild ist eine leichte S-Kurve zu sehen. Ich finde aber nach dem "Fat-Pencil-Test" sieht es eigentlich gar nicht so dramatisch aus. Im nächsten Bild werden mir die Residuen angezeigt. Würde ich es mit meiner geringen Erfahrung beurteilen, hätte ich gesagt, dass es eigentlich auch ganz ok aussieht. Vielleicht sind die Residuen ganz links und ganz rechts etwas hoch und somit ganz leicht ungleich verteilt. Bis hier hin habe ich eine ANOVA auch schon mal analog mit Musterdaten durchgeführt. Als nächstes Bild folgt aber die Darstellung des Box-Cox-Plots, die ich selber noch nie durchgeführt habe. Ok, scheinbar sagt mir dieser Plot, ob ich transformieren soll oder nicht. Und in meinem speziellen Fall schlägt er eine inverse square root Transformation vor. Nach etwas Recherche stelle ich fest, dass man diese Transformation durchführen kann, wenn die Residuen etwas Trichterförmig aussehen - mit etwas Fantasie ist das bei mir vielleicht auch der Fall (wobei rein optisch finde ich die Verteilung meiner Residuen eigentlich nicht so schlimm).
5.) Ich gehe also wieder an den Anfang zurück und kann über das Programm auswählen, dass es meine Daten automatisch transformiert mit der inverse square root Transformation. Das Spiel beginnt von vorn, ich wähle das Modell aus (linear -> nur Haupteffekte) und es bleiben dieses Mal nur noch 3 von 9 Parametern als signifikant übrig (p-Wert unter 0,05). Die Ergebnisse der ANOVA zeigen mir, dass mein Modell immer noch hochsignifikant ist und dieses Mal ist mein R² sogar bei 0,8. Die Tests auf Normalverteilung, Residuen und Box-Cox-Plot habe ich wieder angehangen als Bild.
https://ibb.co/cXsXmc0
Insgesamt sehen alle Diagramme leicht besser aus und beim Box-Cox-Plot wird mir auch keine Transformation mehr vorgeschlagen. Eigentlich könnte ich zufrieden sein, aber ich bin mir unsicher. Meine weiteren Fragen:

Frage 3) Ist dieses grundsätzliche Vorgehen erst mal in Ordnung, wenn man jetzt davon ausgehen würde, dass meine Daten normalverteilt sind?

Frage 4) Macht es Sinn, meine Daten zu transformieren, auch wenn die Residuenverteilung und Normalverteilung so schlecht gar nicht aussehen? Würdet ihr in diesem speziellen Fall transformieren?

Frage 5) Macht es überhaupt Sinn, meine Daten durch Transformation einer Normalverteilung anzugleichen, obwohl ich ja weiß, dass rein logisch/physikalisch gar keine Normalverteilung meiner Daten vorliegen kann? Oder macht es vielleicht gerade dadurch Sinn?

Frage 6) Was haltet ihr von diesem Box-Cox-Test?

Danke Euch schon mal!
Grüße
Marcel

PonderStibbons · von **PonderStibbons** » Mo 15. Mär 2021, 11:25

Frage 1) Nach meinem Verständnis wird bei der Varianzanalyse (ANOVA) ein F-Test durchgeführt, der von einer Normalverteilung ausgeht oder?

Nein. Wer hat dich derart fehlinformiert?

Varianzanalysen gehen nicht davon aus, dass die abhängige Variable in der Grundgesamtheit normalverteilt ist.
Die traditionelle Formulierung lautet, dass sie in jeder der betrachteten Gruppen in der Grundgesamtheit
normalverteilt ist. Die bessere Formulierung lautet, die Vorhersagefehler (Residuen) des Modells sind normalverteilt
(in der Grundgesamtheit). Allerdings ist auch diese Voraussetzung entbehrlich, wenn die Gesamtstichprobe ausreichend
groß ist. Ab ca. n > 30 ist eine Varianzanalyse auch gegen nicht-normalverteilte Residuen robust (zentraler
Grenzwertsatz).

Den Rest kann ich leider nicht nachvollziehen, da ich eine klare Fragestellung nicht erkennen kann, das
Untersuchungsdesign dementsprechend leider nicht verstehe und daher auch nicht die Analyse.

Mit freundlichen Grüßen

PonderStibbons

folgende User möchten sich bei PonderStibbons bedanken:
Cellschock

Cellschock · von **Cellschock** » Mo 15. Mär 2021, 17:32

PonderStibbons hat geschrieben:
Frage 1) Nach meinem Verständnis wird bei der Varianzanalyse (ANOVA) ein F-Test durchgeführt, der von einer Normalverteilung ausgeht oder?

Nein. Wer hat dich derart fehlinformiert?

Danke erst mal für die zügige Antwort. Ich denke, dass habe ich selbst falsch interpretiert. Wie ihr merkt, habe ich noch einige Lücken in meinem Statistikwissen, weshalb ich hoffe, dass ihr mir einige Fragen beantworten könnt.

Varianzanalysen gehen nicht davon aus, dass die abhängige Variable in der Grundgesamtheit normalverteilt ist.
Die traditionelle Formulierung lautet, dass sie in jeder der betrachteten Gruppen in der Grundgesamtheit
normalverteilt ist. Die bessere Formulierung lautet, die Vorhersagefehler (Residuen) des Modells sind normalverteilt
(in der Grundgesamtheit). Allerdings ist auch diese Voraussetzung entbehrlich, wenn die Gesamtstichprobe ausreichend
groß ist. Ab ca. n > 30 ist eine Varianzanalyse auch gegen nicht-normalverteilte Residuen robust (zentraler
Grenzwertsatz).

Ok, das habe ich nun verstanden und das hilft mir schon mal gut weiter :-)

Den Rest kann ich leider nicht nachvollziehen, da ich eine klare Fragestellung nicht erkennen kann, das
Untersuchungsdesign dementsprechend nicht verstehe und daher auch nicht die Analyse.

Ich versuche mal etwas genauer zu beschreiben: Ich habe eine Anlage, die wirbelt Pulver auf und besprüht das Pulver mit einer (klebrigen) Bindemittellösung, sodass die Pulverpartikel agglomerieren (zusammenkleben) und größere Partikel bilden. Diesen Partikelgrößenzuwachs untersuche ich mit einer Partikelgrößenmesssonde in Echtzeit im Prozess. Ziel ist es, dass ein moderater Partikelgrößenzuwachs stattfindet, aber auch keine unkontrolliert (starke) Agglomeration. Natürlich sollte das Pulver wenigstens ein bisschen agglomerieren. Dazu habe ich verschiedene Faktoren, die ich am Prozess einstellen kann (Sprührate, Volumenstrom, Düsendurchmesser etc.). Ich möchte herausfinden, welche Faktoren für den Partikelgrößenzuwachs entscheidend bzw. welche überhaupt signifikant sind. Bei einigen Parametern ist es schon im Vorfeld recht klar, dass sie signifkant sein werden, bei anderen bin ich mir noch nicht sicher. In einem zweiten Schritt möchte ich dann Wechselwirkungen näher untersuchen.

Mein Versuchsplan ist ein Plackett-Burman-Design mit 9 Faktoren und 12 Versuchen, welchen ich danach nochmal gespiegelt habe (Fold-Over → 24 Versuche), damit ich die Haupteffekte besser bestimmen kann und sie nicht mit 2-fach-Wechselwirkungen vermengt sind.

Mit meinem neuen Wissen, fallen jetzt einige Fragen weg, bzw müssen umformuliert werden. Meine Fragen sind nun:

1. Ist mein Vorgehen, wie ich es oben beschrieben habe, grundsätzlich in Ordnung?
2. Ich finde, meine Residuen sehen annähernd normalverteilt aus, aber der Box-Cox-Plot schlägt eine Transformation vor. Würdet ihr in meinem Fall transformieren?

Ich hoffe, es ist jetzt weniger unklar.

Grüße
Marcel

PonderStibbons · von **PonderStibbons** » Mo 15. Mär 2021, 21:26

Mein Versuchsplan ist ein Plackett-Burman-Design mit 9 Faktoren und 12 Versuchen, welchen ich danach nochmal gespiegelt habe (Fold-Over → 24 Versuche), damit ich die Haupteffekte besser bestimmen kann und sie nicht mit 2-fach-Wechselwirkungen vermengt sind.

Ok, jetzt verstehe ich worum es geht. Da ich mit dem Bereich technischer Anwendungen keine Erfahrung habe,
sagt mir allerdings das Design nichts. Da kann ich leider nicht helfen.

2. Ich finde, meine Residuen sehen annähernd normalverteilt aus, aber der Box-Cox-Plot schlägt eine Transformation vor. Würdet ihr in meinem Fall transformieren?

Für den Signfikanztest eher nicht. Wofür sonst kannst Du Box-Cox-transformierte Werte verwenden,
bzw. könntest Du deskriptivstatistisch und in der Interpretation etwas anfangen mit Aussagen wie
"Der Mittelwert meiner Box-Cox-Transformierten Messwerte..." ?

Mit freundlichen Grüßen

PonderStibbons

folgende User möchten sich bei PonderStibbons bedanken:
Cellschock

Cellschock · von **Cellschock** » Di 16. Mär 2021, 07:31

Für den Signfikanztest eher nicht. Wofür sonst kannst Du Box-Cox-transformierte Werte verwenden,
bzw. könntest Du deskriptivstatistisch und in der Interpretation etwas anfangen mit Aussagen wie
"Der Mittelwert meiner Box-Cox-Transformierten Messwerte...

Nein. Sehr viel mehr mache ich auch nicht. Ich überprüfe die Signifikanz und möchte am Ende mit meinem Modell noch eine Vorhersage treffen.

Wenn das jetzt nicht so sinnvoll erscheint, dann lass ich es lieber weg. Danke

STATISTIK-FORUM.de

Transformation in meinem Fall sinnvoll?

Transformation in meinem Fall sinnvoll?

Re: Transformation in meinem Fall sinnvoll?

Re: Transformation in meinem Fall sinnvoll?

Re: Transformation in meinem Fall sinnvoll?

Re: Transformation in meinem Fall sinnvoll?

Wer ist online?