Hallo zusammen,
ich habe mehrere Fragen an euch, aber erst mal erkläre ich euch mein Problem: Ich habe ein Pulver, was ich mit einer Bindemittellösung zu einem größeren Granulat agglomeriere. Ich werte nach der Partikelgröße aus, wie stark sie angewachsen ist. Dazu habe ich einen statistischen Versuchsplan erstellt auf 2 Stufen - ich nutze ein kommerzielles Programm (Design Expert). Bereits während der Versuche habe ich festgestellt, dass je nachdem welche Prozessparameter angewendet werden, eine starke Agglomeration eintreten kann, aber auch überhaupt keine Agglomeration auftritt und das Pulver annähernd seine Anfangsgröße behält.
Frage 1) Nach meinem Verständnis wird bei der Varianzanalyse (ANOVA) ein F-Test durchgeführt, der von einer Normalverteilung ausgeht oder?
Ich habe meine Partikelgrößendaten spaßeshalber mal in Matlab eingegeben, ein Histogramm erstellt und mit Jarque-Bera- und Lilliefors-Test auf Normalverteilung getestet. Das Histogramm zeigt eine Schulter nach rechts an, nach links hin hört die Kurve schlagartig auf (unzwar genau dann, wenn gar nicht agglomeriert wurde und die Partikelgröße konstant geblieben ist). Beide Tests auf Normalverteilung zeigen erwartungsgemäß an, dass keine Normalverteilung vorliegt. Das ergibt auch durchaus Sinn für mich.
Ich möchte dennoch mit dem statistischen Versuchsplan nach dem Partikelgrößenzuwachs auswerten.
Frage 2) Wenn ich keine Normalverteilung habe, kann ich dann überhaupt eine ANOVA machen?
Ich habe diese Annahmen einer Normalverteilung einfach mal ignoriert und die ANOVA durchführen lassen. Man wird gewissermaßen durch das Programm durch die verschiedenen Phasen geleitet.
1. Als erstes soll man sein Modell wählen (z.B. Linear, Berücksichtigung von 2-fach Wechselwirkungen, quadratische Effekte etc.). Logischerweise kann ich bei einem 2-stufigem Versuchsplan nicht auf quadratische Effekte testen. Der Plan ist so konstruiert, dass Haupteffekte mit 3-fach Wechselwirkungen vermengt sind und 2-fach Wechselwirkungen miteinander vermengt sind. Ich habe ausgewählt, dass ich nur Haupteffekte betrachten will.
2. Als nächstes wählt das Programm signifikante Variablen aus. Ich habe angegeben, dass es das nach dem Akaike-Kriterium (rückwärts) machen soll. Ich hätte aber genauso gut auch nach p-Wert auswählen können. Von meinen ursprünglich 9 Parametern bleiben noch 5 übrig (diese besitzen alle einen p-Wert von unter 0,05).
3. Nun kann ich mir die Ergebnisse der ANOVA anzeigen lassen. Mein Modell ist signifikant mit einem p-Wert von unter 0,05 und ich habe ein R² von etwa 0,78. Meines Wissens nach kann ich also 78% der Streuung mit den ausgewählten Variablen erklären.
4. Der nächste Reiter zeigt ein paar weitere Tests an. Ich habe es mal als Bild unter folgendem Link angehangen:
https://ibb.co/C888XvC
Im ersten Bild ist eine leichte S-Kurve zu sehen. Ich finde aber nach dem "Fat-Pencil-Test" sieht es eigentlich gar nicht so dramatisch aus. Im nächsten Bild werden mir die Residuen angezeigt. Würde ich es mit meiner geringen Erfahrung beurteilen, hätte ich gesagt, dass es eigentlich auch ganz ok aussieht. Vielleicht sind die Residuen ganz links und ganz rechts etwas hoch und somit ganz leicht ungleich verteilt. Bis hier hin habe ich eine ANOVA auch schon mal analog mit Musterdaten durchgeführt. Als nächstes Bild folgt aber die Darstellung des Box-Cox-Plots, die ich selber noch nie durchgeführt habe. Ok, scheinbar sagt mir dieser Plot, ob ich transformieren soll oder nicht. Und in meinem speziellen Fall schlägt er eine inverse square root Transformation vor. Nach etwas Recherche stelle ich fest, dass man diese Transformation durchführen kann, wenn die Residuen etwas Trichterförmig aussehen - mit etwas Fantasie ist das bei mir vielleicht auch der Fall (wobei rein optisch finde ich die Verteilung meiner Residuen eigentlich nicht so schlimm).
5.) Ich gehe also wieder an den Anfang zurück und kann über das Programm auswählen, dass es meine Daten automatisch transformiert mit der inverse square root Transformation. Das Spiel beginnt von vorn, ich wähle das Modell aus (linear -> nur Haupteffekte) und es bleiben dieses Mal nur noch 3 von 9 Parametern als signifikant übrig (p-Wert unter 0,05). Die Ergebnisse der ANOVA zeigen mir, dass mein Modell immer noch hochsignifikant ist und dieses Mal ist mein R² sogar bei 0,8. Die Tests auf Normalverteilung, Residuen und Box-Cox-Plot habe ich wieder angehangen als Bild.
https://ibb.co/cXsXmc0
Insgesamt sehen alle Diagramme leicht besser aus und beim Box-Cox-Plot wird mir auch keine Transformation mehr vorgeschlagen. Eigentlich könnte ich zufrieden sein, aber ich bin mir unsicher. Meine weiteren Fragen:
Frage 3) Ist dieses grundsätzliche Vorgehen erst mal in Ordnung, wenn man jetzt davon ausgehen würde, dass meine Daten normalverteilt sind?
Frage 4) Macht es Sinn, meine Daten zu transformieren, auch wenn die Residuenverteilung und Normalverteilung so schlecht gar nicht aussehen? Würdet ihr in diesem speziellen Fall transformieren?
Frage 5) Macht es überhaupt Sinn, meine Daten durch Transformation einer Normalverteilung anzugleichen, obwohl ich ja weiß, dass rein logisch/physikalisch gar keine Normalverteilung meiner Daten vorliegen kann? Oder macht es vielleicht gerade dadurch Sinn?
Frage 6) Was haltet ihr von diesem Box-Cox-Test?
Danke Euch schon mal!
Grüße
Marcel