Transformation der Daten wegen Varianzheterogenität

Alle Verfahren der Regressionanalyse.

Transformation der Daten wegen Varianzheterogenität

Beitragvon Anfi » Fr 23. Mai 2025, 09:40

Ich habe 5 verschiedene Konzentrationen (von 0.5 mM bis 0.001 mM) einer Aminosäure verdünnt und mittels Fluoreszenzdetektor auf der HPLC gemessen. Für jede Konzentration habe ich 4 Replikate gemacht, insgesamt sind es also 20 Proben. Das Bestimmtheitsmaß der daraus resultierenden Kalibriergerade ist nahezu 1, es passt also sehr gut. Um den linearen Zusammenhang statistisch zu validieren habe ich eine ANOVA durchgeführt, mit Linearität F-Test und Lack of Fit-Test. Der Linearität F-Test und Lack of Fit-Test bescheinigen mir einen klaren linearen Zusammenhang, die Varianzen der Proben sind allerdings nicht homogen verteilt, daher sind die Tests nicht gültig. Da der Konzentrationsbereich meiner Proben relativ weit ist (Faktor 500 zwischen größter und kleinster Konzentration) ist es nicht weiter verwunderlich, dass die Varianz heterogen ist bzw. mit der Konzentration zunimmt. Nun wurde mir gesagt, dass man die Daten transformieren kann um die Varianzen homogen bekommen zu können bzw. die statistischen Test bestehen zu können. Ein invertieren oder Wurzel ziehen der Daten hat nichts bewirkt. Erst durch das ziehen der drittel Wurzel aller x und y-Werte bekomme ich bei 99% Signifikanzniveau tatsächlich homogene Varianzen. Somit ist die Methode statistisch validiert.

Die Frage ist nun, muss ich künftig wenn ich in unbekannten Proben den Aminosäuregehalt bestimmten möchte, mit der transformierten Kalibriergeraden rechnen, sprich diese Proben immer auf dieselbe Weise transformieren oder kann ich dafür einfach die ursprüngliche Kalibriergerade ohne Transformation nehmen?
Anfi
Grünschnabel
Grünschnabel
 
Beiträge: 2
Registriert: Fr 23. Mai 2025, 09:06
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Transformation der Daten wegen Varianzheterogenität

Beitragvon strukturmarionette » Fr 23. Mai 2025, 14:15

Hi,

Erst durch das ziehen der drittel Wurzel(?) aller x und y-Werte bekomme ich bei 99% Signifikanzniveau(?) tatsächlich homogene Varianzen. Somit ist die Methode statistisch validiert.(??)

vielleicht besser zunächst:
https://www.medizin-forum.de/phpbb/index.php

Gruß
S.
strukturmarionette
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 4364
Registriert: Fr 17. Jun 2011, 22:15
Danke gegeben: 32
Danke bekommen: 587 mal in 584 Posts

Re: Transformation der Daten wegen Varianzheterogenität

Beitragvon bele » Sa 24. Mai 2025, 20:26

Hallo Anfi,

ich weiß nicht, was bei Labormethoden die Standards sind, nach denen man da so schaut. Von hier aus wirkt das, was Du da machst, aber ziemlich beliebig, da muss es andere Ansätze geben (meine Frau sagt: besser pipettieren, aber dafür sind wir hier das falsche Forum, weiter mit Statistik).
Wir müssen zwei Fälle unterscheiden: Wenn Deine Regressionsgerade eine Ursprungsgerade ist, dann bleibt sie eine Gerade, auch wenn man die dritte Potenz nimmt.
lässt sich durch dritte Wurzel ziehen auf beiden Seiten umformen in . Dann hättest Du mit Deiner dritten Wurzel also inhaltlich nichts geändert und nur die Varianzüberprüfung ausgetrickst.

Wahrscheinlicher aber ist Deine Regressionsgerade aber keine Ursprungsgerade und wenn Du dann auf beiden Seiten die dritte Wurzel ziehst entsteht keine Geradengleichung mehr! Es nützt Dir ja nichts, wenn die Varianzen homogen werden, dafür keine Geradengleichung mehr gilt.
Man kann das in R so zeigen: Wir stellen erst einen perfekt linearen Zusammenhang her, ziehen dann beidseits die dritte Wurzel und plotten den Zusammenhang. Man sieht sehr schnell, dass das keine Gerade mehr ist:

Code: Alles auswählen
x <- sort(rnorm(100))
y <- x + 100

plot(x^(1/3), y^(1/3), type = "b")


Das ist jetzt leider ein wenig destruktiv, aber für konstruktive Vorschläge fehlt mir das Hintergrundwissen.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5947
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1405 mal in 1391 Posts

Re: Transformation der Daten wegen Varianzheterogenität

Beitragvon Anfi » Mo 26. Mai 2025, 09:48

Hallo,

vielen Dank erst mal für die Antwort. Die ganze Problematik entsteht ja nur wegen dem hohen Konzentrationsbereich (Faktor 500), wenn ich den Konzentrationsbereich auf den Faktor 20 reduziere, habe ich keine Heteroskedastizität und bestehe die statistischen Tests sofort, sprich ich muss meine Daten dann gar nicht transformieren. Es ist aber natürlich praktischer wenn man einen hohen Konzentrationsbereich hat, da man nicht das Risiko hat mit den zukünftigen Proben außerhalb der Kalibration zu liegen. Im Labor werden Kalibriergeraden oft gar nicht statistisch validiert wenn wie in diesem Fall das Bestimmtheitsmaß bei 0.99 liegt. In einer wissenschaftlichen Publikation habe ich allerdings gelesen, dass die Eignung des gewählten Kalibrierungsmodells immer durch statistische Tests zur Modellanpassung bestätigt werden sollte. In dieser heißt es auch, dass man im Falle einer Heteroskedastizität die Daten mathematisch transformieren kann um diese Heteroskedastizität zu kompensieren. Im Detail wird dann darauf aber nicht eingegangen, deswegen ist mir nicht ganz klar ob ich nachdem meine Daten durch die dritte Wurzel nun homoskedastisch sind, ich bei meinen zukünftigen Proben nun auch immer die dritte Wurzel ziehen muss /mit der transformierten Kalibriergeraden rechnen muss oder nicht.

Meine Regressionsgerade ist y=0.5479x-0.0004. Richtig durch die dritte Wurzel habe ich nur die Varianzüberprüfung ausgetrickst, die Geradengleichung bleibt bestehen bzw. ist dann y=0.8177x+0.0005. Meine Frage ist ob ich nun bei meinen zukünftigen Proben mit der ersten oder der transformierten Geradengleichung rechnen muss.
Anfi
Grünschnabel
Grünschnabel
 
Beiträge: 2
Registriert: Fr 23. Mai 2025, 09:06
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Transformation der Daten wegen Varianzheterogenität

Beitragvon bele » Di 27. Mai 2025, 12:49

Hallo Anfi,

Anfi hat geschrieben:Im Labor werden Kalibriergeraden oft gar nicht statistisch validiert wenn wie in diesem Fall das Bestimmtheitsmaß bei 0.99 liegt.


Das erscheint mir als recht vernünftiges Vorgehen: Wenn über den großen Konzentrationsbereich hinweg die Punkte so gut auf einer Geraden liegen, dann ist das doch eigentlich alles, was man will.

In dieser heißt es auch, dass man im Falle einer Heteroskedastizität die Daten mathematisch transformieren kann um diese Heteroskedastizität zu kompensieren.


Heteroskedastizität bedeutet, dass die Schwankungsbreite abhängig von der Konzentration ist. Wenn sie beispielsweise bei 0,5mM sehr schön klein ist, bei 0,01mM aber noch viel winziger klein, dann ist das heterogen, aber faktisch in jeder Hinsicht sehr befriedigend!

Das Transformieren von Variablen kann inhaltlich begründet oder ausschließlich das Ergebnis von Rechenübungen sein. Meiner Meinung nach stellt das Transformieren von Variablen einen tiefgreifenden Eingriff in die Aussage einer Regression dar und deshalb würde ich bei guten inhaltlichen Argumenten sofort transformieren, aufgrund von wildem Herumprobieren bei Rechenübungen (danach klingt das mit der dritten Potenz für den Uneingeweihten) nicht!

Stell Dir vor, auf Deinem Schreibtisch steht eine Gummiente und der versuchst Du jetzt in einfachen Worten zu erklären, warum die Kalibierkurve eine Gerade mit ganz kleinem R^2 ist und Du dennoch entschieden hast, eine völlig beliebig anmutende Transformation der Daten anzuwenden um die Voraussetzung zu einem Test zu schaffen, der Dir nur nocheinmal bestätigen sollte, was Du schon wusstest (dass es eine Gerade ist). Siehe auch https://de.wikipedia.org/wiki/Quietsche ... -Debugging

nachdem meine Daten durch die dritte Wurzel nun homoskedastisch sind


Nein, das sind sie bestimmt nicht. Du hast die Heteroskedastizität soweit versteckt, dass der Test sie in der gegebenen Stichprobengröße nicht mehr beweisen kann. An der Tatsache, dass Du bei 0,5 mM größere Schwankungen hattest als bei 0,01 mM ändert das ja nichts.

bei meinen zukünftigen Proben nun auch immer die dritte Wurzel ziehen muss /mit der transformierten Kalibriergeraden rechnen muss oder nicht.


Wenn Du Dich trotz des oben gesagten auf die Nicht-Signifikanz des Homoskedastizitätstests berufen willst, dann musst Du den Umweg über die dritte Potenz gehen, ja. Dann bestimmst Du mit Deinem Messverfahren die dritte Wurzel aus der Konzentration und weißt aber im Hinterkopf, dass beim Umwandeln aus der dritten Wurzel der Konzentration in die Konzentration der Messfehler nicht konstant bleibt. Klingt für mich aber nicht so, als ob Du das tun solltest. Ich bin aber auch kein Labormensch.

Das wäre anders, wenn Du in Deinen vier 0,5mM Messungen einen echten Ausreißer hättest, der die Gerade in eine andere Richtung zieht als die sonstigen Punkte. Das würde ich weiter untersuchen. Entweder indem ich mir die Regressionsgerade ohne diesen Punkt einzeichnen würde oder mittels Leverage oder Cook's distance oder mittels robuster Regression. https://xiangyuw.medium.com/high-levera ... bfed545540
Der Unterschied ist, dass ich da Angst um den richtigen Verlauf der Geraden machen würde und nicht um die Vorraussetzungen eines Tests.

HTH,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5947
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1405 mal in 1391 Posts


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron