STATISTIK-FORUM.de

PaladinButters · von **PaladinButters** » Di 25. Mär 2014, 22:12

Hi Statistik-Gurus!

Folgendes Problem: Ich schreibe gerade an meiner Diplomarbeit und ackere mich deshalb durch Berge an Literatur/Papers. Nun bin ich bei meinen Recherchen auf eine Arbeit gestoßen, deren Ergebnisse ich nur bedingt nachvollziehen kann. Der Titel lautet "Secondhand smoke drift: Examining the influence of indoor smoking bans on indoor and outdoor air quality at pubs and bars" und lässt schon erahnen, worum's geht: Feinstaubmessungen in Gastronomiebetrieben.

Nun steht im Abschnitt "Methods - Statistical analysis" folgender Satz:

All statistical analyses used log-transformed mean PM2.5 concentrations due to the positively skewed distribution of the data.

(PM2.5 bezeichnet eine bestimmte Feinstaub-Klasse, Anm.)
So weit, so gut!

Im Abschnitt "Results - Association between outdoor air quality and indoor air quality at post-ban" wird mit Verweis auf eine Tabelle der statistische Zusammenhang zwischen einer Erhöhung der outdoor-Feinstaubbelastung sowie der Luftqualität im Lokalinneren wie folgt beschrieben:

As predicted, indoor air quality was associated with outdoor air quality at post-ban. When adjusting for ambient PM2.5 levels and the presence of an open or closed door (i.e., the main access) between indoor and outdoor areas, a 100% increase in GM outdoor PM2.5 exposure was associated with a 36.1% rise in GM indoor PM2.5 exposure (Table 2).

(GM = geometric mean, Anm.)
...und die zugehörige Tabelle sieht dann so aus:
Bild

(den m.E. relevanten Bereich hab ich rot gerahmt)

Nun zur eigentlichen Frage: Wie um alles in der Welt kommen diese Leute auf ihr Ergebnis, ein 100%iger Anstieg (also eine Verdopplung) des outdoor-PM2.5 sei mit einem 36.1%igem Anstieg der indoor-PM2.5 vergesellschaftet?

Ich hab versucht mich auf Seiten wie diesen schlau zu machen:
http://www.ats.ucla.edu/stat/mult_pkg/faq/general/log_transformed_regression.htm
http://www-stat.wharton.upenn.edu/~stine/stat621/handouts/LogsInRegression.pdf
Der Tenor:
Wenn eine UV logarithmiert ist, die abhängige Variable jedoch nicht, gilt das Schema Koeffizient * log (x2/x1)
(wobei x als UV)
d.h. in unserem Fall: 1.56 * log (2)
(weil x2 ja um 100% angestiegen!)
...das ergibt (mit natürlichem Logarithmus!) allerdings 1.08 und würde bedeuten, dass bei einem 100%igen Anstieg des outdoor-PM2.5 mit jeweils 1.08 Einheiten Anstieg der indoor-PM2.5-Werte zu rechnen wäre - das ist offensichtlich viel geringer als der kolportierte Wert und obendrein keine Prozentangabe, sondern quasi ein "absoluter Wert"!
Weil ja (wie oben zitiert) davon die Rede war, dass sämtliche statistischen Berechnungen log-skalierte PM2.5-Werte verwenden, dachte ich dann, dass auch ausgabenseitig logarithmierte Skalen verwendet wurden, es sich also um ein log-log-Modell handelt. Dann folgt die Berechnung meinen Unterlagen zufolge (siehe Links) allerdings dem Schema (x2/x1)^Koeffizient, d.h. hier 2^1.56 = 2.95 <- das wiederum würde bedeuten, dass ein 100%iger Anstieg der outdoor-PM2.5-Werte einen 195%igen Anstieg der indoor-PM2.5-Werte erwarten lässt, was zwar immerhin einem prozentuellen Ergebnis entspricht, aber offensichtlich weit über den im Text genannten 36.1% liegt!

Ich habe wirklich wenig Ahnung von Statistik und bin deshalb nicht sicher, ob meine Ausführungen so weit verständlich und nachvollziehbar sind. Jedenfalls habe ich mich nun schon etliche Tage intensiv mit dieser Problematik beschäftigt und finde zu keiner zufriedenstellenden Erklärung. Ich bitte um Hilfe und Nachsicht und baue auf Eure unermessliche Weisheit!

STATISTIK-FORUM.de

log-skalierte Variablen im Regressionsmodell: Interpretation

log-skalierte Variablen im Regressionsmodell: Interpretation

Wer ist online?