STATISTIK-FORUM.de

Stitchy · von **Stitchy** » Mi 24. Aug 2016, 13:44

Huhu,

Ich sitze gerade an meiner Bachelorarbeit und stehe etwas auf dem Schlauch.
Ich vergleiche die Häufigkeit von bestimmten Parasiten (es handelt sich um 3 verschiedene Mückenarten) an Birkenfrüchten. Dabei will ich einheimische Birkenarten mit asiatischen und amerikanischen vergleichen.
Die Hypothese ist, dass besagte (heimische) Mücken an heimischen Birken häufiger vorkommen.

Zuerst noch eine kleine Zwischenfrage:
Ich habe pro Birkenart von jeweils 100 Birkenkätzchen die Anzahl der Früchte bestimmt und die Länge des Kätzchens gemessen. Die restlichen Birkenkätzchen möchte ich nur noch messen und anhand der Länge die Anzahl der Früchte berechnen/abschätzen.
Mein erster Gedanke war dies über die Geradengleichung einer Regressionsgeraden zu berechnen. Meine Betreuerin schlug vor einfach die durchschnittliche Anzahl von Früchten pro mm Kätzchen zu berechnen (Summe [Früchte]/Summe [Längen] * Länge Kätzchen).
Was ist hier die elegantere Methode?

Nun zum wichtigen Teil. Ich habe für jedes Birkenkätzchen folgende Daten erhoben:
Standort, Herkunft, Birkenart, % infizierter Früchte Mücke 1, % infizierter Früchte Mücke 2, % infizierter Früchte Mücke 3

Die Häufigkeiten der infizierten Früchte pro Mücke sind nicht Normalverteilt. Die meisten sind nämlich nicht infiziert. Mir wurde daher dazu geraten keine ANOVA zu machen sonder ein Generalisiertes Lineares Modell (Habe noch nie davon gehört).
Was ist eure Meinung? Welches Verfahren eignet sich hier am besten?

Mit freundlichen Grüßen
Stitchy

PonderStibbons · von **PonderStibbons** » Mi 24. Aug 2016, 15:39

Die Hypothese ist, dass besagte (heimische) Mücken an heimischen Birken häufiger vorkommen.

Häufiger als wer oder was oder wo?

Die Häufigkeiten der infizierten Früchte pro Mücke sind nicht Normalverteilt.

Wie die abhängige Variable verteilt ist, das ist für sich genommen gleichgültig.
Relevant ist die Verteilung der Modellfehler. Da Du als abhängige Variable
eine %-Angabe und zudem überwiegend 0%-Angaben hast, wäre die übliche
Auswertung mit einem linearen Modell aber tatsächlich unangebracht.

Mir wurde daher dazu geraten keine ANOVA zu machen sonder ein Generalisiertes Lineares Modell (Habe noch nie davon gehört).

Ja, das wäre vielleicht eine gute Sache, wobei ich mich bei dieser
Art abhängiger Variable nicht besonders gut auskenne. Welche Fehlerverteilung
soll denn da laut Ratgeber verwendet werden?

Oder (je nach Fragestellung) geeignete "nonparametrische" Verfahren, die
können aber jeweils nur 1 Prädiktor berücksichtigen. Falls Du mehrere
Prädiktoren berücksichtigen willst, kannst Du Deine abhängige Variable
eventuell dichotomisieren (Befall/kein Befall) und eine binär-logistische
Regression rechnen. Oder es gibt berechtigten Grund, den Befallsgrad in
mehr als 2 geordenete Kategorien einzuteilen (z.B. Kein Befall - geringer Befall
- starker Befall), dann käme die ordinale logistische Regression in Betracht.

Welches Verfahren eignet sich hier am besten?

Für Dich vermutlich das ist Deinem Fach und der Referenzliteratur gängigste.

Mit freundlichen Grüßen

PonderStibbons

STATISTIK-FORUM.de

Welches statistisches Verfahren eignet sich am besten?

Welches statistisches Verfahren eignet sich am besten?

Re: Welches statistisches Verfahren eignet sich am besten?

Wer ist online?