Seite 1 von 1

Dos and Don'ts oder: Hilfen für Fragende

BeitragVerfasst: Mo 23. Nov 2015, 18:55
von bele
Liebes Forenmitglied,

dieser Beitrag steht hier, damit man in darauf verweisen kann. Wenn Dich jemand auf diesen Beitrag verwiesen hat, dann will er Dir Hinweise geben, wie Du Deine Frage besser formulieren kannst. Das erhöht dann ach die Chance auf gute Antworten. Dieser Post stammt nicht von einem Moderator oder Administrator sondern von einem einfachen, wenn auch nicht unerfahrenen, Mitglied. Er macht also keine Vorschriften und die Aussagen sind auch nicht verbindlich. Dies ist kein Ersatz für die vom Admin verfasste Netiquette unter nutzung-des-forums-f44/netiquette-t2928.html

In diesem Forum werden oft Fragen dazu gepostet wie man die eigenen Daten analysieren soll. Oft sind die Fragen unzureichend mit Fakten unterfüttert. Oft stammen sie von statistisch Unerfahrenen die versuchen, sich der statistischen Fachsprache zu befleißigen, obwohl sie in ihr wenig sicher sind. Das macht Fragen mißverständlich und führt zu wertlosen Antworten.


J. J. Farway: Linear Models with R, Chapman&HAll/CRC, 2005, Seite 1 hat geschrieben:Statistics starts with a problem, proceeds with the collection of data, continues with the data analysis and finishes with conclusions. It is a common mistake of inexperienced statisticians to plunge into a complex analysis without paying attention to what the objectives are or even whether the data are appropriate for the proposed analysis.



Welche Fehler werden gemacht, wie kann man sie vermeiden?



1. Man kann Statistikfragen allgemein oder für einen konkreten Fall stellen. Etwa so:
"Wie kann man vorgehen, wenn Prädiktoren im linearen Modell miteinander hoch korrellieren?"
versus
"Ich versuche einen Entzündungswert im Blut aus den Beobachtungen an 200 Patienten durch lineare Regression vorherzusagen. Körpertemperatur und Herzfrequenz korrelieren mit r=.86. Ist das ein Problem?"

Die allgemeine Formulierung ist oft viel zu unpräzise gestellt und wenn auf eine solche allgemeine Frage eine allgemeine Antwort kommt, wissen die Fragesteller sie oft nicht zu nutzen. Manchmal hat man sich als Anfänger viel zu früh und falsch auf eine Auswertemethode eingeschossen und bei der allgemeinen Formulierung hat hier keiner eine Chance, das zu erkennen. Daher ist es meistens besser, das Problem zu beschreiben, das man lösen will. Auf Deutsch.

J. J. Farway: Linear Models with R, Chapman&HAll/CRC, 2005, Seite 1 hat geschrieben:Put the problem into statistical terms. This is a challenging step and where irreparable errors are sometimes made.



2. Oft geht es um konkrete Studien. Dann werden mit großer Regelmäßigkeit einige zentrale Angaben vergessen, die Dir unwichtig erscheinen mögen, die aber wichtig sind.
2.1 Wie groß ist die Fallzahl? Das ist nicht nur eine Rechengröße. Viele Dinge in der Statistik sind bei kleinen, mittleren und großen Fallzahlen völlig unterschiedlich anzugehen. Dabei interessiert hier niemanden, ob n=54 oder n=56, aber ob n=12 oder n=1200.
2.2 Welches Skalenniveau haben die Daten. "Ich möchte Informationsdefizit mit Misslaunigkeit bei Forenmitgliedern korrellieren" sagt sehr wenig aus! Informationsdefizit kann als "JA/NEIN" kodiert sein oder auf einer Skala von 0 bis 100 oder, oder, oder - solange das nicht beschrieben ist, kann man kein Vorgehen festlegen.
2.3 Software. Den ein oder anderen mag es verblüffen, aber "Statistik" und "SPSS" sind keine Synonyme. Ganz oft werden in diesem Statistikforum Fragen gestellt, in denen es nicht um Statistik sondern um die Bedienung von Software geht. In gewissen Grenzen ist das ok, aber dann ist es mindestens nötig zu beschreiben, welche Software ihr verwendet. Kaum jemand kennt sich mit SPSS, Stata, R, Excel und den vielen anderen Programmen gleichermaßen gut aus. Wenn Ihr merkt, dass es sich um eine Softwarebedienungsfrage handelt, dann überlegt, ob ein gezielteres Forum nicht passender wäre. Gleiches gilt für reine Mathematikfragen: Man kann es hier versuchen, aber die Weiten des Webs halten bestimmt passendere Orte dafür vor.
2.4 Versuche, die Statistik nicht zu weit von der Sachwissenschaft zu trennen. Erzähle uns ruhig, wie Du das misst und mit welcher Fragestellung und mit welchem "großen Ziel". Nicht seitenlang aber doch so, dass wir das Umfeld ein wenig besser einschätzen können.
J. J. Farway: Linear Models with R, Chapman&HAll/CRC, 2005, Seite 1 hat geschrieben:Are the data observational or experimental? Are the data a sample of convenience of were they obtained via a designed survey? How the data were collectes has a crucial impact on what conclusions can be made.[...]
Is there nonresponse? The data you do not see may be just as important as the data you do see.

2.5 "Nicht signifikant" bedeutet meistens, dass p>0.05. Wenn Du Dich fragst, warum die Studie mit n=15 nicht signifikant wird, dann macht es einen erheblichen Unterschied, ob p=0.89 oder p=0.06. Sei also lieber konkret und gib den p-Wert, den Korrelationskoeffizienten und was auch immer an.



3. Ich bin kein Psychologe, ich bin kein Wirtschaftswissenschaftler, ich bin kein Sportstudent, ich bin kein [hier fast alle Fachgebiete einsetzen]. Soll ich trotzdem bei der Lösung Deiner Frage mitdenken? Dann benutze bitte eine Sprache, die auch ich verstehe. Für Dich mag "Credit Default Swap" ein Begriff sein, für mich ist es ein sehr umfangreicher Wikipediaartikel, den ich nicht unbedingt lesen mag, wenn dessen Verständnis nichts zum Verständnis Deiner Frage beiträgt.



4. Ein Wort zu Excel. Bitte sei nicht enttäuscht, wenn Du auf wenig Gegenliebe oder Resonanz stößt, wenn Du gezielt nach Excel-Lösungen fragst. Es ist allen klar, dass Excel ein beliebtes Rechenprogramm ist und dass es auch ganz klare Stärken hat. Allein, diese Stärken liegen nicht im Bereich der Statistik. Wer sich ernsthaft mit Statistik beschäftigt, der tut das in der Regel nicht mit Excel. Egal was Du glaubst, die Leute hier sind nicht unbedingt Excel-Spezialisten. Für Dich mag die Lernkurve für ein echtes Statistikprogramm zu steil sein, aber die Ablehnung gegen Statistik mit Excel hat durchaus gute Gründe. Belege:
http://citeseerx.ist.psu.edu/viewdoc/do ... 1&type=pdf
http://www.biomedcentral.com/1471-2105/5/80
http://datapub.cdlib.org/2014/04/10/aba ... -in-excel/
http://forum.r-statistik.de/viewtopic.p ... cel#p20294
Jedenfalls habe ich den Eindruck, dass sich viele "Wie mache ich das in Excel"-Fragen besser durch eine gezielte Suche im Netz und bei Youtube beantworten lassen als hier und dass das Erlernen von Grundlagen eines Statistikprogramms vielleicht aufwändiger aber auch viel weniger fehleranfällig wäre als der Versuch, Excel zu etwas zu machen, was es nicht ist.



5. Hausaufgaben: Manche werden hier ganz klar eins zu eins ins Forum kopiert. Bei anderen erkennt oder ahnt man, dass es welche sind. AFAIK gibt es keine offizielle Position des Forums zu Hausaufgaben aber doch eine geübte Praxis: Wir lösen für Dich nicht die Hausaufgaben, aber wir geben Euch gernen einen Wegweiser in die richtige Richtung, wenn Du deutlich erkennen lässt, dass Du Dir selbst Mühe gegeben hast und Mühe gibst. Also beschreibe die Aufgabe, sag, was Du Dir schon gedacht hast und wie weit Du gekommen bist und erwarte keine Beantwortung der Aufgabe sondern nur einen Hinweis, der zur Antwort führt.



6. [code ]-Tags. Das geht jetzt vor allem an die R und Stata-User: Die Kommandos in diesen Programmen und die Ausgaben lassen sich ganz toll mit einem monospace font durch die entsprechenden Tags darstellen. Aber auch für alle, die Tabellen posten wollen: Das geht recht umständlich mit Tabellen wie hier beschrieben: kritik-fehler-verbesserungsvorschlage-f26/test-tabelle-und-formeleditor-t68.html oder ganz einfach mit [code ]-Tags:
Code: Alles auswählen
       | Raucher  |  Nichtraucher
-------+----------+----------------
lebend |     5          135
tod    |   134           17
unklar |    13            0

Das liest sich doch viel leichter als
| Raucher | Nichtraucher
-------+----------+----------------
lebend | 5 135
tod | 134 17
unklar | 13 0

Oder?



7. Crossposting. Es gibt keine offizielle Regel dagegen, aber manch einer findet es blöd und hat keine Lust mehr zu antworten, wenn dieselbe Frage in verschiedenen Foren auftaucht und die verschiedenen Communities aber nicht darüber in Kenntnis gesetzt werden, dass woanders die gleiche Frage steht und man macht sich die Mühe des Antwortens vielleicht umsonst, weil die Antwort in einem anderen Forum bereits steht. Am besten lässt Du das bleiben, oder aber Du machst es transparent und kennzeichnest es in allen betroffenen Foren.


Ich wünsche allen Viel Spaß und viel Erfolg im Forum.


Liebe Grüße,
Bernhard

Re: Dos and Don'ts oder: Hilfen für Fragende

BeitragVerfasst: Di 24. Nov 2015, 23:21
von PonderStibbons
Komischerweise erscheint in dem Beitrag kein "Thanks" button. Also auf diesem Wege. Sehr gelungen.

Mit freundlichen Grüßen

PonderStibbons

Re: Dos and Don'ts oder: Hilfen für Fragende

BeitragVerfasst: So 6. Dez 2015, 15:03
von bele
Danke.

Re: Dos and Don'ts oder: Hilfen für Fragende

BeitragVerfasst: Di 20. Dez 2016, 13:59
von bele
8. Erdachte Parallelprobleme. Dieser Punkt ist nachrangig und anders als die oben beschriebenen. Er betrifft nicht die, die sich zu wenig Gedanken vor dem Posten machen, sondern die, die sich zuviele machen. In Punkt 3 habe ich beschrieben, dass wir überwiegend keine Ahnung von Eurem Wissenschaftszweig haben. Einige Fragende machen sich daher viel Mühe, ihr Problem umzumünzen und in eine allgemeinverständliche Analogform, ein Parallelproblem, zu übersetzen.

Um vom Statistikinteressierten verstanden zu werden, werden dann ununterscheidbare Kugeln aus Urnen gezogen und zurück gelegt, Münzen fraglicher Fairness geworfen, Legosteine in Kisten verpackt und so weiter, bis jedes Cliché aus dem Matheuntericht bedient ist. Während das einerseits sehr freundlich und eine verständliche Reaktion auf Punkt 3 ist, ist es aus mindestens zwei Gründen meist keine gute Idee (beachte die Formulierung, die viel Platz für Ausnahmen lässt...):

  • Ihr mögt es glauben oder nicht, wir finden das Ziehen unverwechselbarer Kugeln aus Urnen mit und ohne Zurücklegen genauso langweilig wie Ihr. Und wenn wir solche Aufgaben lösen wollten, würden wir uns ein Mathebuch für die Sekundarstufe II kaufen. Ein Großteil des Spaßes bei der Mitarbeit hier im Forum liegt auch darin, zu sehen, wie sich die vertrauten statistischen Methoden in einem anderen Kontext, in einer anderen Wissenschaft oder einem anderen Wissensbereich, verwenden lassen und über den Tellerrand zu schauen, was andere Leute in anderen Tätigkeiten so bewegt. Wie ich unter 2.4 schon geschrieben habe: Trennt die Statistik nicht zu sehr von der Sachwissenschaft.
  • Es liegt in der Natur dieses Forums, dass das Wissen über statistische Problemstellungen hier sehr asymmetrisch verteilt ist. Meistens fragt Ihr bei Problemen, zu deren Lösung Euer eigenes Wissen nicht ausreicht. Das ist ok. Es ist nur wenig vernünftig darauf zu bauen, dass Euer eigenes Wissen gleichzeitig ausreichend sei, zu entscheiden, welche Abstraktion bzw. Abwandlung Eures Problems noch ausreicht, damit Euer echtes Problem und Euer Parallelproblem genau gleich zu behandeln sind. Wenn Ihr das verlässlich beurteilen könntet, dann bräuchten wir nie nachfragen stellen, denn Ihr hättet ja den vollen Überblick, was zur Lösung wichtig und was unwichtig ist. Die Erfahrung zeigt, dass diese Einschätzung oft falsch, und die Lösung für das Parallelproblem nicht 1:1 übertragbar, ist. Eine Lösung für ein nicht-übertragbares Problem ist für Euch nicht hilfreich, und für uns ist es frustrierend zu erkennen, dass die Suche nach der Lösung für das Parallelproblem umsonst war. Meistens bleibt dann auch nicht mehr viel Motivation für das eigentliche, das wirkliche Problem.

Liebe Grüße,
Bernhard

Re: Dos and Don'ts oder: Hilfen für Fragende

BeitragVerfasst: Fr 9. Okt 2020, 09:50
von Statistikfan12
Das ist eine sehr gute Zusammenfassung, vielen Dank dafür!