STATISTIK-FORUM.de

ChrisvonR · von **ChrisvonR** » Mi 17. Jan 2024, 12:09

Guten Morgen liebe Statistik-Gemeinde,

ich bin nach eigenen Mühen an dem Punkt, wo ich etwas Hilfe, Input und Feedback gebrauchen kann und wäre euch sehr dankbar, wenn ihr euren Senf dazu abgeben würdet.

Ich plane die Untersuchung und Auswertung im Rahmen meiner Bachelorarbeit. Mein großes Problem ist, dass ich bisher nicht weiß, wie ich das Ganze sinnvoll statistisch auswerten kann.

Vorgegeben sind zwei Klassifikationssysteme für Berufe, O*NET (USA) und ISCO (Europa). Hierzu gibt es eine Überleitung, d. h. eine Zuordnung, welcher Beruf aus ISCO welchem Beruf aus O*NET zugeordnet ist. Im O*NET gibt es verschiedene Kategorien mit Items, die die Berufe charakterisieren, erhoben von Leuten in den USA. Ich soll nun VPN befragen und zuerst deren Berufe nach ISCO einsortieren, die VPN mit Items aus dem O*NET befragen, dann zuordnen welchem Beruf aus dem O*NET der Beruf der VPN entspricht und dann mithilfe der Items aus meiner Befragung, welche sich im O*NET wiederfinden, prüfen, inwiefern die Antworten meiner VPN mit denen aus dem O*NET übereinstimmen.

Beispielitem: Wöchentliche Arbeitszeit? 1 - Weniger als Vollzeit; 2 – Vollzeit; 3 - Mehr als Vollzeit

Da meine Hypothesen gerichtet sein sollen, habe ich hier bezogen auf das Beispiel folgende vorläufige Hypothese: „Die wöchentliche Arbeitszeit der Berufe nach ISCO ist geringer als die wöchentliche Arbeitszeit der Berufe nach O*NET.“ (Übergeordnet die Hypothese, dass die beiden Berufsklassifikationen sich unterscheiden.)

Nach Rücksprache mit der Betreuerin sieht sie alle Items so, dass ich sie intervallskaliert nutzen kann. Das sehe ich an der einen oder anderen Stelle als "Krückenlösung", aber nehmen wir das einfach mal so an.

Mein allererster, spontaner Gedanke waren t-Tests. Meine Betreuerin meinte, passt aber nicht so, da es ja ganz viele verschiedene Berufe sind und einen MW bilden dann eher sinnlos wäre. (Bei dem Beispielitem vielleicht sinnvoll, aber wenn man dann solche Items hat wie zeitlicher Druck, der ja auch oft abhängig vom Beruf ist, vielleicht weniger sinnvoll. Ich war trotzdem der Meinung, dass man das über alle Berufe erheben kann, da es ja um den grds. Vergleich der Klassifikationssysteme geht.)

Sie sagte dann, dass man eine Regressionsanalyse machen könne, ich aber mal überlegen solle, ob ich noch eine bessere Idee finde.

Ich habe mir nun zuerst Gedanken über die Regressionsanalyse gemacht: Eigentlich sehe ich die eher so, dass man auf Ursache-Wirkungs-Beziehungen abzielt, d. h. ich bräuchte eine UV und eine AV. Ich würde dann als UV die Klassifikation nach O*NET betrachten, da hier die Charakterisierungen der Arbeitszeit schon mit Zahlen versehen sind und als AV dann die Daten nach ISCO, die ich ja sammle. Ganz überzeugt bin ich davon aber wie gesagt nicht, da ich es eher als reinen Vergleich sehe und keine Ursache-Wirkungs-Beziehung sehe – kann man aber mit viel Fantasie wohl reininterpretieren. Bei der Prüfung der Signifikanz kommt dann aber wieder der t-Test, zu dem meine Betreuerin ja sagte, dass sie das nicht so sieht. Also weiter geschaut.

Ich hatte dann überlegt, dass eine Korrelationsanalyse ja auch passen könnte. Aber auch hier lande ich beim Thema Signifikanz wieder beim t-Test, von dem die Betreuerin ja sagte: nö, passt nicht.

Nun stehe ich ratlos da, denn alles andere passt auch irgendwie nicht.

Ist das Ganze überhaupt sinnvoll vergleichbar?

Falls ja, sind Regressions- oder Korrelationsanalyse schon richtige Gedanken?

Und wie ist es mit der Prüfung der Signifikanz, ist ein t-Test wirklich nicht sinnvoll?

Ihr merkt, ich habe ein Brett vor dem Kopf und je mehr ich recherchiere, umso mehr macht mein Kopf inzwischen dicht.

Ich muss dazu sagen, dass ich anhand einiger bisher gelaufener Gespräche den Eindruck habe, dass das Thema vielleicht nicht so ganz durchdacht ist, was mich noch mehr verunsichert. Es finden sich z. B. bereits jetzt schon einige „Krückenlösungen“, die ich verarbeiten soll und es gab wohl auch schon Diskussionen am Lehrstuhl, ob man mir nicht andere Daten geben sollte. Ich möchte aber nicht gleich vermuten, dass es „nicht an mir liegt“, sondern gehe erstmal davon aus, dass ich einfach noch nicht den richtigen Weg gefunden habe.

Ich wäre wirklich sehr dankbar um eine Meinung zu dem Thema und einen Stupser in die richtige Richtung.

Vielen Dank und viele Grüße
Christiane

bele · von **bele** » Mi 17. Jan 2024, 12:49

Hallo Christiane,

ich verstehe die Studie nach dieser Beschreibung noch nicht. So wie es da steht befragst Du Virtuelle Private Netzwerke mit O*NET und schaust dann, was bei den gleichen VPN im O*NET herausgekommen ist und das ist wahrscheinlich nicht, was Du meinst. Beim Versuch es mir zusammen zu reimen verwendest Du O*NET einmal als Befragungswerkzeug das Du im deutschen verwenden willst und einmal als Datenbank mit Antworten, die in den USA erhoben wurden? Bitte erklär mir das nochmal.

Wenn ich es mir richtig zusammengereimt habe, dann könnte man jedem Beruf ein deutsches Grundeinkommen/Grundarbeitszeit/Grundwasauchimmer zuordnen und dann den Unterschied zwischen dem amerikanischen Einkommen und dem deutschen Einkommen modellieren und auf Signifikanz prüfen. Ob man dieses Gurndeinkommen/Grundarbeitszeit/wasauchimmer dann als random effect oder als fixed effect modelliert kann man dann noch sehen. Wenn die Worte hierarchisches Modell oder random effect/fixed effect Dir nichts sagen, dann stellt sich die Frage, wie wichtig diese Arbeit für Dich ist und ob Du bereit bist, Dich dafür in ein noch unbekanntes Statistikthema einzulesen.

LG,
Bernhard

folgende User möchten sich bei bele bedanken:
ChrisvonR

ChrisvonR · von **ChrisvonR** » Mi 17. Jan 2024, 13:16

Hallo Bernhard,

danke für deine Antwort und für den Hinweis auf die Unklarheit. Ich versuche es nochmal, möglichst klar zu schreiben was ich tun soll. Am besten in Stichworten:

- Es gibt zwei Klassifikationssysteme: O*NET und ISCO. O*NET ist in den USA populär, ISCO in Europa.
- Es gibt weiterhin eine Überleitung, in denen die Berufe aus den zwei Systemen einander zugeordnet sind. Beispielsweise entspricht Beruf Nr. 123 aus ISCO dem Beruf Nr. 4567 aus dem O*NET, usw.
- Im O*NET gibt es dann Charakterisierungen der Berufe anhand von verschiedenen Items. U. a. den Kontext "Arbeitszeit", bestehend aus 4 Items (Wöchentliche Arbeitszeit, Arbeitstempo welches sich nach Maschinen etc. richtet, Zeitdruck und Regelmäßigkeit der Arbeitszeit). Dort wurden dann in den USA irgendwelche Leute befragt, anhand dessen O*NET dann zu jedem Item einen Durchschnittswert ausgibt, der typisch für den jeweiligen Beruf ist. Beispielsweise: Polizist - wöchentliche Arbeitszeit im Durchschnitt = (Wert). Die Daten vom O*NET liegen also schon vor.
- Ich soll für meine Befragung nun genau diese 4 Items, die im O*NET zur Arbeitszeit vorhanden sind, übernehmen und meine VPN aus Deutschland dann genau nach diesen befragen. Dabei sind die Berufe der VPN vsl. meist unterschiedlich, vielleicht doppelt sich mal der eine oder andere.
- Ich soll die VPN dann auch nach ihrem Beruf fragen und diesen anschließend im ISCO-System suchen. Dann soll ich anhand der Überleitung den dazu zugeordneten Beruf aus dem O*NET heraussuchen.
- Wenn ich den Beruf im O*NET gefunden habe, habe ich die zugehörigen Daten der 4 Items (sofern vorhanden - ist leider nicht bei jedem Beruf so). So habe ich quasi zu jeder meiner VPN die Daten, die ich erhoben habe sowie die Daten, die mir quasi als Vergleich nach dem Motto "so müsste es nach O*NET eigentlich sein" dienen sollen. Auf der einen Seite am Ende die 4 beantworteten Items meiner VPN und dazu korrespondierend die 4 schon vorhandenen Daten der 4 Items aus dem O*NET. (Welches die korrespondierenden Daten sind, finde ich eben über die Zuordnung der Berufe heraus, die sind in einer Tabelle zugeordnet.)
- Und dann soll ich anhand dieser 4 Items testen, inwiefern die Klassifikationssysteme übereinstimmen oder eben nicht. Sprich: Wie gut passen die Daten aus Deutschland, die ich erhoben habe, auf die zugeordneten Berufe aus den USA im O*NET?

Klang für mich bei der Kurzbeschreibung des Themas zuerst ganz einfach und interessant (musste ja Prioritäten bei der Zuteilung der Bachelorarbeitsthemen abgeben und habe dann das Thema zugeteilt bekommen), aber je mehr ich mich damit beschäftige, auf umso mehr Schwierigkeiten stoße ich und erlange langsam das Gefühl, dass das Thema entweder nicht richtig durchdacht ist oder ich vielleicht Methoden benötige, die über das Bachelorniveau hinausgehen.

Dazu ist es ja so, dass meine Betreuerin in diesem Zusammenhang von t-Tests und irgendwelchen Mittelwerten nichts hält. Wenn ich mich daran orientiere, passt eben keine der Methoden aus dem Bachelorstudium mehr so richtig.

An die von dir genannten Begriffe kann ich mich im Zusammenhang mit diesem Bachelorstudium tatsächlich nicht so richtig erinnern. Das würde ja zu meiner eben genannten, zweiten Vermutung passen. Oder es wurde unter anderen Namen behandelt und ich erinnere mich einfach nicht - möglich ist das, aber es klickert gerade gar nicht bei mir.

Ich kann das Thema noch zurückgeben, da das aber eigentlich nicht mein primärer Wunsch ist und "man das eigentlich nicht macht", dachte ich, ich frage hier erstmal um Hilfe, ob ich einfach zu blöd bin oder in dem Thema der Wurm drin ist.

Kannst du dich anhand meiner Beschreibung noch besser eindenken und weißt was ich genau meine und was mein Arbeitsauftrag ist?

Liebe Grüße
Christiane

bele · von **bele** » Mi 17. Jan 2024, 14:11

Hallo Christiane,

Also wenn ich das richtig zusammenfasse hast Du eine Stichprobe von Menschen, die sowohl eine tatsächliche Arbeitszeit haben als auch eine nach US-Katalog zu erwartende Arbeitszeit. Da wir die Arbeitszeit als intervallskaliert annehmen dürfen können wir Differenzen bilden. Ich habe Schwierigkeiten, eine Skala wie "1 - Weniger als Vollzeit; 2 – Vollzeit; 3 - Mehr als Vollzeit" als metrisch zu betrachten, aber Lehrer haben bekanntlich immer Recht und hinreichend große Fallzahl heilt viele Wunden.

Also wir haben für jeden Teilnehmer eine Abweichung von der amerikanischen Norm und das über alle enthaltenen Berufe hinweg, aber immer gleichartigen Beruf mit gleichartigem Beruf verglichen. Diese Abweichung von der Norm sollte im Durchschnitt Null sein und üblicherweise vergleicht man Durchschnitte mit einem t-Test, in diesem Fall einem Ein-Stichproben-t-Test. Wenn es die Normalverteillungsannahme ist, die Deine Betreuerin beim t-Test stört kann man das auch über einen Permutationstest machen oder man kann ein 95%-Konfidenzintervall für den Unterschied per Bootstrapping bestimmen oder... Es macht aber vielleicht nicht so viel Sinn, den allerhäufigsten aller durchgeführten Tests einfach ohne Begründung außen vor der Tür zu lassen. Da müsste sich schon eruieren lassen, welcher Aspekt des t-Testes der Dame nicht passt, damit man sich für oder gegen etwas anderes entscheiden kann.

Wenn man das ganze anspruchsvoll gestalten will kann man mit Bevölkerungsdaten aus den USA vergleichen, ob man im Verhältnis zur Bevölkerung in den USA zuviele Frauen oder zuviele Handwerker oder zuviele obere Lohngruppen oder zuviele junge Menschen befragt hat und dann kann man das beim Berechnen der Mittelwerte gewichten (wenn man zuwenig Frauen und zuviel Männer untersucht hat kann man den beobachteten Frauen mehr und den beobachteten Männern weniger Gewicht schenken).

Desweiteren muss man sich nicht auf den Mittelwert kaprizieren sondern kann z. B. überlegen, ob man genug Daten hat um zu untersuchen, ob die Schwankung der Arbeitszeit in den amerikanischen Daten höher ist als die Schwankungsbreite bei den Deutschen und so weiter.

ChrisvonR hat geschrieben:... oder ich vielleicht Methoden benötige, die über das Bachelorniveau hinausgehen.

Die oben beschriebene Auswertung mit einer Differenzbildung und einem Ein-Stichproben-t-Test sollte zu schaffen sein.

Dazu ist es ja so, dass meine Betreuerin in diesem Zusammenhang von t-Tests und irgendwelchen Mittelwerten nichts hält.

Wie gesagt bedarf es einer Klärung, welcher Aspekt daran ihr nicht gefällt, sonst kommt man da nicht von der Stelle. Wir versuchen hier gerne, Dir zu helfen, aber die Vorlieben und Abneigungen Deiner Betreuerin musst Du allein herausfinden.

LG,
Bernhard

folgende User möchten sich bei bele bedanken:
ChrisvonR

ChrisvonR · von **ChrisvonR** » Mi 17. Jan 2024, 14:29

Hallo Bernhard,

das hilft mir aktuell tatsächlich schon etwas weiter, denn es überzeugt mich davon, dass meine ursprünglichen Gedanken, die ich vor den Gesprächen mit meiner Betreuung hatte, vielleicht gar nicht SO extrem verkehrt waren. Zumindest insofern, dass ein t-Test hier nicht der komplette Unfug ist, sondern vielleicht sogar durchaus anwendbar.

Wie aber ist es mit dem Gedanken meiner Betreuerin mit der Regressionsanalyse? Ist das an dieser Stelle sinnvoll? Die Story kann ich ja durchaus spinnen, wenn ich annehme, dass die O*NET-Datenbank eine Vorhersage darüber macht, wie meine befragten Leute wohl antworten werden... Oder bietet sich da eher nur eine Korrelationsanalyse an? Vertreten könnte man aus meiner Sicht beides, je nachdem wie man es begründet. Oder?

Viele Grüße
Christiane

bele · von **bele** » Mi 17. Jan 2024, 14:55

Hallo Christiane,

ich wüsste nicht, was eine Pearson-Korrelation bringen soll, was eine lineare Regression nicht auch könnte. Insofern spricht für die Korrelation ihre Einfachheit, für die Regression, dass man einfach viel mehr damit machen kann.
Nehmen wir mal an, Du machst eine Regression mit dem Modell

$\widehat{Zeit_{Euro}} = \beta_0 + \beta_1\cdot Zeit_{USA}$

Wenn $\beta_1 = 1$ ist, dann kannst Du an $\beta_0$ ablesen, wieviel länger die Zeit im Euro-Datensatz ist. Das entspricht dann einem t-Test. Die Kernfrage ist, was machst Du, wenn $\beta_1 \neq 1$ ist? Wie interpretierst Du die Zeit, wenn herauskommt

$\widehat{Zeit_{Euro}} = -2,5h + 1,1\cdot Zeit_{USA}$

Kannst Du das interpretieren und möchtest Du die zusätzliche Information herausziehen, dann ist das der richtige Weg. (Kleiner Tipp: Man kann das interpretieren. Du musst dabei über Berufe mit viel Zeit und wenig Zeit nachdenken. Du könntest so ein Regressionsmodell auch noch vielseitiger und informativer gestalten, zum Beispiel mit einem quadratischen Term:

$\widehat{Zeit_{Euro}} = \beta_0 + \beta_1\cdot Zeit_{USA}+ \beta_2\cdot Zeit_{USA}^2$

Oder Du könntest Informationen zum Geschlecht oder zum Alter mit in die Regression aufnehmen. In der Arbeitswelt sicher nicht abwegig, dass die Geschlechter sich hier unterscheiden. Wie gesagt: mit einer Regression kann man einfach sehr viel mehr machen.

Du kannst t-Test versus Regression nur von der Fragestellung her denken: Was will ich eigentlich wissen. Und ein Stück weit vielleicht auch von der Komplexität: Was kann ich auf meinem Ausbildungsniveau beherrschen und was wächst mir vielleicht über den Hut. Der Ansatz "meine Betreuerin mag das nicht" führt da leider nicht weiter.

LG,
Bernhard

folgende User möchten sich bei bele bedanken:
ChrisvonR

ChrisvonR · von **ChrisvonR** » Mi 17. Jan 2024, 15:06

Hallo Bernhard,

nochmals vielen vielen Dank für die hilfreichen Antworten. Ich habe jetzt einige Denkanstöße bekommen, zu denen ich nun in mich gehen muss. Das werde ich jetzt erstmal machen und schauen, wie weit ich komme.

Ich werde mich entweder dann wieder melden um noch eine Frage zu stellen, oder um zu erzählen, was aus der Sache geworden ist (für die Nachwelt).

Herzliche Grüße
Christiane

STATISTIK-FORUM.de

Vergleich der Übereinstimmung von 2 Klassifikationssystemen

Vergleich der Übereinstimmung von 2 Klassifikationssystemen

Re: Vergleich der Übereinstimmung von 2 Klassifikationssyste

Re: Vergleich der Übereinstimmung von 2 Klassifikationssyste

Re: Vergleich der Übereinstimmung von 2 Klassifikationssyste

Re: Vergleich der Übereinstimmung von 2 Klassifikationssyste

Re: Vergleich der Übereinstimmung von 2 Klassifikationssyste

Re: Vergleich der Übereinstimmung von 2 Klassifikationssyste

Wer ist online?