Hallo,
ich wühle mich seit Tagen durch Literatur und das Internet, komme aber nicht wirklich weiter.. Eigentlich sollte das alles nicht so schwer sein, aber ich hab ne Gedankenblockade..
Vielleicht finde ich ja hier endlich Hilfe Oder wenigstens Hinweise, zu welchen Modellen ich Literatur vertiefen sollte. Ich komme langsam durcheinander und verliere den Überblick..
Meine Aufgabe ist folgende:
Ich soll eine Vorhersage treffen, ob ein Kurier eine Strecke innerhalb einer Zeitspanne von 15 Minuten zurücklegen kann. Die Strecken werden als schaffbar eingeschätzt, bzw. die Kuriere fahren Strecken, von denen sie selber glauben, sie auch in der Zeit zu schaffen (soll vielleicht darauf hindeuten, dass der Anteil der Fahrten, die in 15min geschafft wurden eine Effizienzkennzahl des Fahrers beschreibt? siehe unten..)
Dafür habe ich einige gemessene Zeiten, die allerdings nur in Intervallen vorliegen.
0-10 Minuten, 10-15 Minuten, 10-20 Minuten, 20-40 Minuten, >40 Minuten
(Die Skalierung ist gefühlt eher sch..lecht gewählt, aber ich habe leider nur diese Daten und keine Chance die Daten neu zu erheben.)
Zu diesen gemessenen Zeiten habe ich eine Reihe Faktoren, deren Einfluss ich bewerten möchte (und im Endeffekt möchte ich ein Modell erstellen, mit dem ich eine möglichst sichere Prognose treffen kann, ob die 15 Minuten schaffbar sind.)
Diese Faktoren sind sowohl metrische Variablen wie das transportierte Gewicht, die Fahrtstrecke, als auch Faktoren wie die Uhrzeit (rush hour..), der Monat (könnte ja glatt sein), eine Bewertung der Strecke (hügelig, flach, etc.), das Alter des Fahrers .. etc.
Die erste Frage, mit der ich nicht weiterkomme ist allerdings: WAS ist das eigentlich für eine Skalierung, die meine abhängige Variable da hat??
- Intervallskaliert? Ich kann die Intervalle ordnen, ich sehe unterschiedliche Intervallgrößen.
- Verhältnisskaliert? Ich sehe einen absoluten Nullpunkt, aber ich habe ja Werte, die irgendwo innerhalb dieses Intervalles liegen..
Zweitens suche ich nach einer Möglichkeit die Zeit-Messwerte pro Fahrer irgendwie zusammenzufassen, da ich unterstelle, dass manche beispielsweise sportlicher sind als andere und deswegen prinzipiell schneller.
- Welche Aggregation würde sich anbieten? Mittelwert der Zeiten von Fahrer x würde die Streuung innerhalb der gefahrenen Intervalle ja vollkommen ignorieren.. Median also? Anteil der Fahrten, die er in 15 Minuten geschafft hat?
- Darf ich das überhaupt, oder wäre das eine Erklärung von Y mit Y? Muss ich dann die Beobachtungsdaten splitten und in Menge A den Indikator berechnen, während ich dann die Gewichte für meine Faktoren in Menge B berechne?
Welche Modelle darf ich benutzen um Prognosen zu treffen? (recap, die Frage war: schafft er es in 15min?)
- Intervallregression, Prognose: wie lange braucht er? ist das <= 15? fertig
- soll ich meine Zeitintervalle einfach in binäre Entscheidungsvariablen transformieren (<=15, >15) und dann eine (binäre) logistische Regression darauf fahren?
- ich bin über ordered logistic regressions gestolpert (kann aber mit den vorausgesetzten proportional odds nichts anfangen, sind die durch meine verschieden großen Intervalle gestört?)
- mit ordered probit müsste ich mich noch komplett beschäftigen, Wikipedia-überfliegen erklärt mir leider nicht fix, was sie tut - kann ich damit gute Ergebnisse erzielen?
- bieten sich Entscheidungsbäume an?
-- machen mehrere Modelle Sinn, die ich dann einfach alle durcharbeite und gegenüberstelle?
achso, wir haben ein schön großes N (~40.000) und für Bonuspunkte den Hint bekommen, dass einige der vorgegebenen Faktoren "teurer" seien. Wie kann man das abbilden?
Hatte das vorher so verstanden, dass man Faktoren hinzunehmen kann, solange das korrigierte R² größer wird - kann man die Kosten pro hinzugenommenem Faktor gewichten?