Welche Verteilung liegt vor?

Fragen, die sich auf kein spezielles Verfahren beziehen.

Welche Verteilung liegt vor?

Beitragvon Lory » Mo 10. Aug 2015, 12:52

Hallo zusammen,

ich bin eine Statistik-Anfängerin und deswegen schreibe ich auch erstmal dieses Thema in die allgemeinen Fragen.
Ich behandle zur Zeit Daten von Fahrzeiten und möchte wissen, welcher Verteilung diese folgen. Dazu gibt es verschiedenste Meinungen (von der Lognormal-, über die Poisson- bis zur Weibullverteilung). Wie kann ich denn überhaupt bestimmen, welcher Verteilung diese Daten zugrunde liegen? Ich kann aus den Daten Minima, Maxima, Mittelwert bestimmen. Was benötige ich noch? :?

Ich wäre für eure Hilfe sehr dankbar! :)

LG Lory
Lory
Grünschnabel
Grünschnabel
 
Beiträge: 9
Registriert: Mo 10. Aug 2015, 12:45
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Welche Verteilung liegt vor?

Beitragvon bele » Mo 10. Aug 2015, 13:03

Hallo Lory,

im wirklichen, echten Leben sind die Fahrzeiten nichts von alledem entnommen. Das sind Modelle, Idealisierungen, Vereinfachungen. Deshalb gibt es auch so viele richtige Antworten - alle Modelle sind falsch und mehrere sind trotzdem nützlich. Wenn Du konkrete Fahrzeiten vorliegen hast, dann kannst Du untersuchen, ob sie zu einen oder zur anderen Verteilung besser passen. Weißt Du, was ein Quantile-Quantile-Plot ist?

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5779
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1357 mal in 1344 Posts

folgende User möchten sich bei bele bedanken:
Lory

Re: Welche Verteilung liegt vor?

Beitragvon Lory » Mo 10. Aug 2015, 13:51

Danke vorerst für die schnelle Antwort bele :)

Das Problem ist, dass ich aus den Daten eine Verteilung ableiten muss. Das ist ein Ergebnis der Arbeit, die ich momentan schreibe.
Ein Quantile-Quantile-Plot kannte ich bisher nicht. Habe mich gerade grob eingelesen. Ich würde dann im ersten Schritt aus meinen Daten (Fahrzeiten von verschiedenen Strecken) die Werte, die ich für den Vergleich benötige, ausrechnen. Welche Werte nehme ich für die jeweiligen Verteilungen an? Dann würde ich die Daten miteinander vergleichen und als die "passendste" Verteilung würde ich dann die wählen, bei der die Werte am ähnlichsten sind?

Kurz zur Info: Meine Fahrzeitdaten habe ich für verschiedene Strecken und für verschiedene Uhrzeiten erhoben. Diese Fahrzeiten schwanken logischerweise. Deswegen habe ich die Abweichung zwischen den tatsächlichen Fahrzeiten und der geplanten, minimal möglichen Fahrzeit berechnet. Diese habe ich anschließend relativiert, damit die zusammenfassbar sind (unterschiedliche Streckenlängen und somit Mindestfahrzeiten. Aus diesen Daten konnte ich den Mittelwert und die Varianz berechnen und ein Histogramm erstellen. Und jetzt muss ich ja quasi "nur noch" wissen, welcher Dichteverteilung dieses Histogramm folgt oder?
Lory
Grünschnabel
Grünschnabel
 
Beiträge: 9
Registriert: Mo 10. Aug 2015, 12:45
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Welche Verteilung liegt vor?

Beitragvon bele » Mo 10. Aug 2015, 14:10

Lory hat geschrieben: Und jetzt muss ich ja quasi "nur noch" wissen, welcher Dichteverteilung dieses Histogramm folgt oder?

Welche Dichteverteilung sich am passendsten an dieses Histogramm anpassen lässt. Zum Anpassen verschiedener Verteilungsfunktionen gibt es Computer. Lesevorschlag:
https://cran.r-project.org/doc/contrib/ ... ons-en.pdf
Mit ein wenig googlen kannst Du sicher mehr in der Art finden. Dann brauchst Du noch ein Maß dafür, wie gut der "Fit" ist - un dabei sind QQ-Plots ein nützliches Hilfsmittel.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5779
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1357 mal in 1344 Posts

folgende User möchten sich bei bele bedanken:
Lory

Re: Welche Verteilung liegt vor?

Beitragvon Lory » Di 11. Aug 2015, 15:09

Ich habe noch eine Frage (,die hoffentlich nicht allzu dumm ist):
Bei den Fahrzeiten kann es sich doch nur um kontinuierliche/stetige Verteilungen handeln oder? (Weibullvertielung, Gammverteilung etc.)
Die Poissonverteilung kann ich, da sie zu den diskreten Verteilungen gehört, doch ausschließen oder?
Lory
Grünschnabel
Grünschnabel
 
Beiträge: 9
Registriert: Mo 10. Aug 2015, 12:45
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Welche Verteilung liegt vor?

Beitragvon bele » Di 11. Aug 2015, 15:16

Ja. Wie gesagt: Alle Modelle sind eigentlich falsch und wenn die Anfahrtszeit in Millisekunden sich gut durch eine Poissonverteilung anpassen ließe, dann könnte man auch eine kontinuierliches Maß durch eine diskrete Verteilung annähern. Trotzdem erscheint es logischer für kontinuierliche Maße auch kontinuierliche Verteilungen zu wählen.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5779
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1357 mal in 1344 Posts

Re: Welche Verteilung liegt vor?

Beitragvon Lory » Di 11. Aug 2015, 22:02

Danke das hilft mir auch weiter.

Ich bin gerade wieder mal auf ein Problem in meiner Auswertung gestoßen: Und zwar kann ja die Schiefe der Verteilung folgendermaßen berechnet werden:
(90Perzentil-50Perzentil) / (50Perzentil-10Perzentil)
Bei Fahrzeiten würde man eig rechtsschiefe Ergebnisse erwarten. Allerdings habe ich bei den meisten Strecken eine linksschiefe herausbekommen, was aber denk ich an einem Logikfehler liegt. Die Histogramme, die R mir für die einzelnen Strecken herausgespuckt hat, sind auch alle rechtsverteilt. Eventuell habe ich die Perzentile falsch berechnet?!:
Das 10Perzentil zeigt die 10% kleinsten Fahrtdauern an und somit die schnellsten Fahrten. Und über dem 90Perzentil liegen somit die 10% langsamsten Fahrten. Muss ich diese eventuell genau umdrehen?! Also das 10Perzentil zeigt die 10%langsamsten an?!
Und worauf könnte es beruhen, dass ich in 3 der 18 Fälle eine andere Schiefe herausbekomme?! Kann das sein?!
Lory
Grünschnabel
Grünschnabel
 
Beiträge: 9
Registriert: Mo 10. Aug 2015, 12:45
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Welche Verteilung liegt vor?

Beitragvon bele » Mi 12. Aug 2015, 08:43

Hallo Lory,

klär mal schnell auf, was "rechsverteilt" heißt. Also nach Deiner Rechnung sind die Fahrzeiten linksschief und auf dem Histogramm?

Wenn Du Dir wegen des Rechnens unsicher bist kann es helfen, eine vorgefertigte Funktion zu benutzen und mit Deinen eigenen Ergebnissen abzugleichen. Wenn Du Dir z. B. das package "moments" installierst findest Du darin eine Funktion "skewness()" die Dir helfen könnte, Deine eigenen Ergebnisse abzusichern.

Das 10Perzentil zeigt die 10% kleinsten Fahrtdauern an und somit die schnellsten Fahrten. Und über dem 90Perzentil liegen somit die 10% langsamsten Fahrten. Muss ich diese eventuell genau umdrehen?! Also das 10Perzentil zeigt die 10%langsamsten an?!

Das kommt darauf an, ob Du die Verteilung der Fahrzeiten untersuchen willst oder die Verteilung der Geschwindigkeiten.

Und worauf könnte es beruhen, dass ich in 3 der 18 Fälle eine andere Schiefe herausbekomme?! Kann das sein?!

Du hast weder berichtet, was für 18 "Fälle" Du hast noch dass es drei gibt, die ausscheren. Wir wissen nichts über das Zustandekommen Deiner Daten. Woher sollen wir wissen, was sein kann und was nicht? Wenn Du abstrakte Fragen stellst, dann gibt es abstrakte Antworten. Wenn Du konkrete Fragen stellen willst, dann musst Du die konkrete Situation erklären. Was für Zahlen hast Du da in welcher Fallzahl, wie sind sie zustandegekommen und welche Frage soll damit beantwortet werden und mit welchen Verfahren willst Du die Frage beantworten?

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5779
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1357 mal in 1344 Posts

Re: Welche Verteilung liegt vor?

Beitragvon Lory » Mi 12. Aug 2015, 08:58

Oh sorry, ich war gestern auf einmal so in Panik, dass da etwas mit der Schiefe nicht passt, dass ich nicht mehr so weit gedacht habt, dass ihr die Daten gar nicht kennt ;)
So jetzt der Reihe nach:

-Mit rechtsverteilt meine ich, dass die Verteilung rechtsschief ist und somit links das Maximum und die meisten Werte liegen und die Häufigkeit der Werte nach rechts abfällt. Der Modus liegt links von Median und Mittelwert. So müssten meiner Meinung nach auch die Fahrzeiten aussehen. Die Histogramme sehen auch so aus (links mehr Werte als rechts). Nach meiner Rechnung sind die meisten allerdings linksschief.

-Das Paket in R werde ich gleich mal runterladen und mir angucken. Danke für den Tip!

-Jetzt zu meinen Daten: Die Fahrzeiten wurden über einen längeren Zeitraum mehrmals täglich für 18 Strecken (9 Verbindungen; beide Richtungen) mittels Google Maps und der aktuellen Verkehrslage ermittelt und gesammelt. Es handelt sich insgesamt um rund 1.500 Fahrzeiten.

- Die Schiefe ist bei 15 Strecken gleich; bei 3 Verbindungen (Hamburg-Berlin, Berlin-Hamburg, und Rostock-Dresden) ist die Schiefe allerdings genau andersherum gerichtet, als bei allen anderen.

Ich hoffe, dass mein Problem jetzt ein wenig transparenter ist ;)
Lory
Grünschnabel
Grünschnabel
 
Beiträge: 9
Registriert: Mo 10. Aug 2015, 12:45
Danke gegeben: 2
Danke bekommen: 0 mal in 0 Post

Re: Welche Verteilung liegt vor?

Beitragvon bele » Do 13. Aug 2015, 13:22

Lory hat geschrieben: Der Modus liegt links von Median und Mittelwert. So müssten meiner Meinung nach auch die Fahrzeiten aussehen. Die Histogramme sehen auch so aus (links mehr Werte als rechts). Nach meiner Rechnung sind die meisten allerdings linksschief.

Wenn Histogramm und eignene Rechnung sich widersprechen dann lieber nochmal eine fertige Funktion rechnen lassen. Es gibt mehrere Packages die solche Funktionen beinhalten.

Die Schiefe ist bei 15 Strecken gleich; bei 3 Verbindungen (Hamburg-Berlin, Berlin-Hamburg, und Rostock-Dresden) ist die Schiefe allerdings genau andersherum gerichtet, als bei allen anderen.

Da musst Du nach sachlichen Gründen suchen. Ich könnte mir vorstellen, dass es Autobahnbaustellen gibt, die ganz oft den Verkehr behindern (häufig lange Fahrzeiten) aber manchmal (nachts oder zu Beginn oder Ende des Untersuchungszeitraums) eben nicht (wenige schnelle Fahrten).

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5779
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1357 mal in 1344 Posts

Nächste

Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 4 Gäste

cron