Vorzeitiger Abbruch von Experimenten durch Statistik

Fragen, die sich auf kein spezielles Verfahren beziehen.

Vorzeitiger Abbruch von Experimenten durch Statistik

Beitragvon Bentex » Mi 30. Jan 2019, 11:11

Guten Morgen zusammen!

Ich möchte folgende Frage stellen:

Gegeben ist ein zunächst kleiner und dann wachsender Datensatz und die Form der typischen, d.h. der an dieser Stelle aus der Erfahrung heraus, beobachteten Verteilung.
Das Ziel sind Schätzungen der äußeren Verteilungsgrenzen, deren Genauigkeit mit zunehmender Datenmenge entsprechend zunimmt. (ist dass das Konfidenzintervall mit z.B. 95%?)

Ich kann in Python eine Verteilung an mein Array anpassen und mir da das Perzentil von 5% bzw. 95% ausgeben lassen.
Allerdings weiß ich ja, dass die angepasste Verteilung durch den kleinen Datensatz kaum das gesamte Spektrum der Streuung abbildet.
Und jetzt die eigentliche Frage: Ist es möglich eine Verteilung abzuschätzen und den maximal zu erwartenden Fehler dazu verwenden, die Grenzen derart zu bestimmen, dass man zu z.B. 95% richtig liegt, d.h. innerhalb des Intervalls. Mir ist klar, dass jede Schätzung auch nicht mehr sein wird und das Intervall zu Beginn aufgrund der Unschärfe deutlich größer sein wird, aber zumindest eine Richtungsvorgabe könnte schon interessant sein.

Bei der Anwendung geht es darum, Experimente vorzeitig zu beenden, sobald klar ist, dass die gewünschte Prozessfähigkeit wahrscheinlich nicht mehr erreicht werden kann.

Ich hoffe ihr könnt mir dabei behilflich sein und verbleibe mit freundlichen Grüßen! :)
Bentex
Grünschnabel
Grünschnabel
 
Beiträge: 3
Registriert: Mi 30. Jan 2019, 09:48
Danke gegeben: 1
Danke bekommen: 0 mal in 0 Post

Re: Vorzeitiger Abbruch von Experimenten durch Statistik

Beitragvon bele » Mi 30. Jan 2019, 14:04

Hallo Bentex,

ich bin mir nicht ganz sicher, ob ich Deine Frage ganz richtig verstehe, will aber schon mal ein paar Dinge ansprechen, die Dir vielleicht schon helfen oder die doch helfen, die Frage zu präzisieren.

1. Was das vorzeitige Abbrechen von Experimenten angeht, so habe ich andernorts mal eine Frage (da ging es aber um p-Werte) beantwortet, die vielleicht zu Deiner Frage passt, vielleicht auch nicht. Ich schlage vor, dass Du Dir die Frage und meine Antwort mal anschaust: https://stats.stackexchange.com/a/244664/117812

2. "ist dass das Konfidenzintervall mit z.B. 95%"? Konfidenzintervalle sind eine einigermaßen komplizierte Konstruktion, die gerne falsch verstanden wird. Im Grunde nutzt man Konfidenzintervallen aber schon dazu plausible Grenzen für Verteilungen anzugeben. In der Regel gibt man damit aber Intervalle an, in die eine Konstante fallen sollte. Wenn ich es richtig verstehe, willst Du keine Abschätzung von Grenzen für eine Konstante sondern Grenzen für eine Wertereihe. Richtig?

3. In der Statistik kommt man oft sehr weit mit der Modellvorstellung, dass tatsächliche Verteilungen Ähnlichkeit zur Normalverteilung haben. Für die Normalverteilung gibt es dann hübsche Rechenmöglichkeiten, die für die realen Daten nur so viel belang haben, wie die echte Verteilung der Nromalverteilung gleicht. In Deinem Kontext könnte der "Standardfehler" oder "standard error" ein interessanter Suchbegriff sein. Er hängt von ab und mit ihm kann man Konfidenzintervalle bestimmen.

4. Das 2,5%-Quantil und das 97,5%-Quantil wären natürliche Grenzen für Deine Verteilung. Wenn Du nur sehr wenig Verteilungsannahmen treffen willst aber schon einen umfangreichen Datensatz hast, kannst Du die Verlässlichkeit Deiner Quantile mittels Bootstrapping prüfen. Das geht, wie gesagt, erst mit ausreichend vielen Beobachtungen und ist etwas rechenintensiv.

[...] anpassen und mir da das Perzentil von 5% bzw. 95% ausgeben lassen.[...] die Grenzen derart zu bestimmen, dass man zu z.B. 95% richtig liegt,


5. Beachte, dass zwischen das 5%- Quantil und das 95%-Quantil nur 90% Deiner Daten passen, nicht 95%.

Ich hoffe, irgendwas davon hilft. Ansonsten hilft es vielleicht zu klären, was genau Deine Fragestellung ist und zu welchen Annahmen (z. B: Verteilungsannahmen) Du bereit bist.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5743
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1339 mal in 1326 Posts

folgende User möchten sich bei bele bedanken:
Bentex

Re: Vorzeitiger Abbruch von Experimenten durch Statistik

Beitragvon Bentex » Mi 30. Jan 2019, 20:24

Guten Abend Bernhard, erst einmal vielen, vielen Dank für deine Hilfe!

Zu 1: Soweit ich das verstanden habe, geht es in dem Experiment darum Einflussfaktoren, Unterschiede etc. zu bestimmen. Ist mit sample-Size die gesamtmenge an Daten gemeint?

Dass an dieser Stelle eine genauere Untersuchung sein muss, okay - die Entwicklung des p-Wertes ist spannend, für mich gerade aber nicht so relevant, glaube ich. Bei mir ist es eher so, dass wenn ich sehe, dass es nicht klappt, ich abbreche. Mein Anliegen ist also viel trivialer, da es mir lediglich darum geht zu wissen, ob meine Streuung zu groß sein wird - oder nicht und das kündigt sich schon recht früh an - ich kann es nur nicht in Zahlen bringen, daurm möchte ich meine Frage gleich genauer darstellen.

Zu 3: Es handelt sich leider nicht um eine Normalverteilung, aber dazu vielleicht eine kurve Frage - ist es korrekt, dass man mit der t-Verteilung (oder Studentenverteilung genannt?) arbeiten kann, wenn eine Normalverteilung annähernd vorliegt.
Zu 4: Ich habe Daten, aber zu diesem Zeitpunkt nicht mit den gegebenen Einstellungen. Um die im gesamten zusammen zu bringen, das wäre eher der Schritt wenn ich in der Nähe der Lösung bin.

Ich denke ich sollte die Frage nun wie folgt formulieren:

Mein Experiment beginnt, es sind keine Daten vorhanden.
Ich führe mein Experiment mehrmals durch und erhalte ein paar Werte.
Ich weiß, dass die Werte f-verteilt sind:
In etwa so:
Bild

Das Ziel der Einstellungen, die ich tätige ist, dass diese Verteilung bestimmte Grenzen nicht überschreitet.
Wenn ich jetzt 5 Werte habe, die sagen wir 190, 200, 150, 120 und 210 betragen, kann ich an diese Werte zwar eine Verteilung anpassen - (ich) weiß aber nicht, mit welchen maximalen bzw. minimalen Werten ich zu rechnen habe.
Die Frage ist, ab welcher Versuchsmenge kann ich sagen, dass die äußeren Grenzen wahrscheinlich über bzw. unterschritten werden.
Wenn ich jetzt die oben gegebenen Werte habe, dann wird die Grenze bei 1000 Versuchen ja wahrscheinlich irgendwo in Richtung 50 bzw. 270 oder so gehen.
Habe ich allerdings statt dessen 199, 187, 178, 200 und 205, dann wird es geschätzt eher min= 150 und max vielleicht 230 sein.
Wann und wie kann ich dazu durch die Statistik eine Aussage treffen?

Grüße und einen schönen Abend noch!
Bentex
Grünschnabel
Grünschnabel
 
Beiträge: 3
Registriert: Mi 30. Jan 2019, 09:48
Danke gegeben: 1
Danke bekommen: 0 mal in 0 Post

Re: Vorzeitiger Abbruch von Experimenten durch Statistik

Beitragvon strukturmarionette » Mi 30. Jan 2019, 21:02

Hi,

Ich führe mein Experiment mehrmals durch

- worum geht es denn konkret?
- was wird womit für wen in welchen Maßeinheiten gemessen?

Gruß
S.
strukturmarionette
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 4312
Registriert: Fr 17. Jun 2011, 22:15
Danke gegeben: 32
Danke bekommen: 582 mal in 579 Posts

Re: Vorzeitiger Abbruch von Experimenten durch Statistik

Beitragvon Bentex » Do 31. Jan 2019, 11:50

Guten Morgen zusammen.

Ist das relevant? Die Zahlen sind nur als Beispiel gedacht.
Aber um deiner Neugierde ein bisschen Futter zu geben so viel dazu:

Es geht um Prägemaschinen und entsprechend das Erzeugen einer Prägung bei Pinzetten.
Die Tiefe der Prägung ist durch Festigkeitsunterschiede des Materials unterschiedlich, sodass bei Bedarf mit einer weiteren Prägemaschine und anderen Einstellungen nachgearbeitet wird. Das Ziel ist die systematische Einstellung beider Maschinen derart, dass die Einprägungstiefe zwischen den vorgegebenen Grenzen liegt.
Die Untersuchung ist in erster Linie für mich und könnte, sofern ich fruchtbaren Boden finde, Teil meiner Abschlussarbeit (Produktionstechnik) werden.


Ansonsten denke ich, dass die Statistik im allgemeinen viel zu selten gerechtfertigt angewendet wird und möchte bzw. muss mich in dem Thema verbessern.

Ich hoffe die Information freut dich :)

Verschneite Grüße
Bentex
Grünschnabel
Grünschnabel
 
Beiträge: 3
Registriert: Mi 30. Jan 2019, 09:48
Danke gegeben: 1
Danke bekommen: 0 mal in 0 Post


Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 6 Gäste