STATISTIK-FORUM.de

Hey zusammen

Ich habe mal wieder eine Fragestellung und bin mir (wie immer) nicht sicher, ob ich das überhaupt statistisch untersuchen kann.

Ich erzeuge mir Zufallszahlen für 3 Variablen welche Normalverteilt sind: a, b und c.

a: μ = 1, σ = 0.05 (1 + 0.05 * randn(25,1))
B: μ = 0.04, σ = 0.0005 (0.04 + 0.0005 * randn(25,1))
c: μ = 0.6 σ = 0.05 (0.6 + 0.05 * randn(25,1))

Mit Hilfe der drei Variablen berechne ich dann die zu untersuchende Basis der Daten mittels d1=a+b+c. Das ganze 25 mal.

Dann erzeuge ich mir noch einmal Daten (N = 5, 10, 15 und 25), diese werden aber zusätzlich noch einmal verrauscht (d2 = a+b+c + rauschen).

Ich möchte jetzt feststellen, ob 5, 10, 15 oder 25 Werte gemessen werden müssen, um eine ähnlichen Mittelwert bzw. eine ähnliche Verteilung der Werte zu erhalten wie in d1.

Beispieltabelle: https://ibb.co/jD2DH9z
Boxplot: https://ibb.co/bWHKrkM
(Im Forum kann ich direkt nichts hochladen, da erhalte ich: "Das Kontingent für Dateianhänge ist bereits vollständig ausgenutzt.")

Im Boxplot sieht es für mich erst mal so aus, als ob N = 5 und 10 nicht ausreichend sind, 15 und 25 aber schon.
Wie könnte ich das jetzt statistisch korrekt beschreiben?

Untersuchung 1: Unterscheiden sich N 5, 10, 15 und 25 signifikant? -> Varianzanalyse (unbalanciert)?

Untersuchung 2: Reichen N Messung aus? Da würde ich jedes d2 (N = 5, 10, 15 und 25) mit d1 vergleichen. Alle Daten sind jedes mal zufällig generiert -> unabhängig, weil zufällige Zahlen? Oder ist es doch abhängig, weil die Zufallszahlen aus einem bestimmten Bereich (siehe μ und σ) erzeugt werden?

Hoffe ihr könnt mir weiterhelfen.

Hi,

ich möchte jetzt feststellen, ob 5, 10, 15 oder 25 Werte gemessen werden müssen, um eine ähnlichen Mittelwert bzw. eine ähnliche Verteilung der Werte zu erhalten wie in d1.

- wäre zu konkretisieren

Gruß
S.

Hey Patrick,

ich finde Deine Darstellung verwirrend.

patrickB hat geschrieben:a: μ = 1, σ = 0.05 (1 + 0.05 * randn(25,1))
B: μ = 0.04, σ = 0.0005 (0.04 + 0.0005 * randn(25,1))
c: μ = 0.6 σ = 0.05 (0.6 + 0.05 * randn(25,1))

Die Funktionsbezeichnung randn kann auf Matlab, hindeuten, kann auf Python hindeuten und kann Pseudocode sein. Wenn du auf ein spezielles System eingehen willst, solltest Du das auch spezifizieren.

Mit Hilfe der drei Variablen berechne ich dann die zu untersuchende Basis der Daten mittels d1=a+b+c.

Was verstehst Du unter einer "zu unterzuchenden Basis der Daten"? Ist die "Basis der Daten" das gleiche wie die "Daten"?

Das ganze 25 mal.

Der Code oder Pseudocode oben produziert pro Aufruf 25 Zufallszahlentripel. Willst Du 25 Mal den Code aufrufen, also $25 \times 25 = 625$ Zahlentripel berechnen oder beschreibst Du jetzt nur ein weiters Mal, dass Du 25 Zahlentripel haben willst?

Dann erzeuge ich mir noch einmal Daten (N = 5, 10, 15 und 25), diese werden aber zusätzlich noch einmal verrauscht (d2 = a+b+c + rauschen).

Es ist rätselhaft, dass Du uns für $d_1$ die genauen Mittelwerte und Standardabweichungen nennst, die Natur des Rauschens aber so unspezifisch lässt. Warum gibst Du uns Rätsel bezüglich des Vorgehens auf?

Ich möchte jetzt feststellen, ob 5, 10, 15 oder 25 Werte gemessen werden müssen, um eine ähnlichen Mittelwert bzw. eine ähnliche Verteilung der Werte zu erhalten wie in d1.

Wie PonderStibbons schon geschrieben hat ist "ähnlich" kein statistischer und kein mathematischer Begriff. Wenn dieser Begriff/diese Begriffe zum Kern der Fragestellung werden, müssen sie präzise Definitionen bekommen.

(Im Forum kann ich direkt nichts hochladen, da erhalte ich: "Das Kontingent für Dateianhänge ist bereits vollständig ausgenutzt.")

Ein altes Problem. Auch wenn die Forenadministration sich seit Jahren nicht darum schert, dass immer wieder Leute ihre Zeit damit verplempern, kann ich Dich nur bitten, Dich bei einem der beiden Administratoren zu beschweren. Vielleicht höhlt ja steter Tropfen den Stein.

Im Boxplot sieht es für mich erst mal so aus, als ob N = 5 und 10 nicht ausreichend sind, 15 und 25 aber schon.
Wie könnte ich das jetzt statistisch korrekt beschreiben?

Eine präzise Beschreibung, was für Dich wie aussieht, können wir nicht liefern.

Untersuchung 1: Unterscheiden sich N 5, 10, 15 und 25 signifikant? -> Varianzanalyse (unbalanciert)?

Ich glaube nicht, dass eine Varianzanalyse das widerspiegelt, was Du mit "gleich aussehen" meinst.

Untersuchung 2: Reichen N Messung aus? Da würde ich jedes d2 (N = 5, 10, 15 und 25) mit d1 vergleichen. Alle Daten sind jedes mal zufällig generiert -> unabhängig, weil zufällige Zahlen? Oder ist es doch abhängig, weil die Zufallszahlen aus einem bestimmten Bereich (siehe μ und σ) erzeugt werden?

Das sind unabhängige Stichproben aus identischen Verteilungen.

Sei $n$ eine große Zahl und $f$ eine Funktion die eine 1 zurück gibt, wenn eine Zahlenreihe ähnlich wie $d_1$ verteilt ist und eine 0 zurück gibt, wenn die Zahlenreihe zu unähnlich zu $d_1$ ist.

Dann kannst Du in einer Schleife $n$ mal eine 5er Stichprobe $d_2^5$ und ein $d_1$ ziehen und aufaddieren, wie oft die Funktion 1 wird, also $1/n\times\sum_{i=1}^{n}f(d_2_i^5, d_1_i)$ ist.
Analog dann $1/n\times\sum_{i=1}^{n}f(d_2_i^{10}, d_1_i)$ und $1/n\times\sum_{i=1}^{n}f(d_2_i^{15}, d_1_i)$ usw.

Egal ob Matlab oder Python, ein fünfstelliges $n$ sollte schneller zu rechnen sein, als Du Dir einen Kaffee kochen kannst. Mach das mehrmals, und wenn die Ergebnisse zu sehr divergieren, dann nimm halt ein sechsstelliges $n$ .

HTH,
Bernhard

Danke für die bisherigen Antworten bzw. Hinweise.

bele hat geschrieben:Die Funktionsbezeichnung randn kann auf Matlab, hindeuten, kann auf Python hindeuten und kann Pseudocode sein. Wenn du auf ein spezielles System eingehen willst, solltest Du das auch spezifizieren.

Ich benutze Matlab für die Generierung und Auswertung der Daten.

bele hat geschrieben:Was verstehst Du unter einer "zu unterzuchenden Basis der Daten"? Ist die "Basis der Daten" das gleiche wie die "Daten"?

Ich meinte mit „die zu untersuchende Basis der Daten“ die Daten, welche die Referenzwerte darstellen sollen, also d1. Da hab ich wohl eine falsche Bezeichnung gewählt.

bele hat geschrieben:Der Code oder Pseudocode oben produziert pro Aufruf 25 Zufallszahlentripel. Willst Du 25 Mal den Code aufrufen, also $25 \times 25 = 625$ Zahlentripel berechnen oder beschreibst Du jetzt nur ein weiters Mal, dass Du 25 Zahlentripel haben willst?

Ich möchte erst einmal nur 25 Zahlentripel erstellen. Wenn ich verstanden habe welchen Test ich anwenden muss, führe ich alles mehrfach durch.

bele hat geschrieben:Es ist rätselhaft, dass Du uns für $d_1$ die genauen Mittelwerte und Standardabweichungen nennst, die Natur des Rauschens aber so unspezifisch lässt. Warum gibst Du uns Rätsel bezüglich des Vorgehens auf?

Das Rauschen ist momentan so definiert: d2 = a + b + c + (0.1 + 0.05 * randn(25,1))

bele hat geschrieben:Wie PonderStibbons schon geschrieben hat ist "ähnlich" kein statistischer und kein mathematischer Begriff. Wenn dieser Begriff/diese Begriffe zum Kern der Fragestellung werden, müssen sie präzise Definitionen bekommen.

Im Boxplot sieht es für mich erst mal so aus, als ob N = 5 und 10 nicht ausreichend sind, 15 und 25 aber schon.
Wie könnte ich das jetzt statistisch korrekt beschreiben?

Eine präzise Beschreibung, was für Dich wie aussieht, können wir nicht liefern.

Ich möchte feststellen, ob der Unterschied zwischen den Mittelwerten d1 und d2 (jeweils mit N=5, 10, 15, 25) sich signifikant unterscheidet.

Ich hab Probleme damit, dies genau zu beschreiben. In der folgenden Abbildung sieht man (https://ibb.co/4gqJMPW), dass die Mehrheit der Daten (Interquartile Range Q1 bis Q3) und der Median bei N = 5 und N = 10 nicht auf der gleichen Höhe ist, wie d1 (schwarze Linien). Bei N = 15 und 25 liegt die Mehrheit der Daten (Q1 bis Q3) näher an diesem Bereich. Die Daten von d2 sollten also im Bereich von [μ - σ; μ + σ] liegen. μ wäre dann der Wert von d1.

Wie ich das jetzt noch genauer definieren soll ist mir leider (noch) nicht klar.

Ich hoffe, es ist jetzt etwas verständlicher geworden.

patrickB hat geschrieben:Ich benutze Matlab für die Generierung und Auswertung der Daten.

Cool. Dann wissen wir schon mal eine ganze Reihe von Sprachen, in denen wir gar keine Antwort coden müssen.

patrickB hat geschrieben:Das Rauschen ist momentan so definiert: d2 = a + b + c + (0.1 + 0.05 * randn(25,1))

Dann ist d2 zunächst einfach nur die Summe von vier Normalverteilungen. Das brauchst Du nicht simulieren, das kannst Du algebraisch lösen, in dem Du die Mittelwerte und die Varianzen (nicht die Standardabweichungen!) aufaddierst. Dann hast Du nur noch ein Viertel der randn-Aufrufe und damit fast vierfache Rechengeschwindigkeit, wenn Du irgendwas simulieren willst. ( https://de.wikipedia.org/wiki/Reproduktivit%C3%A4t )

Ich möchte feststellen, ob der Unterschied zwischen den Mittelwerten d1 und d2 (jeweils mit N=5, 10, 15, 25) sich signifikant unterscheidet.

Ok, "signifikant" unterscheiden heißt nicht "ausreichend" unterscheiden. Signifikant wird er sich in 5 % der Fälle unterscheiden, ziemlich egal, wieviele Proben zu ziehst: Zwar sind die Mittelwerte mit zunehmendem n immer ähnlicher, aber auch die Signifikanzprüfung wird mit zunehmendem n immer genauer. Deshalb solltest Du nochmal in Dich gehen, ob "ausreichend ähnlich" und "nicht signifikant unterschiedlich" für Dich das gleiche sind.

Wie ich das jetzt noch genauer definieren soll ist mir leider (noch) nicht klar.

Es muss so präzise formuliert werden, dass man die entsprechende Funktion programmieren kann.

Ich hoffe, es ist jetzt etwas verständlicher geworden.

Ja, das hat Dinge so geklärt, wie ich sie am Schluss auch angenommen hatte.

LG,
Bernhard

Noch einmal danke für deine Antwort Bernhard.
Ich muss wohl noch etwas an der Terminologie im Bereich der Statistik arbeiten.

Wenn ich meine Fragestellung noch einmal überdenke: Bei wie vielen Messungen N (5, 10, 15, 25) weichen die Daten maximal 10% von den Werten aus d1 ab.

Zwar sind die Mittelwerte mit zunehmendem n immer ähnlicher, aber auch die Signifikanzprüfung wird mit zunehmendem n immer genauer.

Also könnte man doch ermitteln, wann es sich nicht mehr lohnt noch weitere N zu messen/ziehen?

## Mir fällt gerade noch etwas ein..

Könnte man zusätzlich eine Aussage über die individuelle Genauigkeit (+-10%) geben, wenn folgendes verändert wird?:

d1i sind 25 Werte
d2i = d1i + rauschen (nehmen wir menschliche Fehler an, wie auch immer die definiert sind)

Dann haben wir wahrscheinlich den Fall von verbunden Variablen, da d1 Einfluss auf die Werte von d2 hat(?).

Als Beispiel fällt mir folgendes ein:
Ich habe ein Signal und Messe zu 100% den exakten Wert (d1).
Das Signal (d1) wird verrauscht (0.1 + 0.05 * randn(25,1)) und ich messe erneut (d2).
Also wird auf d1 einfach Rauschen addiert.
d2 wird also wahrscheinlich von d1 abweichen, da das Rauschen die Messung stört.

Da könnte ich dann je Zeile einfach d1 - d2 berechnen und schauen, ob die Differenz mehr als 10% ausmacht.

Die Frage ist dann aber wieder: Wie viele verschiedene Signale muss ich messen (5, 10, 15 ,25) um eine mittlere Abweichung von 10% zu erhalten.

VG, Patrick

Hi,

- Welche Art von Signalen messfehlerfrei in welchen Maßeinheiten misst Du denn?
- Ggfs käme C (maschinennah) oder C++ zur Programmierung in Frage.

Gruß
S.

10% ist doch jetzt mal eine Ansage. Ich würde das per Simulation machen. Lass Matlab eine große Zahl von d ziehen und probier aus, wie oft ein 5er d2 die 10 % schafft oder nicht schafft. Kannst Du genug Matlab, um das umzusetzen?

LG,
Bernhard

@strukturmarionette
Ich messe keine Signale, wollte dies nur als Beispiel anführen, da ich mir so Rauschen am besten erklären kann.

@bele

Ich habe mich in Matlab mal versucht an einem Script.

Code: Alles auswählen: %Erzeuge d1: Werte, gegen die geprüft wird a = 1 + 0.05 * randn(5,1); b = 0.04 + 0.0005 * randn(5,1); c = 0.6 + 0.05 * randn(5,1); d1 = a + b + c; %Zählvariable: Wie oft ein 5er maximal 10% Abweichung erreicht count = 0; %Führe das ganze 200 mal durch for i=1:200 a_ = 1 + 0.05 * randn(5,1); b_ = 0.04 + 0.0005 * randn(5,1); c_ = 0.6 + 0.05 * randn(5,1); d2 = a_ + b_ + c_ + (0.01 + 0.05 * randn(1)); %Prüfe auf 10% [p,h] = ranksum(d1,d2, 'Alpha', 0.10); %Wenn h = 1 dann erhöhe den Zähler if(h == 1) count = count + 1; end end fprintf('%i von %i weichen mit mehr als 10 Prozent ab\n', count, i)

Hi,

ich kann kein Matlab und ich verstehe nicht, warum Du eine Funktion für Rangsummen brauchst, aber das kann beides zusammenhängen. Ixh bin auch überrascht, dass d1 nur aus 5 Werten besteht. Hätte das oben so verstanden, dass das immer 25 seien.
Hauptsache es klappt jetzt.

LG,
Bernhard

STATISTIK-FORUM.de

Wie viele Messungen notwendig für gleiche zentrale Tendenz

Wie viele Messungen notwendig für gleiche zentrale Tendenz

Re: Wie viele Messungen notwendig für gleiche zentrale Tende

Re: Wie viele Messungen notwendig für gleiche zentrale Tende

Re: Wie viele Messungen notwendig für gleiche zentrale Tende

Re: Wie viele Messungen notwendig für gleiche zentrale Tende

Re: Wie viele Messungen notwendig für gleiche zentrale Tende

Re: Wie viele Messungen notwendig für gleiche zentrale Tende

Re: Wie viele Messungen notwendig für gleiche zentrale Tende

Re: Wie viele Messungen notwendig für gleiche zentrale Tende

Re: Wie viele Messungen notwendig für gleiche zentrale Tende