p-Wert mit sehr hohen Freiheitsgrade berechnen

p-Wert mit sehr hohen Freiheitsgrade berechnen

Beitragvon haggis » Di 27. Sep 2016, 00:40

Hallo zusammen,

es gibt die berühmten Tabellen zur Chi²-Verteilung bei denen man anhand seines Chi² und den Freiheitsgraden den p-Wert ablesen kann.

Wie aber kann man den selbst berechnen, wenn man so viele Freiheitsgrade hat, dass das Ergebnis in keiner Tabelle steht? Konkret z.B. 10⁹ df.

Hier habe ich folgende Formel gefunden:
P Value = [ 0.5^(df/2) / Γ(df/2) ] × (χ²)^((df/2) -1) × e^(- χ²/2)

Wofür steht dabei das Gamma?

Ich denke mir gerade, dass man die Formel nirgends findet weil es a) entweder kaum jemand weiß oder b) es so offensichtlich ist, dass es niemand extra erwähnen möchte ;)
haggis
Grünschnabel
Grünschnabel
 
Beiträge: 9
Registriert: Mo 13. Jun 2016, 11:33
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: p-Wert mit sehr hohen Freiheitsgrade berechnen

Beitragvon bele » Di 27. Sep 2016, 17:05

Hallo haggis,

bei extrem hohen Freiheitsgraden, interessiert der p-Wert in der Regel nicht mehr, da er bei quasi allen praktisch relevanten Fragen hochsignifikant wird. Die Nullhypothese ist in der Wirklichkeit eigentlich immer falsch und mit so hohen Zahlen findet der Test diese manchmal minimalen Abweichungen von der Nullhypothese verlässlich, auch wenn den minimalen Abweichungen keine praktische Relevanz zukommt.

Bei extrem großen Fallzahlen ist daher die Beschreibung der Güte der Stichprobenziehung und die deskriptive Statistik einschl. Effektstärkemaßen wichtig, der p-Wert unwichtig.

https://en.wikipedia.org/wiki/Gamma_function

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5778
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1356 mal in 1343 Posts

Re: p-Wert mit sehr hohen Freiheitsgrade berechnen

Beitragvon haggis » Di 27. Sep 2016, 19:14

Hallo Bernhard,

danke sehr!

Nur frage ich mich jetzt, was das nun für mich bzw meinen Test bedeutet. Da habe ich eine Kontingenztabelle mit 20 Mio Spalten und 30.000 Zeilen. Davon wollte ich nun eigentlich die Likelood-Ratio berechnen (lassen :D ). Deren Ergebnis ist ja Chi² basiert und lässt sich normalerweise in so einer Tabelle nachschauen. Was für einen Schluss kann ich aber nun daraus ziehen, dass der p-Wert nicht interessiert? Ich muss ja irgendwie die Nullhypothese (X und Y sind unabhängig) bestätigen oder ablehnen und das fundiert begründen können.
haggis
Grünschnabel
Grünschnabel
 
Beiträge: 9
Registriert: Mo 13. Jun 2016, 11:33
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: p-Wert mit sehr hohen Freiheitsgrade berechnen

Beitragvon strukturmarionette » Di 27. Sep 2016, 20:36

Hi,

20 Mio Spalten und 30.000 Zeilen

- beschreibe am besten zunächst, um was es geht. Herkunft der Messwerte, Sinn und Zweck der Messungen bzw Auszählungen Aufsummierunegn oder was immer das sein mag ggfs Maßeinheieten u.s.w..

Gruß
S.
strukturmarionette
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 4313
Registriert: Fr 17. Jun 2011, 22:15
Danke gegeben: 32
Danke bekommen: 582 mal in 579 Posts

Re: p-Wert mit sehr hohen Freiheitsgrade berechnen

Beitragvon haggis » Di 27. Sep 2016, 21:22

strukturmarionette hat geschrieben:Hi,

20 Mio Spalten und 30.000 Zeilen

- beschreibe am besten zunächst, um was es geht. Herkunft der Messwerte, Sinn und Zweck der Messungen bzw Auszählungen Aufsummierunegn oder was immer das sein mag ggfs Maßeinheieten u.s.w..

Gruß
S.

Herkunft: Bitcoin Netzwerk

20 Millionen Cluster, die jeweils mehrere Accounts enthalten, die einer (unbekannten) Person zugeordnet werden können (z.B. dadurch dass aus verschiedenen Accounts heraus eine gemeinsame Überweisung getätigt wird, was nur möglich ist, wenn alle beteiligten Accounts von derselben Person kontrolliert werden).

30.000 verschiedene IP Adressen, die bei Aktionen dieser Accounts protokolliert wurden.

In den Zellen der Kontingenztabelle steht die Häufigkeit, wie oft IP_x bei Überweisungen von Cluster_y verwendet wurde.

Zweck: Herausfinden, ob die beobachteten IPs überhaupt mit den Clustern in Zusammenhang stehen. Intuitiv lautet die Antwort "natürlich!", aber das reicht für eine wissenschaftliche Arbeit eben nicht ;)
Mein persönlicher Zweck: den Bitcoin Nutzern zeigen, dass sie sich anonymer fühlen als sie es tatsächlich sind sowie die Aufklärung von Diebstählen in Millionenhöhe zu ermöglichen.

Es sind also zwei kategoriale Variablen, die auf Unabhängig überprüft werden sollen.
haggis
Grünschnabel
Grünschnabel
 
Beiträge: 9
Registriert: Mo 13. Jun 2016, 11:33
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: p-Wert mit sehr hohen Freiheitsgrade berechnen

Beitragvon strukturmarionette » Di 27. Sep 2016, 21:51

Hi,

das können wohl nur Kenner(Inen) der BitCoin Währung verstehen. Es bleibt vage.

den Bitcoin Nutzern zeigen, dass sie sich anonymer fühlen als sie es tatsächlich sind sowie die Aufklärung von Diebstählen in Millionenhöhe zu ermöglichen.

- hierzu bedarf es m.E. aber eines anderen Untersuchungs-Designs.

Gruß
S.
strukturmarionette
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 4313
Registriert: Fr 17. Jun 2011, 22:15
Danke gegeben: 32
Danke bekommen: 582 mal in 579 Posts

Re: p-Wert mit sehr hohen Freiheitsgrade berechnen

Beitragvon haggis » Mi 28. Sep 2016, 00:25

Hi,

was aber nichts daran ändert, dass jetzt zwei nominale Variablen im Verhältnis 20m:30k vorliegen, deren (Un)abhängigkeit geklärt werden will ;)

Wenn Interesse besteht, teile ich die Arbeit gerne nach Abschluss. Da ist es dann weniger vage, verteilt sich aber auf 50+ Seiten.

Grüße
haggis
Grünschnabel
Grünschnabel
 
Beiträge: 9
Registriert: Mo 13. Jun 2016, 11:33
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: p-Wert mit sehr hohen Freiheitsgrade berechnen

Beitragvon strukturmarionette » Mi 28. Sep 2016, 08:25

Hi,

zwei nominale Variablen im Verhältnis 20m:30k

- Und wie lauten diese zwei Vars konkret? Was beinhalten die?

Gruß
S.
strukturmarionette
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 4313
Registriert: Fr 17. Jun 2011, 22:15
Danke gegeben: 32
Danke bekommen: 582 mal in 579 Posts

Re: p-Wert mit sehr hohen Freiheitsgrade berechnen

Beitragvon bele » Mi 28. Sep 2016, 08:29

Hallo haggis,

die Rückfrage bzw. Bemerkung, dass es vage bleibt, war wahrscheinlich nicht Ausdruck an einem Interesse deiner 50 seitigen Arbeit. Ich kann natürlich nicht berechtigt für alle sprechen, kann mir aber die "wir"-Form nicht verkneifen: Wir hegen ernsthafte Zweifel daran, dass es eine Arbeit gibt, in der sinnvollerweise ein Chiquadrattest über eine solch riesige Matrix gerechnet werden sollte. Wenn tatsächlich ein solch herkulischer Chiquadrattest zu rechnen wäre, müsste man sich wahrscheinlich sehr tiefe Gedanken darüber machen, mit welchen Algorithmen und auf welcher Hardware das möglich wäre und ich glaube nicht, dass googlen nach "easycalculation.com" dafür der richtige Ansatz wäre.

Wahrscheinlicher würde man doch von einem exakten Test auf ein Verfahren des maschinellen Lernens, auf Bootstrapping und Teilstichproben oder modernere Verfahren zum Bewältigen von Big Data ausweichen. Es ist fraglich, ob wir geeignete Kompetenz im Forum haben. Mit einer präzisen Erläuterung der vorliegenden Daten und der tatsächlichen Fragestellung hätten ein paar Leute hier im Forum sich gefragt, ob sie einen Ausweg aus Deiner Datenflut finden. Mit den bisher vorliegenden Informationen lohnt es nicht wirklich, mitdenken zu wollen.

Ich wünsche Dir Viel Glück bei Deiner Arbeit,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5778
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1356 mal in 1343 Posts

Re: p-Wert mit sehr hohen Freiheitsgrade berechnen

Beitragvon haggis » Mi 28. Sep 2016, 10:30

Danke Bernhard.

@all: Hier kommen wir glaube ich nicht mehr weiter. Ihr wollt euch viel tiefer reinknien als es notwendig wäre. Das ehrt euch zwar, hilft mir bei meinem konkreten Problem allerdings nicht weiter. Ich habe mir inzwischen mehrere Statistik Bücher durchgelesen, bei denen alle Verfahren abstrakt beschrieben werden. Es scheint also möglich zu sein, ohne dass man die Geschichte dahinter kennt.

Danke trotzdem fürs Bemühen
haggis
haggis
Grünschnabel
Grünschnabel
 
Beiträge: 9
Registriert: Mo 13. Jun 2016, 11:33
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Nächste

Zurück zu Kreuztabellen & Chi²

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste

cron