strukturmarionette hat geschrieben:Hi,
20 Mio Spalten und 30.000 Zeilen
- beschreibe am besten zunächst, um was es geht. Herkunft der Messwerte, Sinn und Zweck der Messungen bzw Auszählungen Aufsummierunegn oder was immer das sein mag ggfs Maßeinheieten u.s.w..
Gruß
S.
Herkunft: Bitcoin Netzwerk
20 Millionen Cluster, die jeweils mehrere Accounts enthalten, die einer (unbekannten) Person zugeordnet werden können (z.B. dadurch dass aus verschiedenen Accounts heraus eine gemeinsame Überweisung getätigt wird, was nur möglich ist, wenn alle beteiligten Accounts von derselben Person kontrolliert werden).
30.000 verschiedene IP Adressen, die bei Aktionen dieser Accounts protokolliert wurden.
In den Zellen der Kontingenztabelle steht die Häufigkeit, wie oft IP_x bei Überweisungen von Cluster_y verwendet wurde.
Zweck: Herausfinden, ob die beobachteten IPs überhaupt mit den Clustern in Zusammenhang stehen. Intuitiv lautet die Antwort "natürlich!", aber das reicht für eine wissenschaftliche Arbeit eben nicht

Mein persönlicher Zweck: den Bitcoin Nutzern zeigen, dass sie sich anonymer fühlen als sie es tatsächlich sind sowie die Aufklärung von Diebstählen in Millionenhöhe zu ermöglichen.
Es sind also zwei kategoriale Variablen, die auf Unabhängig überprüft werden sollen.