STATISTIK-FORUM.de

Pirate · von **Pirate** » Di 31. Jul 2018, 11:01

Hallo zusammen,

ich denke immer, ich habe die Unterschiede verstanden und doch stolpere ich in der praktischen Anwendung:
ich habe für jedes Unternehmen eine Anzahl an Funding-Runden, d.h. wie oft hat dieses Unternehmen eine Finanzierungsrunde abgeschlossen. Die Ausprägungen gehen von 0 bis (theoretisch) unendlich, wobei in einem Histogramm die Verteilung natürlich stark linksseitig ist.

Jetzt kommt die Frage: ist die Variable ordinal- oder verhältnisskaliert?
Für ordinal skaliert spricht, dass sie diskret ist und eine natürliche Reihenfolge hat.
Für verhältnisskaliert spricht hingegen, dass sie einen Nullpunkt hat.
Wenn ich es richtig verstehe, dann ist die wesentliche Unterscheidung, dass ich bei ordinal skalierten Ausprägungen die Werte nicht addieren darf. Hierbei bin ich mir nun unsicher: Denn grundsätzlich sind 4 Funding-Runden besser als 2 Funding Runden. Um wie viel besser, kann ich aber nicht sagen, da ich den Wert des Fundings nicht weiß. Ich tendiere daher zu ordinal skaliert, würde das aber gern mit euch diskutieren.

Hintergrund der Frage: ich möchte auf die richtigen Verteilungsfunktionen testen, welche am besten passt...

Herzlichen Dank,
Mary

bele · von **bele** » Di 31. Jul 2018, 11:59

Hi!

Sind 4 Fundingrunden genau 2 Runden mehr als 2 Runden? Sind 4 Fundingrunden doppelt soviele Fundingrunden wie 2?
Die Zahl der Runden ist wahrscheinlich metrisch, auch wenn Runden nur ein Substitutparameter für die eigentlich interessierende Fundinghöhe ist.

Hintergrund der Frage: ich möchte auf die richtigen Verteilungsfunktionen testen, welche am besten passt...

Verrätst Du uns den Grund, warum Du so etwas tun möchtest?

LG,
Bernhard

folgende User möchten sich bei bele bedanken:
Pirate

Pirate · von **Pirate** » Di 31. Jul 2018, 15:17

Hi Bernhard,

danke für deine Nachricht.

4 Fundingrunden sind eben nicht doppelt so hoch wie 2 Fundingrunden.

Ich möchte wissen, welche Verteilung passt um im Anschluss das richtige Regressionsmodell auswählen zu können. Da ich in meinem Datenset natürlich sehr viele habe, die 0 Fundingrunden haben, ist meine Verteilung stark linksseitig. Durch die diskrete Variable und die Asymmetrie würde ich daher eine geometrische oder negativ-Binomialverteilung vermuten.

LG Mary

bele · von **bele** » Di 31. Jul 2018, 16:06

Pirate hat geschrieben:4 Fundingrunden sind eben nicht doppelt so hoch wie 2 Fundingrunden.

Sind es nicht doppelt soviele Fundingrunden oder ist den Runden nicht doppelt soviel Funding hinterlegt? Ersteres würde in der Tat der Verhältnisskalierung widersprechen, letzteres würde nur die Frage aufwerfen, ob Dir die Zahl der Runden ein ausreichendes Substitut ist, oder nicht.

Ich möchte wissen, welche Verteilung passt um im Anschluss das richtige Regressionsmodell auswählen zu können.

Wäre es da nicht geschickter, die Modelle zu prüfen als die Verteiluing der Daten? Etwa so, wie in diesem Blog durchgeführt: https://www.r-bloggers.com/count-data-a ... ed-models/

Da ich in meinem Datenset natürlich sehr viele habe, die 0 Fundingrunden haben

Im metrischen Fall könnte es dann ggf. interessant werden, auch zero-inflated Modelle anzuschauen, findet sich auch im o. g. Link, sonst auch
https://stats.idre.ucla.edu/r/dae/zip/
https://en.wikipedia.org/wiki/Zero-inflated_model

Viel Erfolg!
LG,
Bernhard

folgende User möchten sich bei bele bedanken:
Pirate

Pirate · von **Pirate** » Di 31. Jul 2018, 16:23

Bernhard, du bist spitze!

Sind es nicht doppelt soviele Fundingrunden oder ist den Runden nicht doppelt soviel Funding hinterlegt? Ersteres würde in der Tat der Verhältnisskalierung widersprechen, letzteres würde nur die Frage aufwerfen, ob Dir die Zahl der Runden ein ausreichendes Substitut ist, oder nicht.

Ich bin mir noch nicht sicher, ob die Fundingrunden als Variable ausreichen - andernfalls könnte ich mir vorstellen, die Variable in funding ja/nein umzuwandeln, aber irgendwo muss man ja anfangen.

Wäre es da nicht geschickter, die Modelle zu prüfen als die Verteiluing der Daten?

Völlig richtiger Punkt. Daran arbeite ich gerade parallel. Allerdings fühle ich mich unsicher die Modelle zu prüfen, wenn ich noch nicht einmal meine Variable richtig einordnen kann.

Lt. meiner Analysen in R ist die negativ binomiale Verteilung die beste. Mir fehlt allerdings noch das Verständnis für "das große Ganze", deshalb versuche ich zumindest im Kleinen meine Hausaufgaben zu machen... Ich finde z.B. diese Übersicht sehr gut https://www.valuewalk.com/wp-content/uploads/2016/05/DCF-Myth-8.png und wünschte, es würde auch zu den angrenzenden Themen mehr Übersichten geben. Glücklicherweise gibt es ja viele R Tutorials, die das Ganze etwas greifbarer machen.

Danke!

LG Mary

bele · von **bele** » Di 31. Jul 2018, 16:44

Pirate hat geschrieben:Ich bin mir noch nicht sicher, ob die Fundingrunden als Variable ausreichen - andernfalls könnte ich mir vorstellen, die Variable in funding ja/nein umzuwandeln, aber irgendwo muss man ja anfangen.

Das beantwortet zwar die Frage nicht, aber wenn Du erst noch selbst nachdenkst, muss das hier noch nicht besprochen werden.

Wäre es da nicht geschickter, die Modelle zu prüfen als die Verteiluing der Daten?

Völlig richtiger Punkt. Daran arbeite ich gerade parallel. Allerdings fühle ich mich unsicher die Modelle zu prüfen, wenn ich noch nicht einmal meine Variable richtig einordnen kann.

Ok, Du bist in R unterwegs, dann ein kleines R-Beispiel. Gegeben sei eine unabhängige Variable X, sagen wir

Code: Alles auswählen: set.seed(123) x <- rbeta(100, 30, 2)

So, nun erstellen wir die abhängige Variable y so, dass sie in einem linearen Zusammenhang mit x steht. eine lineare Regression ist also das angemessene Regressionsverfahren, um y aus x vorherzusagen:

Code: Alles auswählen: epsilon <- rnorm(100, mean = 0, sd=.01) y <- 3*x + 15 + epsilon

Was Du jetzt gerade versuchst, ist aus der Verteilung von y auf das angemessene Regressionsmodell zu schließen. Die Verteilung von y sieht so aus:

Code: Alles auswählen: hist(y, freq = FALSE, main="y") lines(density(y), col="blue")

Du erkennst mühelos, dass die Verteilung von y linksschief ist. Soweit so gut. Jetzt zum Knackpunkt: Was an dieser linksschiefen Verteilung würde Dir helfen zu dem Schluss zu kommen, dass Du eine einfache lineare Regression (OLS) rechnen solltest?Die einfache lineare Regression beschreibt den Zusammenhang zwischen x und y nahezu perfekt, aber die Verteilung von y hilft Dir kein bisschen dabei, das zu erkennen!

Die Analyse der Regression selbst hingegen hilft dabei:

Code: Alles auswählen: > summary(lm(y ~ x))$r.squared [1] 0.9931504

LG,
Bernhard

folgende User möchten sich bei bele bedanken:
Pirate

Pirate · von **Pirate** » Di 31. Jul 2018, 17:32

Das beantwortet zwar die Frage nicht

Stimmt, da habe ich wohl einen Satz gelöscht

Es sollte heißen: die Fundings haben nicht immer den gleichen Wert, d.h. deine Frage, ob die Variable sinnvoll ist, ist durchaus berechtigt. Ich halte sie durchaus im inhaltlichen Kontext für sinnvoll, kaue aber gedanklich auf dem Thema tatsächlich noch herum.

Was an dieser linksschiefen Verteilung würde Dir helfen zu dem Schluss zu kommen, dass Du eine einfache lineare Regression (OLS) rechnen solltest?

Touché, vielen Dank für den Hinweis. Bisher habe ich immer gelesen, dass das Vorgehen wie folgt ist:
Modellwahl (z.B. linear, Poisson, etc.) -> Parameter-Schätzung (z.B. via max. likelihood)-> Qualitätsprüfung (Abweichung Empirie vs. Theorie) -> Güte-Tests (z.B. Person)

Ich versuche also aktuell für den ersten Schritt (Modellwahl) möglichst viel über die beobachteten Werte herauszufinden, um dann die in Frage kommenden Modelle zu testen.

Habe ich einen grundsätzlichen Knoten im Kopf? Muss ich "einfach nur" alle Modelle durchtesten? Mir fällt es z.B. schwer auf Basis deines Beispiels den Call z.B. für eine Poisson-Verteilung herzuleiten (s. aus deinem Link oben:

Code: Alles auswählen: data.pois = data.frame(Trt = c(rep("A", n), rep("B", Response = c(rpois(n, mean.A), rpois(n, mean.B)))

1.000 Dank!

Pirate · von **Pirate** » Di 31. Jul 2018, 17:51

Kleiner Nachtrag, was ich gerade mache:
ich nutze das

Code: Alles auswählen: fitdistrplus

package.
Modelwahl: ich schaue mir die abhängige Variable hinsichtlich Merkmal (diskret oder stetig - bei diskreten habe ich doch z.B. keine Normalverteilung, richtig?), skewness, kurtosis, etc. an.
Außerdem schaue ich mir die Dichte und QQ-Plot an und würde auf dieser Basis jetzt das Modell entscheiden:

Code: Alles auswählen: fgeom <- fitdist(funding, "geom") fnbinom <- fitdist(funding, "nbinom") fpois <- fitdist(funding, "pois") funif <- fitdist(funding, "unif") (...) denscomp(list(fgeom, fnbinom, (...)), addlegend = TRUE) qqcomp(list(fgeom, fnbinom, (...)), addlegend = TRUE)

Liebe Grüße,
Mary

STATISTIK-FORUM.de

praktische Anwendung von Skalen

praktische Anwendung von Skalen

Re: praktische Anwendung von Skalen

Re: praktische Anwendung von Skalen

Re: praktische Anwendung von Skalen

Re: praktische Anwendung von Skalen

Re: praktische Anwendung von Skalen

Re: praktische Anwendung von Skalen

Re: praktische Anwendung von Skalen

Wer ist online?