Dummycodierung kategorialer Variablen

Alle Verfahren der Regressionanalyse.

Dummycodierung kategorialer Variablen

Beitragvon Blech » Sa 3. Jun 2017, 21:26

Hey ihr Lieben,

ich verzweifle gerade beim Thema Dummycodierung (wir haben das als Unterpunkt zur "Spezifikation von Regressionsmodellen").

Ich habe mir aufgeschrieben, dass b0/ Intercept der Mittelwert in der Kategorie ist, die auf allen Codiervariablen eine null aufweist (= Referenzkategorie). Ich habe mir zudem notiert, dass x0 die Prädiktorvariable für den Intercept ist und in der normalen Regression rausfällt, da es immer 1 ist (Gleichung: y = beta0 * x0 + beta1 * x1 + E).
Meine Fragen lauten nun:
1) Warum ist x0 in der normalen Regression 1?
2) Warum ist der Intercept immer 1? (vllt. weil die Kategorie 1 genau auf der y-Achse liegt?)
3) Wir hatten zudem, dass die Kategorie die Referenzkategorie ist, die überall außer beim Intercept mit null kodiert ist, aber wieso ist das so??

Ein Beispiel, das wir hatten:

Geschlecht Intercept Dummy 1
(männlich = TRUE)
w x0 = 1 x1 = 0
m x0 = 1 x1 = 1

Habt vielen lieben Dank!! :)
Blech
User
User
 
Beiträge: 43
Registriert: Mo 21. Mär 2016, 19:46
Danke gegeben: 8
Danke bekommen: 0 mal in 0 Post

Re: Dummycodierung kategorialer Variablen

Beitragvon PonderStibbons » Sa 3. Jun 2017, 23:05

ich verzweifle gerade beim Thema Dummycodierung

Ja, Mensch, wieso das denn!?
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11228
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 49
Danke bekommen: 2467 mal in 2451 Posts

Re: Dummycodierung kategorialer Variablen

Beitragvon Blech » So 4. Jun 2017, 09:27

Sind meine Fragen so einfach?? Sorry, in Mathe brauche ich immer ewig, bis ich was verstehe.. :/
Blech
User
User
 
Beiträge: 43
Registriert: Mo 21. Mär 2016, 19:46
Danke gegeben: 8
Danke bekommen: 0 mal in 0 Post

Re: Dummycodierung kategorialer Variablen

Beitragvon PonderStibbons » So 4. Jun 2017, 13:10

Ich dachte, vielleicht geht es auch eine Nummer kleiner als mit Verzweiflung.
1) Warum ist x0 in der normalen Regression 1?
2) Warum ist der Intercept immer 1? (vllt. weil die Kategorie 1 genau auf der y-Achse liegt?)

Der Intercept ist b0, also nicht immer "1". Was x0 sein soll, weiß ich gar nicht mal, außer es steht eben für die Zahl 1.
3) Wir hatten zudem, dass die Kategorie die Referenzkategorie ist, die überall außer beim Intercept mit null kodiert ist, aber wieso ist das so??

Verstehe ich leider nicht.

Mit freundichen Grßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11228
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 49
Danke bekommen: 2467 mal in 2451 Posts

Re: Dummycodierung kategorialer Variablen

Beitragvon Blech » So 4. Jun 2017, 20:35

Achso ja ok.. sorry, hab echt Angst vor der Prüfung ;)

Alles mysteriös.. Ich hab schon meinen Prof gefragt, aber er meinte, er könne es zeitnah nicht beantworten..

Danke PonderStibbons für deine Bemühungen! :)
Blech
User
User
 
Beiträge: 43
Registriert: Mo 21. Mär 2016, 19:46
Danke gegeben: 8
Danke bekommen: 0 mal in 0 Post

Re: Dummycodierung kategorialer Variablen

Beitragvon bele » Di 6. Jun 2017, 09:56

Hallo Blech,

Du befindest Dich wohl in einem jener Zwischenzustände, die ein Lehrer eingeführt hat, um zu einem Thema hinzu leiten. Diese Hinleitung ist aber kein Allgemeingut und daher schlecht in einem Forum zu erfragen.

Dein Post ist verwirrend, weil b0/Intercept nicht "b0 durch Intercept" heißt und weil es mal b0 und mal beta0 heißt, obwohl das gleiche gemeint ist.

Verbreitet ist folgende Formeldarstellung der linearen Regression:


Diese Darstellung ist nicht sehr glücklich, wenn man nicht weiß, wieviele verschiedene es geben wird.

Die diesbezüglich bessere Schreibweise in mathematischer Formulierung wäre eine Matrixmultiplikation. Damit wird die Formel schlagartig viel kürzer und sie kommt dann auch ohne die "" aus.

Wenn Du mehr darüber wissen willst, dann kannst Du z. B. hier lesen: https://en.wikipedia.org/wiki/Design_matrix

Ich denke, Dein Prof. will die Design Matrix einführen und hat dafür in einem ersten Schritt folgende Umstellung gemacht: Aus


wird durch Multiplikation von mit 1:


Das stimmt offensichtlich immer. Nun hat Dein Prof. diese 1 umbenannt in :


Das erscheint jetzt erstmal sinnlos, wird aber dann sinnvoll, wenn die erste Spalte einer Design Matrix, die nächste Spalte und wieder die nächste Spalte einer Design Matrix ist.

Solange die Design Matrix noch nicht eingeführt wurde, ist deshalb 1, weil es als 1 definiert wurde.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5743
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 15
Danke bekommen: 1339 mal in 1326 Posts


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste