MLR: konstruktives Problem: Daten nicht für alle Kategorien

Alle Verfahren der Regressionanalyse.

MLR: konstruktives Problem: Daten nicht für alle Kategorien

Beitragvon Berry » So 25. Mär 2012, 19:02

Hallo Zusammen.

Zunächst eine Beispielssituation:

Ich bin Lieferant eines bestimmten Produkts und untersuche den Absatz durch verschiedene Kunden. Dabei habe ich mehrere metrischen sowie kategorialen Einflussgrößen. Eine davon ist meine interne Kundenklassifizierung mit z. B. 10 Klassen (a,...,j) und eine endere ist das Bundesland. Mein Datenbestand hat Infos über 5000 Bestandskunden, d. h. 5000 Datensätze. Mal angenommen, wenn ich den Bestand getrennt je Klasse anschaue, dann stelle ich fest, dass z. B. in der Klasse d habe ich nur 30 Kunden, wobei 10 davon aus Bayern, 10 aus Sachsen, 2 aus Thüringen und je 1 aus Berlin, Hamburg und Bremen kommen, also nicht aus allen Bundesländern. In den anderen Klassen a,b,c,e,f,g,h,i und j habe ich aber mehrere Kunden aus allen Bundesländern vorhanden.

Nun meine Frage: kann bzw. darf ich die Kunden aus der Klasse d für die Modellierung mittels MLR verwenden bzw. in meinem Datenbestand beibehalten, oder ist es besser, diese zu entfernen?

Es ist mir klar, dass wenn ich diese Daten enfernen werden, dann werde ich keinen Schätzer für Regressionskoeffizienten für diese Klasse bekommen und somit auch keine Absatzprognose für neue Kunden, die diese Klasse angehören, machen können. Wenn ich sie aber beibehalte, dann wird natürlich auch eine Prognose für die neuen Kunden aus der Klasse d und in z. B. Saarland möglich, obwohl ich keinen einzigen Datensatz für solche Kunden aus diesem Bundesland in meinem Bestand hatte.

Ich hoffe, ich konnte mein Problem einigermaßen nachvollziehbar schildern, und freue mich auf Eure Rückmeldung(en)

Gruß

Berry
Berry
Power-User
Power-User
 
Beiträge: 50
Registriert: Mi 23. Nov 2011, 17:15
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: MLR: konstruktives Problem: Daten nicht für alle Kategor

Beitragvon KoRnfuzius » So 25. Mär 2012, 21:14

Nicht berücksichtigen. Ohne entsprechende Daten keine reliable Schätzung.
KoRnfuzius
Beobachter
Beobachter
 
Beiträge: 11
Registriert: So 25. Mär 2012, 12:29
Danke gegeben: 0
Danke bekommen: 2 mal in 2 Posts

Re: MLR: konstruktives Problem: Daten nicht für alle Kategor

Beitragvon Berry » So 25. Mär 2012, 21:45

Danke KoRnfuzius. So habe ich mir auch gedacht. Weisst du zufällig, ob es dafür irgendwo einen schriftlichen wissenschaftlichen hinweis gibt? Eine Literaturquelle wäre mir sehr hilfreich, denn ich bräuchte es für meine Diplomarbeit.
Berry
Power-User
Power-User
 
Beiträge: 50
Registriert: Mi 23. Nov 2011, 17:15
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: MLR: konstruktives Problem: Daten nicht für alle Kategor

Beitragvon Berry » So 25. Mär 2012, 21:49

ich meinte nicht den Hinweis, sondern eine Begründung.
Berry
Power-User
Power-User
 
Beiträge: 50
Registriert: Mi 23. Nov 2011, 17:15
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: MLR: konstruktives Problem: Daten nicht für alle Kategor

Beitragvon KoRnfuzius » So 25. Mär 2012, 21:52

Muss man das angeben? Für mich ist es logisch, dass ich keine Schätzung ohne Daten berechnen kann. Wenn ich schätzen will, wie sich das Geschlecht auf die Aggressivität auswirkt und in meiner Stichprobe sind nur Männer... ;)
KoRnfuzius
Beobachter
Beobachter
 
Beiträge: 11
Registriert: So 25. Mär 2012, 12:29
Danke gegeben: 0
Danke bekommen: 2 mal in 2 Posts

Re: MLR: konstruktives Problem: Daten nicht für alle Kategor

Beitragvon Berry » So 25. Mär 2012, 23:04

In deinem Beispiel wäre es ja klar. Aber ich schmeiße alle Typklassen und Bundesländer in einen Topf, d. h. ich habe Daten für alle Klassen und alle Bundesländer aber nur separat gesehen. Wenn ich alle möglichen Kombinationen aus Ausprägungen von kategorialen Variablen bilde, so habe ich Daten nicht aus allen Bundesländern nur für Kunden aus der Klasse d. Ich mache ja die Schätzung nicht nur für diese Klasse, sondern für alle Klassen insgesamt.

Die Regression selbst funktioniert, d. h. die Anpassung liefert mir die Parameterschätzer, die aber für Prognosezwecke im Falle eines Kunden aus der Klasse d nur für Berlin und Sachsen eine gewisse Aussagekraft haben. Verwende ich die gewonnenen Parameterschätzer zur Prognose des Absatzes eines neuen Kunden aus dieser Klasse in einem anderen Bundesland, so werde ich ebenfalls ein Ergebnis bekommen. Nur weiss ich nicht, wie gut es ist und wie er entsteht bzw. wie er zu interpretieren ist?
Berry
Power-User
Power-User
 
Beiträge: 50
Registriert: Mi 23. Nov 2011, 17:15
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: MLR: konstruktives Problem: Daten nicht für alle Kategor

Beitragvon Berry » Mo 26. Mär 2012, 11:33

Eigentlich habe ich 3 metrische Kovariablen, 7 nominale Kovariablen mit 2 Ausprägungen, 1 nominale Kovariable mit 3 Ausprägungen, 1nominale Kovariable mit 44 Ausprägungen und 1 nominale Kovariable mit 16 Ausprägungen. Dadurch entstehen 270.336 mögliche Kombinationen aus Ausprägungen der nominalen Kovariablen. Bei 5.000 Datensätzen heißt es, dass ich für fast alle dieser Möglichkeiten keinen einzigen Datesatz habe. D. h., ich sollte dann sie alle nicht betrachten?

Wenn ich richtig denke, die Parameterschätzer für eine nominale Variable werden unabhängig davon berechnet, ob für jede Kombination jeder dieser Ausprägungen mit den Ausprägungen aller anderen nominalen Variablen mind. einen Datensatz in der Datenbasis vorhanden ist?
Berry
Power-User
Power-User
 
Beiträge: 50
Registriert: Mi 23. Nov 2011, 17:15
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 5 Gäste