Variablenbestimmung für Custeranalyse

Alles rund um Clusteranalysen.

Variablenbestimmung für Custeranalyse

Beitragvon Miiira » Mi 20. Jul 2016, 14:08

Hallo,
ich würde gerne auf meinem Windows-Rechner verschiedene Aufgaben ausführen (z.B. send E-Mail, open Internet Explorer, scave File, close Google Chrome etc.) und dabei den Ressourcen-Verbrauch (CPU-Usage, System-State before idle or not idle etc.) messen. Anschließend soll dann geclustert werden welche Jobs "teuer", "billig" oder "mittelmäßig" sind. Dabei muss ich aber zuerst heraus finden welche der möglichen Windows-Messwerte überhaupt gut für solche Schätzungen sind. Dies soll anhand der Dauer für die durchgeführte Aufgabe geschätzt werden. Ich würde also eine Feature Selection anwenden, die mir auswählt welche der möglichen Messwerte die Response Time am besten schätzen können. Eigentlich würde ich das beispielsweise einfach mit irgendwelchen Wrapper-Methoden (stepwise selection etc.) oder anhand von Filtermethoden (z.B. Entropie oder Fisher-Score etc.) machen, aber das Problem ist, dass es sehr viele Möglichkeiten für die relevanten unabhängigen Variablen gibt. die voneinander abhängig sind oder sich sogar gegenseitig durch Linearkombination zweier anderer ausdrücken lassn etc. Beispielsweise werden die Daten aggregiert und dann könnte es sein, dass der Mittelwert, die Summe, der Median, das Maximum etc. der CPU-Messung am aussagekräftigsten ist, diese vier jedoch stark miteinander korrellieren.
Könnt ihr mir Tipps geben welche Variablenselektionsmethoden mit solchen Variablen gut umgehen können? Dimensionsreduzierende Methoden kommen dabei nicht in Frage, da die anschließende Interpretierbarkeit gegeben sein muss.
Vielen Dank für eure Hilfe und liebe Grüße,
Mira
Miiira
Grünschnabel
Grünschnabel
 
Beiträge: 8
Registriert: Mi 20. Jul 2016, 12:10
Danke gegeben: 3
Danke bekommen: 1 mal in 1 Post

Re: Variablenbestimmung für Custeranalyse

Beitragvon Institut_Zwei » So 7. Aug 2016, 20:03

Hallo, Mira. Die Clusteranalyse ist mein Schwerpunkt. Ich habe Ihre Aufgabe ganu gelesen und vollständig verstanden. Ich denke, dass Sie erstmal klären sollen, wer der Adressat Ihres Elaborats oder Ihrer Untersuchung ist. Was will der Adressat, für den Sie die Aufgaben auf Ihrem Windowsrechner clustern wollen? Was ist für ihn wichtig? Denn in Abhängigkeit davon wird es klar sein, was Sie auch unter Billig oder Teuer sein soll: Verschleiß, Stromverbracuh, Opportunitätskosten der Resourcenbeanspruchung oder sonstiges. Dann kann man Ihnen auch eine Empfehlung auf die Variablenauswahl geben. z.B. kann ich mir Vorstellen, dass Sie nur Stromverbrauch nehmen. Oder Sie bauen ein Index.

Die Clusteranalyse brauchen Sie jedoch nicht zwingend, um die Prozesse nach Teuer/Billig zu klassifizieren. Denn "Teuer/Billig" sind im Grunde Abblildungen auf einer einzigen Dimension. Die Clusteranalyse schafft Abblildungen im mehrdimensionalen Raum, daher nutzt es auch unterschiedliche Variablen (ohne sie in einem Index zu aggregieren, Dimensionsreduzierung). Also, um ein Ergebnis der Clusteranalyse (und nicht Indexbildung) zu erhalten, sollen wir zunächt klären, was und für wem Sie berechnen möchten.
--
Kurzer
Google: Statistikinstitut Zwei
Institut_Zwei
Mitglied
Mitglied
 
Beiträge: 20
Registriert: Mo 27. Jun 2016, 21:14
Wohnort: Osnabrück
Danke gegeben: 0
Danke bekommen: 3 mal in 3 Posts


Zurück zu Clusteranalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 2 Gäste