[SPSS] het analyseren van k-means cluster gebruik

Continue & discrete verdelingen, toevalsveranderlijken, betrouwbaarheidsintervallen, correlaties.
Plaats reactie
mm1985
Gevorderde
Gevorderde
Berichten: 136
Lid geworden op: 09 okt 2010, 12:19

[SPSS] het analyseren van k-means cluster gebruik

Bericht door mm1985 » 17 jan 2012, 22:38

Voor een school opdracht heb ik een database gekregen en dien ik een vraag te beantwoorden waarin ik 3 maal een k-means cluster uitdraai.
De vraag luid als volgt.

Use k-means clustering to identify clusters of households based on
a. The variables that describe purchase behavior (including brand loyalty).
b. The variables that describe basis-for-purchase.
c. The variables that describe both purchase behavior and basis of purchase.
Nou heb ik de data in spss geanalyseerd en door middel van boxplots de extreme waarden weg gefilterd. Nu heb ik voor vraag een een k-means cluster gemaakt over demographics: sec, FEH, mt, SEX, AGE, EDU, HS, CHILD, cs, AFFLUENCE INDEX. Dit is wat ik als resultaat kreeg: http://imageshack.us/photo/my-images/210/clusterf.jpg

Omdat ik bij vraag 2 moet aangeven welke segment volgens mij het beste is
Select what you think is the best segmentation and comment on the characteristics (demographic, brand loyalty and basis-for-purchase) of these clusters. (This information would be used to guide the development of advertising and promotional campaigns.)
dien ik iedere k-means te analyseren. Nu zag ik bij een pdf die ik op het internet vond dat ze van de cluster data een cluster-plot hadden gemaakt. http://imageshack.us/f/830/clusterplot.jpg

Nu heb ik geprobeerd dit met spss te krijgen maar het lukt me maar niet. Zou iemand mij kunnen uitleggen hoe ik dit in spss of een andere programma kan plotten?

De data die ik gebruik is: http://www66.zippyshare.com/v/15219413/file.html

Alvast bedankt,

Michael

arie
Moderator
Moderator
Berichten: 3920
Lid geworden op: 09 mei 2008, 09:19

Re: [SPSS] het analyseren van k-means cluster gebruik

Bericht door arie » 19 jan 2012, 13:48

Wat de "variables that describe purchase behavior" en de "variables that describe basis-for-purchase" zijn is mij niet bekend, maar je clustert nu op de vector
[sec, FEH, mt, SEX, AGE, EDU, HS, CHILD, cs, AFFLUENCE INDEX]
Als je elk van de variabelen van deze vector een as geeft in een 10-dimensionale ruimte, zie je veruit de grootste range in waarden op de AFFLUENCE INDEX as (0 .. 53), in veel mindere mate op de MT en HS assen, en in nog veel mindere mate op de overige assen.

Het gevolg is dat je clustering vrijwel volledig bepaald wordt AFFLUENCE INDEX.
Dit zie je ook terug in je resultaten: de clustercentra liggen vwb de AFFLUENCE INDEX op 6, 12, 17, 22, 28.
De overige variabelen varieren nauwelijks.
Als je je originele Excel tabel zou sorteren op AFFLUENCE INDEX, dan verwacht ik dat je na splitsing hiervan in 5 groepen vrijwel dezelfde groepen vindt als in je clustering. Klopt dat?

Voor we data clusteren normaliseren we die data daarom doorgaans eerst.
Om een idee te geven:
Stel je hebt een dataset met 6 punten in de vorm (x,y):
(0,1)
(10,1)
(60,0)
(70,2)
(90,0)
(100,2)
en je clustert naar 3 clusters, dan zal k-means wsch komen met:
clustercentrum 1: (5,1)
clustercentrum 2: (65,1)
clustercentrum 3: (95,1)
Dit komt doordat de x-coordinaat een range heeft van 0..100 en de y-coordinaat van 0..2.
Plot deze 6 punten eens, en maak ook eens een plot van de gegevens als je de y-coordinaten transformeert naar een range van 0..100 (=de y-waarden met 50 vermenigvuldigt):
(0,50)
(10,50)
(60,0)
(70,100)
(90,0)
(100,100)
Wat zullen nu je 3 clustercentra zijn?

Er zijn vele manieren om je data te normaliseren, vaak transformeren we het gemiddelde van elke as naar nul en de standaarddeviatie van elke as naar 1. Welke methode de voorkeur heeft bepaal je zelf als onderzoeker.

Vervolgens cluster je met k-means. Welke afstandsmaat gebruik je hierbij? (de Euclidische?) Hoe veranderen je resultaten als je werkt met andere afstandsmaten?

Hoe dit in SPSS werkt is mij niet bekend, wellicht weet iemand anders daar meer over.

harry0225
Nieuw lid
Nieuw lid
Berichten: 1
Lid geworden op: 25 feb 2012, 03:59

Re: [SPSS] het analyseren van k-means cluster gebruik

Bericht door harry0225 » 26 feb 2012, 10:23

Hello,everybody.I am a newer here.I like to make friends.If u are the people that like to make friends too,just contact
me.Haha.
:D :D :D

Plaats reactie