[SPSS] het analyseren van k-means cluster gebruik

mm1985 · Bericht door **mm1985** » 17 jan 2012, 22:38

Voor een school opdracht heb ik een database gekregen en dien ik een vraag te beantwoorden waarin ik 3 maal een k-means cluster uitdraai.
De vraag luid als volgt.

Use k-means clustering to identify clusters of households based on
a. The variables that describe purchase behavior (including brand loyalty).
b. The variables that describe basis-for-purchase.
c. The variables that describe both purchase behavior and basis of purchase.

Nou heb ik de data in spss geanalyseerd en door middel van boxplots de extreme waarden weg gefilterd. Nu heb ik voor vraag een een k-means cluster gemaakt over demographics: sec, FEH, mt, SEX, AGE, EDU, HS, CHILD, cs, AFFLUENCE INDEX. Dit is wat ik als resultaat kreeg: http://imageshack.us/photo/my-images/210/clusterf.jpg

Omdat ik bij vraag 2 moet aangeven welke segment volgens mij het beste is

Select what you think is the best segmentation and comment on the characteristics (demographic, brand loyalty and basis-for-purchase) of these clusters. (This information would be used to guide the development of advertising and promotional campaigns.)

dien ik iedere k-means te analyseren. Nu zag ik bij een pdf die ik op het internet vond dat ze van de cluster data een cluster-plot hadden gemaakt. http://imageshack.us/f/830/clusterplot.jpg

Nu heb ik geprobeerd dit met spss te krijgen maar het lukt me maar niet. Zou iemand mij kunnen uitleggen hoe ik dit in spss of een andere programma kan plotten?

De data die ik gebruik is: http://www66.zippyshare.com/v/15219413/file.html

Alvast bedankt,

Michael

Bericht door **arie** » 19 jan 2012, 13:48

Wat de "variables that describe purchase behavior" en de "variables that describe basis-for-purchase" zijn is mij niet bekend, maar je clustert nu op de vector
[sec, FEH, mt, SEX, AGE, EDU, HS, CHILD, cs, AFFLUENCE INDEX]
Als je elk van de variabelen van deze vector een as geeft in een 10-dimensionale ruimte, zie je veruit de grootste range in waarden op de AFFLUENCE INDEX as (0 .. 53), in veel mindere mate op de MT en HS assen, en in nog veel mindere mate op de overige assen.

Het gevolg is dat je clustering vrijwel volledig bepaald wordt AFFLUENCE INDEX.
Dit zie je ook terug in je resultaten: de clustercentra liggen vwb de AFFLUENCE INDEX op 6, 12, 17, 22, 28.
De overige variabelen varieren nauwelijks.
Als je je originele Excel tabel zou sorteren op AFFLUENCE INDEX, dan verwacht ik dat je na splitsing hiervan in 5 groepen vrijwel dezelfde groepen vindt als in je clustering. Klopt dat?

Voor we data clusteren normaliseren we die data daarom doorgaans eerst.
Om een idee te geven:
Stel je hebt een dataset met 6 punten in de vorm (x,y):
(0,1)
(10,1)
(60,0)
(70,2)
(90,0)
(100,2)
en je clustert naar 3 clusters, dan zal k-means wsch komen met:
clustercentrum 1: (5,1)
clustercentrum 2: (65,1)
clustercentrum 3: (95,1)
Dit komt doordat de x-coordinaat een range heeft van 0..100 en de y-coordinaat van 0..2.
Plot deze 6 punten eens, en maak ook eens een plot van de gegevens als je de y-coordinaten transformeert naar een range van 0..100 (=de y-waarden met 50 vermenigvuldigt):
(0,50)
(10,50)
(60,0)
(70,100)
(90,0)
(100,100)
Wat zullen nu je 3 clustercentra zijn?

Er zijn vele manieren om je data te normaliseren, vaak transformeren we het gemiddelde van elke as naar nul en de standaarddeviatie van elke as naar 1. Welke methode de voorkeur heeft bepaal je zelf als onderzoeker.

Vervolgens cluster je met k-means. Welke afstandsmaat gebruik je hierbij? (de Euclidische?) Hoe veranderen je resultaten als je werkt met andere afstandsmaten?

Hoe dit in SPSS werkt is mij niet bekend, wellicht weet iemand anders daar meer over.

harry0225 · Bericht door **harry0225** » 26 feb 2012, 10:23

Hello,everybody.I am a newer here.I like to make friends.If u are the people that like to make friends too,just contact
me.Haha.

Wiskundeforum

[SPSS] het analyseren van k-means cluster gebruik

[SPSS] het analyseren van k-means cluster gebruik

Re: [SPSS] het analyseren van k-means cluster gebruik

Re: [SPSS] het analyseren van k-means cluster gebruik