Logaritmische transformatie

Continue & discrete verdelingen, toevalsveranderlijken, betrouwbaarheidsintervallen, correlaties.
Plaats reactie
Minte88
Nieuw lid
Nieuw lid
Berichten: 2
Lid geworden op: 06 nov 2012, 15:35

Logaritmische transformatie

Bericht door Minte88 » 06 nov 2012, 15:40

Beste allemaal,

Mijn afstudeerbegeleidster hamert er heel erg op dat ik logaritmische tranformaties moet gebruiken.
Nu heb ik eigenlijk geen idee wat het zijn, waarom ik ze zou moeten gebruiken en waar ze goed voor zijn.

Ik doe onderzoek naar het aantal verkochte deals op Groupon. Het doel is een verklaring vinden voor het aantal verkochte deals (dependent) op basis van bijvoorbeeld discount rate, prijs, product category, regio etc. Er is mijn aageraden om alleen discount rate, prijs en aantal verkocht logaritmisch te transformeren.

Dit heb ik gedaan in SPSS, ook heb ik een regressie analyse uitgevoerd waarbij mijn verklaring inderdaad omhoog ging als ik logaritmische transformaties gebruikte.
Echter heb ik geen idee wat er nu is gebeurd met mijn dataset en wat die transformaties inhouden.

Kan iemand mij dit uitleggen?

Alvast bedankt!

Minte

arie
Moderator
Moderator
Berichten: 3916
Lid geworden op: 09 mei 2008, 09:19

Re: Logaritmische transformatie

Bericht door arie » 06 nov 2012, 20:52

Heel in het kort gezegd : de log transformatie is handig als je werkt met verhoudingen in plaats van verschillen.

Bijvoorbeeld:
In je onderzoek naar het transactiebedrag vind je:
rond 1 euro: 1 transactie
rond 10 euro: 3 transacties
rond 100 euro: 8 transacties
rond 1000 euro: 3 transacties
rond 10000 euro: 1 transactie
Je kijkt hier dus naar bedragen/bedragcategorieen die steeds een factor 10 groter worden (elke twee opeenvolgende categorieen verhouden zich als 1:10)

Plot nu het aantal transacties (y-as) eens als functie van het bedrag in euro's (x-as, de gebruikelijke schaalverdeling van 0 t/m 10000).
Je ziet dan een zeer scheve verdeling.
Dat kan je bv ook al zien aan het gemiddelde bedrag van de transacties: 13831/16 ~= 864 euro bij een modus en mediaan van 100 euro.

Neem nu de log-transformatie (het grondtal van de log maakt niet uit, neem gewoon de log basis 10) van de euro's:
log(1) = 0
log(10) = 1
log(100) = 2
log(1000) = 3
log(10000) = 4
Maak vervolgens een plot met de logwaarden op de x-as :
0: 1 transactie
1: 3 transacties
2: 8 transacties
3: 3 transacties
4: 1 transactie
Je verdeling is nu symmetrisch (in de praktijk uiteraard niet zo perfect als in dit voorbeeld).
Het gemiddelde ligt nu ook mooi op 2 (in het midden van de verdeling) wat overeenkomt met 100 euro

Een bijkomend voordeel is dat er op deze manier een ruimer aanbod aan statistische testen beschikbaar komt (namelijk de testen die je mag gebruiken bij symmetrische verdelingen).

Wordt het hiermee wat duidelijker?

Minte88
Nieuw lid
Nieuw lid
Berichten: 2
Lid geworden op: 06 nov 2012, 15:35

Re: Logaritmische transformatie

Bericht door Minte88 » 07 nov 2012, 12:12

Beste Arie,

Bedankt voor uw heldere reactie.

Weet u toevallig ook meer van de interpretatie van regressie output.
Mijn dependent variabele is het aantal verkochte deals op Groupon.
Als independent variabele heb ik factoren zoals regio en product category.
Echt weet ik niet hoe ik deze beta's (soms positief /soms negatief, soms significant / soms niet) moet interpreteren? Ik heb van deze variabelen dummy's gemaakt.

Ik begrijp dat als prijs een negatieve beta heeft dit inhoudt dat hoe hoger de prijs, hoe minder verkocht.
Maar ik heb geen idee hoe ik regio en product category bijvoorbeeld kan interpreten.

VB:
Eerste kolom B, tweede kolom significantie niveau
dRegion1 2,533 ,000
dRegion2 2,381 ,000
dRegion3 ,093 ,649
dRegion4 ,530 ,008
dRegion5 ,124 ,541
dRegion6 ,858 ,000
dRegion7 ,290 ,197
dRegion8 1,072 ,000
dDay2 ,036 ,805
dDay3 -,102 ,472
dDay4 -,057 ,709
dDay5 -,247 ,097
dDay6 -,156 ,272
dDay7 -,233 ,108

Alvast bedankt!

Groetjes Minte

arie
Moderator
Moderator
Berichten: 3916
Lid geworden op: 09 mei 2008, 09:19

Re: Logaritmische transformatie

Bericht door arie » 08 nov 2012, 18:06

Ik heb geen ervaring met SPSS.
In het algemeen zet je bij een lineaire regressie analyse de onafhankelijke variabele uit op de x-as en de afhankelijke variabele op de y-as. Elk waarnemingspaar (xi, yi) is een punt in je grafiek, alle punten samen zijn de puntenwolk.
Nu wil je door die puntenwolk een lijn tekenen die je puntenwolk zo goed mogelijk weergeeft, dwz een foutmaat of afstandsmaat van alle punten tot die lijn zo klein mogelijk maakt.
De algemene vergelijking van een lijn is:
y = a*x + b
Hierin is a de richtingscoefficient (=helling) van de lijn.
Ik verwacht dat dit je beta is.
Bijvoorbeeld:
- als a=beta=1 betekent dit een richtingscoefficient = 1, dus een hoek van atan(1) = 45 graden schuin omhoog.
- als a=beta=-3 betekent dit een richtingscoefficient = -3, dus een hoek van atan(-3) ~= -71.565 graden, dus zeer schuin omlaag.

Ik vermoed verder dat je significantieniveau te maken heeft met de determinatiecoëfficiënt R^2.
Dit is een maat voor hoe goed je lijn bij de puntenwolk past:
- als je punten allemaal precies op 1 lijn liggen is R^2 = 1
- als je punten allemaal random verspreid in je grafiek liggen is R^2 = 0
Mogelijk is het door SPSS gegeven significantieniveau dan gelijk aan 1 - R^2, dus hoe dichter bij nul, hoe beter je regressielijn een voorspelling kan doen over de werkelijke waarde.

Algemene info hierover: zie bv http://www.let.leidenuniv.nl/history/RE ... les10.html

Wat betreft je regio's: dit zijn nominale variabelen: deze hebben geen getalswaarde.
Hiervoor kan je dus ook geen regressielijn opstellen.
Ik denk dat SPSS daarom per regio een regressielijn maakt van de relatie tussen 2 variabelen waarvan je wel getalswaarden hebt ingevoerd (bv aantal en prijs)

Maar nogmaals: ik weet niet wat SPSS hier doet, wellicht kunnen andere forumleden hier meer over vertellen.

Gebruikersavatar
wnvl
Vergevorderde
Vergevorderde
Berichten: 1490
Lid geworden op: 05 okt 2011, 16:30

Re: Logaritmische transformatie

Bericht door wnvl » 08 nov 2012, 19:03

Minte88 schreef: Weet u toevallig ook meer van de interpretatie van regressie output.
Mijn dependent variabele is het aantal verkochte deals op Groupon.
Als independent variabele heb ik factoren zoals regio en product category.
Echt weet ik niet hoe ik deze beta's (soms positief /soms negatief, soms significant / soms niet) moet interpreteren? Ik heb van deze variabelen dummy's gemaakt.
Ik veronderstel dat je beta waarde verwijst naar

http://en.wikipedia.org/wiki/Standardized_coefficient

Dit komt min of meer overeen met de partiëel afgeleiden naar de onafhankelijke variabelen.
Maar wanneer de onafhankelijke variabelen discrete dingen zijn als regio en product category die niet op een schaal uit te drukken zijn als bvb loon, IQ, leedftijd zie ik niet in hoe je betekenis kan geven aan de beta coëfficiënten.

Plaats reactie