Samenvatting over een onderwerp of populatie
Beschrijvende statistiek wordt aan het begin van de data analyse gebruikt om de kenmerken van een populatie of onderwerp te beschrijven. Het resultaat is een samenvatting met o.a. kerngetallen, frequentieverdelingen en kruistabellen. Eventueel voorzien van datavisualisaties. Het doel van beschrijvende data analyse is het geven van een globaal beeld door gebruik te maken van data.
De samenvatting beantwoord vragen zoals: “Wat is de gemiddelde leeftijd?”, “ Wat is het meest gekozen vakkenpakket?”, “ Wat is de verdeling over verschillende leeftijdscategorieën”.
Karakter van data
Het is verstandig om in de samenvatting ook data kwaliteitsaspecten mee te nemen. Je krijgt dan een eerste indruk of de data potentieel gebruikt kan worden als grondstof voor informatie voorziening of het toepassen van machine learning algorithmes. Ook bepaalde verkennende statische toetsen doen aannames over de data.
Denk hierbij aan kwaliteitsaspecten zoals: data formaat, veronderstelde patronen, ontbrekende waarden en lage variatie. Een voorbeeld van een statistische aanname is een normaal verdeling.
Je beschrijft als het ware het karakter van de data.
Startpunt van exploratieve data analyse
Beschrijvende statistiek helpt dus om een onderwerp, populatie en het karakter van de data beter te begrijpen. Je beschrijft, en visualiseert, de realiteit zonder conclusies te trekken. De uitkomsten van de beschrijvende data analyse vormen samen met het verzamelen van domein kennis het startpunt van exploratieve data analyse.
Statistiek in Python?
Een korte introductie in statistiek met Python vindt je hier: Kunnen bevers ons helpen met statistiek in Python?