python tips en voorbeelden
Hier bewaar ik mijn tips, voorbeelden en aantekeningen over data analyse met Python.
wrangling
CSV bestanden importeren
CSV is een veel voorkomend formaat voor het uitwisselen van datasets. Met Pandas kan je deze bestanden eenvoudig importeren.
Controleren op ontbrekende waarden
Welke kolommen bevatten ontbrekende waarden?
Omgaan met dubbele rijen
Dubbelen opsporen, ontdubbelen of volledig verwijderen.
Datum formaat en kenmerken
Bij het inlezen van CSV bestanden worden datums standaard als datatype object ingelezen. Na converteren van het datatype kan je eenvoudig de kalenderkenmerken van een datum afleiden.
Pandas category datatype
Datatype ‘category’ komt overeen met de statistische meetniveaus nominaal en ordinaal. Denk aan genre en review rating.
Dataframes combineren met merge
Met Dataframe.merge kan je dataframes combineren, waarbij een nieuwe dataframe ontstaat met alle kolommen.
analyse en statistiek
Frequentietabellen berekenen
Uit een frequentietabel kun je aflezen hoe vaak een bepaalde waarneming voorkomt.
kruistabel maken
Kruistabellen, ook wel draaitabellen genoemd, gebruik je voor het zoeken naar verbanden tussen variabelen en het weergeven van het verloop van numerieke waarden binnen een bepaalde periode.
Dataframe filteren met loc
Rijen selecteren uit een dataframe met .loc. Kies of je alle kolommen of een specifieke lijst als resultaat wilt zien.
Dataframe sorteren
Meerdere kolommen sorteren? Dat kan met DataFrame.sort_values.
Visualisatie
Seaborn standaard thema instellen
Seaborn is bedoeld voor statistische data visualisatie en gebaseerd op Matplotlib. Het is ontworpen voor gebruik in combinatie met Pandas.
Snel van dataframe naar staafdiagram
Snel een draaitabel omzetten naar staafdiagram? Dat kan met DataFrame.plot.bar.