python voorbeeld

pandas

Omgaan met dubbele rijen

# Heeft een dataframe dubbele records?
df[df.duplicated(subset=None)]
# Hoeveel dubbele records gebaseerd op subset van kolommen?
len(df[df.duplicated(subset=['date', 'date_block_num', 'shop_id', 'item_id'])])
# Toon alle dubbelen
df[df.duplicated(subset=None, keep=False)]
# Dubbelen verwijderen, bewaar laatste van elke dubbele
df.drop_duplicates(subset=None, keep='last', inplace=True)
# Alle dubbelen verwijderen
df.drop_duplicates(subset=None, keep=False, inplace=True)

data als grondstof

Data gedreven

Verkennende onderzoeken, segmenteren, samenhang, verklarende analyses en/of toepassen van algoritmes

Lees verder