Python

Cara Menghapus Data Duplikat di Python Menggunakan Pandas

Dalam pengolahan data atau Data Science, data ganda seringkali merusak akurasi analisis. Library Pandas menyediakan fungsi drop_duplicates() yang sangat efisien untuk membersihkan dataset besar. Teknik ini memastikan setiap baris data bersifat unik, sehingga hasil laporan atau grafik yang dihasilkan nantinya menjadi lebih valid dan profesional.

import pandas as pd

# Contoh dataset dengan data ganda
data = {
    'id_produk': [101, 102, 101, 103, 102],
    'nama': ['Mouse', 'Keyboard', 'Mouse', 'Monitor', 'Keyboard']
}

df = pd.DataFrame(data)

# Menghapus duplikat dan menyisakan satu data awal
df_bersih = df.drop_duplicates()

print(df_bersih)

6 Views