Certified Data Analyst BNSP: Data Cleaning dan Exploratory Data Analysis (EDA)

Pendahuluan

Dalam dunia Data Science dan Data Analytics, Data Cleaning (pembersihan data) dan Exploratory Data Analysis (EDA) adalah dua langkah penting sebelum analisis lebih lanjut atau implementasi model Machine Learning. Data yang tidak bersih dapat menyebabkan kesalahan analisis dan mengarah pada keputusan bisnis yang tidak akurat.

Pelatihan ini dirancang untuk membekali peserta dengan teknik pembersihan data (data wrangling) dan eksplorasi data menggunakan Python dan Pandas. Setelah menyelesaikan pelatihan ini, peserta akan memahami cara membersihkan, memanipulasi, dan menganalisis data sehingga siap digunakan untuk analisis lebih lanjut atau model prediktif. Peserta juga akan dipersiapkan untuk mendapatkan sertifikasi Data Analyst BNSP.


Unit Kompetensi

No Unit Kompetensi Deskripsi
1 Dasar-Dasar Data Cleaning Memahami konsep pembersihan data, data wrangling, dan transformasi data
2 Identifikasi dan Penanganan Missing Values Teknik menangani data hilang menggunakan imputasi atau penghapusan data
3 Identifikasi dan Penanganan Data Duplikat Teknik menemukan dan menghapus data duplikat dalam dataset
4 Exploratory Data Analysis (EDA) Memahami distribusi data, outlier, dan korelasi antar variabel
5 Visualisasi Data untuk EDA Membuat grafik menggunakan Matplotlib dan Seaborn untuk eksplorasi data
6 Studi Kasus Data Cleaning dan EDA Menerapkan Data Cleaning dan EDA pada dataset nyata

Contoh Kasus dan Penyelesaiannya dengan Python

Studi Kasus: Pembersihan dan Eksplorasi Data Pelanggan E-commerce

Deskripsi Kasus

Sebuah perusahaan e-commerce ingin memahami pola pembelian pelanggan, tetapi dataset mereka memiliki missing values, duplikasi, dan outlier.

Tujuan Analisis

  1. Membersihkan dataset dari missing values dan data duplikat.
  2. Melakukan EDA untuk memahami distribusi data pelanggan.
  3. Membuat visualisasi untuk memahami pola pembelian.

Langkah Penyelesaian

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Simulasi data pelanggan e-commerce
data = {
“Customer_ID”: [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
“Age”: [25, 30, np.nan, 35, 40, 45, 30, 50, 35, np.nan],
“Annual_Spending”: [500, 700, 300, 1000, 1200, 800, 400, 1100, 600, 900],
“Visits_Per_Year”: [5, 8, 3, 12, 15, 9, 4, 14, 7, 10]
}

# Konversi ke DataFrame
df = pd.DataFrame(data)

# 1. Mengatasi Missing Values (menggunakan median)
df[“Age”].fillna(df[“Age”].median(), inplace=True)

# 2. Menghapus Data Duplikat (jika ada)
df.drop_duplicates(inplace=True)

# 3. Menampilkan Statistik Deskriptif
print(df.describe())

# 4. Visualisasi Distribusi Umur Pelanggan
plt.figure(figsize=(8, 5))
sns.histplot(df[“Age”], bins=5, kde=True, color=”blue”)
plt.xlabel(“Usia Pelanggan”)
plt.ylabel(“Jumlah Pelanggan”)
plt.title(“Distribusi Usia Pelanggan E-commerce”)
plt.grid(True)
plt.show()

 

Kesimpulan

Pelatihan ini memberikan pemahaman mendalam tentang Data Cleaning dan Exploratory Data Analysis (EDA). Dengan menguasai Python dan Pandas, peserta akan dapat membersihkan dan menganalisis data sebelum digunakan dalam analisis lebih lanjut atau model prediktif.

Kami memiliki Pelatihan dan Sertifikasi BNSP Data Analyst yang akan membekali Anda dengan keterampilan yang relevan dengan kebutuhan industri. Dengan sertifikasi ini, Anda akan lebih kompetitif dan siap bersaing dalam dunia kerja berbasis data. 🚀

Leave a Reply

Your email address will not be published. Required fields are marked *