Fokus: Menerapkan machine learning pada data besar menggunakan PySpark MLlib dan teknik pemodelan skala besar.
Pendahuluan
Perkembangan teknologi data menuntut para profesional untuk tidak hanya mampu mengolah data besar (Big Data), tetapi juga menerapkan machine learning sebagai bagian dari strategi analitik. Dalam skala besar, proses training dan prediksi model membutuhkan sistem komputasi terdistribusi seperti Apache Spark, dan di sinilah PySpark MLlib berperan penting.
Program Pelatihan dan Sertifikasi BNSP Online: Machine Learning untuk Big Data Scientist dirancang untuk membekali peserta dengan keterampilan praktis dalam membangun model machine learning di lingkungan Big Data. Materi berfokus pada pemrosesan data besar, teknik supervised dan unsupervised learning, serta evaluasi model menggunakan MLlib dari PySpark.
Pelatihan ini dilaksanakan 100% online, dengan biaya hanya Rp2.800.000, dan dibuka untuk minimal 8 peserta. Sertifikasi dilakukan oleh BNSP sebagai bentuk pengakuan kompetensi nasional.
Contoh Studi Kasus & Penyelesaian (Praktik)
Studi Kasus:
Sebuah platform e-commerce ingin memprediksi kemungkinan pelanggan melakukan pembelian berdasarkan aktivitas kunjungan mereka. Data yang tersedia sangat besar (jutaan baris) dan disimpan di cluster Hadoop. Tugas Anda adalah membangun model prediksi dengan pendekatan machine learning yang scalable.
Penyelesaian (Menggunakan PySpark MLlib):
-
Data Loading & Preprocessing:
-
Feature Engineering:
-
Ubah kolom kategorik menjadi numerik (StringIndexer)
-
Gabungkan fitur menggunakan VectorAssembler
-
-
Split Data dan Bangun Model:
-
Evaluasi Model:
-
Output:
-
Rekomendasi: Gunakan model untuk memberi skor prediksi pada prospek pelanggan.
-
Silabus Pelatihan 2 Hari
Hari | Materi Pelatihan |
---|---|
1 | – Pengantar Machine Learning di Dunia Big Data |
– Instalasi dan Setup PySpark Environment | |
– Eksplorasi Dataset Besar dengan PySpark | |
– Feature Engineering dan Pra-pemrosesan Data | |
2 | – Penerapan Supervised Learning (klasifikasi dan regresi) dengan MLlib |
– Evaluasi Model dan Interpretasi Hasil | |
– Studi Kasus: Prediksi Perilaku Konsumen di E-commerce | |
– Review Portofolio dan Simulasi Sertifikasi BNSP |
Kesimpulan
Pelatihan ini mengintegrasikan Big Data dan Machine Learning dalam satu program yang aplikatif dan terarah. Peserta akan belajar bagaimana menerapkan model klasifikasi dan regresi pada dataset besar menggunakan PySpark MLlib, serta menyusun solusi prediktif yang efisien dan scalable.
Pelatihan berlangsung online, hanya dengan biaya Rp2.800.000, dan tersedia untuk minimal 8 peserta. Sertifikat resmi dari BNSP akan diberikan setelah mengikuti ujian kompetensi.