[Tanya Jawab] Big Data Analytics: Data Visualization and Data Science
Badan Kejuruan Teknik Industri Persatuan Insinyur Indonesia (BKTI - PII)

[Tanya Jawab] Big Data Analytics: Data Visualization and Data Science

Big Data Series #3
1 Peserta Enroll
0 Peserta Lulus
Average: 0
Rating Count: 0
You Rated: Not rated
( 0 )
Biaya untuk Umum
Rp0
Biaya untuk Mahasiswa/Freshgraduate
Rp0
Pemateri
Bagus Rully Muttaqien, ST

1. Pertanyaan dari Dedi Prasetyo
Di modern big data project tidak ada proses ETL sebelum data warehouse?

Jawaban: Tetap ada proses, jadi dulu ETL (extract transform load) jadi data kita ekstrak kemudian kita lakukan transformasi data kemudian baru kita load ke data base untuk di analisis. Tapi sekarang lebih dari itu sekarang di sebut ELT (Extract Load Transform) ekstrak dari sourcesnya kemudian di load, karena load tidak ke data base bisa langsung ke hsbs baru di situ di transform. Kenapa hal ini terjadi di big data tidak di tradisional, karena isu mengenai performance pengolahan data seperti memori dan storage yang masih terbatas sudah tidak menjadi isu lagi. Tetap ada ETL di big data saat ini tapi melakukan loading dulu datanya baru transformasi data.

2. Pertanyaan dari Leny Damayanti
Kapan kita menggunakan infgrafis dan kapan kita menggunakan dashboard untuk visualisasi data?

Jawaban: Tergantung user. Untuk user general atau awam menggunakan motion grafis atau video, tapi untuk user yang lebih spesifik seperti dari departmen tertentu bisa menggunakan infografis. Menggunakan dashboard untuk user yang ingin lebih detail lagi sampai detail angkanya. Biasanya user merupakan user dari devisi tertentu yang sudah fokus ke area situ. Singkatnya general menggunakan motion grafis, high level menggunakan infografis, dan detail menggunakan dashboard.

3. Pertanyaan dari Felix Feliyanto (UAJY)
Saya baru memulai Data Project pertama saya. Saya sudah memiliki dataset yang diperlukan, kemudian akan masuk ke fase Data Cleaning. Sebelum atau sesudah fase tersebut, uji statistik seperti apa saja yang biasanya diperlukan agar data tersebut akhirnya dapat lebih lanjut diolah?

Jawaban: Cleansing di proses perjalanan data memang masih di area data transformasi, data yang masih detail tapi sudah mulai menghilangkan beberapa hal yang tidak perlu seperti atribut-atribut tidak perlu, data-data tidak lengkap sudah mulai dilakukan enrichment di daerah staging data. Jika kita mengolah data berikutnya ke fase dimensionalizing data, di mana data tersebut sudah mulai di integrasikan dengan data-data lainnya. Fase berikut nya setelah melakukan dimensionalizing adalah di area mark data tersebut mulai di lakukan agregate, data tersebut sudah tidak detail lagi tapi sudah di summarize berdasarkan kategori yang diperlukan. Biasanya setelah jadi data mark data tersebut akan diolah oleh tools reportingnya. Uji statistik di area analytic insight di ujung. Jadi di modeling statistik ini kita bisa mengambil data dari mark atau dari staging. Uji statistik itu sesudah melakukan cleansing data.

4. Pertanyaan dari Eunike (UAJY)
Saya sedang melakukan research mengenai text mining lewat twitter. Pertanyaan saya, apakah saya bisa mengautomasi data scrap dengan menghubungkan R dengan Twitter? Karena saya ingin membuat scraping saya dari semi-automatic ke automatic (scraping otomatis per periode misal perminggu dan lalu save ke cloud), jika memungkinkan.

Jawaban: Crawling dulu tempatkan di suatu tempat baru dilakukan prosesing untuk menghindari banned, apabila membeli servis twitter dilakukan hal seperti ini tidak akan ada masalah. Dibatasi steamnya diakalin dengan waktu tertentu.

5. Pertanyaan dari Nisa Hanum Harani
Antara AI, Machine Learning, dan Deep Learning, posisi Data Mining ada di mana?

Jawaban: AI, Machine Learning, dan Deep Learning merupakan pengembangan dari Data Mining. Data Mining pengembangannya ke arah Machine Learning dan Deep Learning. Biasanya AI mempunyai dispilin sendiri. Posisi Data Mining ada di situ pengembangannya adalah area Machine Learning dan Deep Learning.

6. Pertanyaan dari Rahmat (Chevron)
Boleh diberikan contoh kasus seberapa bersihkah data yang bersih itu, dan seberapa kotorkah data yang kotor itu?

Jawaban: Penafsiran dari cleansing. Data transaksi di telko ada data yang ter interrupt sehingga sistem otomatis membuat data baru. Sehingga di hasilkan di cdr (call data record) ada dua data padahal itu adalah transaksi yang sama. Apabila data tersebut di proses akan menghasilkan data yang double. Contohnya di transaksi pertama ada pemotongan pulsa 5 ribu di transaksi ke dua ada pemotongan 5 ribu, artinya data tersebut akan memotong 10 rb pulsa user karna data tidak di cleansing. Berbeda dengan kita melakukan cleansing, data tersebut akan menjadi satu kita akan menghilangkan duplikasinya. Selain duplikat, data tidak lengkap dapat dikatakan data kotor juga. Data kotor bisa di antisipasi ketika data itu pertama kali keluar dari data production. Tidak ada sistem yang sempurna pasti ada data-data yang kotor jadi harus tetap dilakukan cleansing.

7. Pertanyaan dari Kamila (Universitas Pakuan)
Data Engineer itu apakah diperlukan disemua instansi? Kalau untuk Perguruan Tinggi Swasta yang butuh data untuk memperbanyak jumlah mahasiswa, apakah perlu data engineer? Apa perbedaan tugas data analis dan data engineer?

Jawaban: Apabila seorang data analyze bisa melakukan engineering data sebener nya data engineer spesifik itu tidak diperlukan kecuali kita berhadapan dengan data yang sangat besar otomatis seorang data analze dan data engineer harus dipisahkan dalam tugas nya yang satu untuk melakukan surpisen data dan yang satu analytical data.

8. Pertanyaan dari Lina Gozali (Universitas Tarumanagara)
Cleansing data itu seperti apa, Pak? Karena menurut saya, data itu berharga kalaupun harus dibuang. Data-data yang nyeleneh itu mungkin atau ada data yang tidak seragam itu juga informasi. Walaupun untuk pengolahan data atau untuk tujuan tertentu mungkin tidak diperhitungkan. Tapi menurut saya, setiap data itu berharga. Mungkin contohnya, kalau data yang menang dilihat dari yang vote tapi yang tidak vote pun itu informasi. Berapa persen yang abstein itu informasi, walaupun yang abstein tidak mempengaruhi data kandidat yang menang.

Jawaban: Data tidak boleh dibuang karena data berharga. Storage sudah tidak seperti dulu yang mahal. Data cleansing memfilter data-data yang tidak lengkap atau data menyimpang. Biasanya data tersebut yang menjadi perhatian. Namun data tetap tidak di buang. Data yang dipakai ke staging A dan data reject ke staging B, karena ketika kita melakukan recording apabila ada data yang tidak sesuai. Kita dapat memeriksa di staging apabila ada data yang reject kita bisa ambil lagi atribut nya ke atas. Tidak ada data yang di buang hanya ada data reject yang dikumpulkan.

9. Pertanyaan dari Ali Sumara (ITL Trisakti)
Bagaimanakah caranya agar kita bias memulai project data analisis kita sendiri? Apakah harus di request oleh company dulu atau bisa kita mulai dari luar?

Jawaban: Kesalahan dalam membuat komunitas big data karena terlalu fokus di area teknis, di mana kita mendapatkan teknologi nya, mengadakan pengajaran kepada tim tim teknis. Ketika kita hanya mengajarkan kepada level teknis, divisi IT saja hanya perlu hal seperti itu, namun itu tidak sampai level strategis. Beberapa bulan kebelakang sudah dirubah sistem nya dengan melakukan transfer knowladge betapa penting nya big data analysist sampai level strategic sehingga mereka akan tau ketika mereka punya project big data bahwa mereka akan menghasilkan hal-hal yang tidak di dapat sebelum nya. dari level strategic sudah sadar maka perusahaan perlu yang namanya project big data analytics maka mereka akan rela mengeluarkan dana yang besar untuk kebutuhan nya. jadi, mulai mengumpulkan data untuk level atas merestui untuk project ini maka kita sudah siap secara infrastruktur dan datanya. Hal ini penting bagian dari binis dari perusahaan tersebut.

Profil Instruktur

Bagus Rully Muttaqien, ST

Sekjen Asosiasi Ilmuwan Data Indonesia


Deskripsi Pemateri:

Pekerjaan

2018 - now   : Big Data Technology & Product Specialist Labs247

                             VP of Corporate Communication & Presales PT. Dua Empat Tujuh

2021 - now   : Dosen Big Data & Data Science Universitas Telkom, Bandung

2012 - now   : Dosen Datawarehouse & Pengolahan Data Besar Universitas Al-Azhar Indonesia

2022 - now   : Dosen Big Data Analytics Universitas Mandiri, Subang

2014 - now   : Vice Chairman & Founder (Indonesian BIG DATA Community)

2014 - now   : BIG DATA Trainer (BIG DATA, Hadoop, HGrid, Data Enginerring)

2016 - now   : Vice Chairman Asosiasi BIG DATA Indonesia (ABDI)

2016 - now   : General Secretary & Founder Asosiasi Ilmuwan Data Indonesia (AIDI)

Kursus Lainnya

Big Data Analytics: Data Visualization and Data Science

Big Data Analytics: Data Visualization and Data Science

Big Data Engineering and Implementation

Big Data Engineering and Implementation

Artificial Intelligence: Predicting the Future

Artificial Intelligence: Predicting the Future

Text Mining and NLP (Natural Language Processing)

Text Mining and NLP (Natural Language Processing)

Computer Vision in Big Data Applications

Computer Vision in Big Data Applications

Introduction to Big Data and Data Science

Introduction to Big Data and Data Science