Tanya jawab Big Data Seri-3: Big Data Analytics: Data Visualization and Data Science
BK TEKNIK INDUSTRI PII (BKTI – PII)

Tanya jawab Big Data Seri-3: Big Data Analytics: Data Visualization and Data Science

Total 0 Modul

Tanya jawab Big Data Seri-3: Big Data Analytics: Data Visualization and Data Science

Instruktur: Bagus Rully Muttaqien (Sekjen Asosiasi Ilmuwan Data Indonesia)

Pendaftaran Free Webinar: https://linktr.ee/diklatkerja

1. Pertanyaan #1 Dedi Prasetyo: di modern big data project tidak ada proses ETL sebelum data warehouse?

Jawab: tetap ada proses, jadi dulu ETL (extract transform load) jadi data kita ekstrak kemudian kita lakukan transformasi data kemudian baru kita load ke data base untuk di analisis. Tapi sekarang lebih dari itu sekarang di sebut ELT (Extract Load Transform) ekstrak dari sourcesnya kemudian di load, karena load tidak ke data base bisa langsung ke hsbs baru di situ di transform. Kenapa hal ini terjadi di big data tidak di tradisional, karena isu mengenai performance pengolahan data seperti memori dan storage yang masih terbatas sudah tidak menjadi isu lagi. Tetap ada ETL di big data saat ini tapi melakukan loading dulu datanya baru transformasi data.

2. Pertanyaan #2 Leny Damayanti: kapan kita menggunakan infgrafis dan kapan kita menggunakan dashboard untuk visualisasi data?

Jawab: Tergantung user. Untuk user general atau awam menggunakan motion grafis atau video, tapi untuk user yang lebih spesifik seperti dari departmen tertentu bisa menggunakan infografis. Menggunakan dashboard untuk user yang ingin lebih detail lagi sampai detail angkanya. Biasanya user merupakan user dari devisi tertentu yang sudah fokus ke area situ. Singkatnya general menggunakan motion grafis, high level menggunakan infografis, dan detail menggunakan dashboard

3. Pertanyaan #3 Felix Feliyanto (UAJY): Saya baru memulai Data Project pertama saya. Saya sudah memiliki dataset yang diperlukan, kemudian akan masuk ke fase Data Cleaning. Sebelum atau sesudah fase tersebut, uji statistik seperti apa saja yang biasanya diperlukan agar data tersebut akhirnya dapat lebih lanjut diolah?

Jawab: cleansing di proses perjalanan data memang masih di area data transformasi, data yang masih detail tapi sudah mulai menghilangkan beberapa hal yang tidak perlu seperti atribut-atribut tidak perlu, data-data tidak lengkap sudah mulai dilakukan enrichment di daerah staging data. Jika kita mengolah data berikutnya ke fase dimensionalizing data, di mana data tersebut sudah mulai di integrasikan dengan data-data lainnya. Fase berikut nya setelah melakukan dimensionalizing adalah di area mark data tersebut mulai di lakukan agregate, data tersebut sudah tidak detail lagi tapi sudah di summarize berdasarkan kategori yang diperlukan. Biasanya setelah jadi data mark data tersebut akan diolah oleh tools reportingnya. Uji statistik di area analytic insight di ujung. Jadi di modeling statistik ini kita bisa mengambil data dari mark atau dari staging. Uji statistik itu sesudah melakukan cleansing data.

4. Pertanyaan #4 Eunike (UAJY): Saya sedang melakukan research mengenai text mining lewat twitter. Pertanyaan saya apakah saya bisa mengautomasi data scrap dengan menghubungkan R dengan twitter? Karena saya ingin membuat scraping saya dari semi-automatic ke automatic (scraping otomatis per periode misal perminggu dan lalu save ke cloud) jika memungkinkan

Jawab: crawling dulu tempatkan di suatu tempat baru dilakukan prosesing untuk menghindari banned, apabila membeli servis twitter dilakukan hal seperti ini tidak akan ada masalah. Dibatasi steamnya diakalin dengan waktu tertentu.

5. Pertanyaan #5 Nisa Hanum Harani: antara AI, MAchine Learning dan Deep Learning, posisi data mining ada dimana?

Jawab: AI, Machine learning dan Deep Learning merupakan pengembangan dari data mining. Data mining pengembangan nya ke arah machine learning dan deep learning. Biasanya AI mempunyai dispilin sendiri. Posisi data mining ada di situ pengembangan nya adalah area machine learning dan deep learning.

6. Pertanyaan #6 Rahmat (Chevron): Boleh diberikan contoh kasus seberapa bersih kah data yg bersih itu, dan seberapa Kotor kah data yang Kotor itu?

Jawab: penafsiran dari cleansing. Data transaksi di telko ada data yang ter interrupt sehingga sistem otomatis membuat data baru. Sehingga di hasilkan di cdr (call data record) ada dua data padahal itu adalah transaksi yang sama. Apabila data tersebut di proses akan menghasilkan data yang double. Contohnya di transaksi pertama ada pemotongan pulsa 5 ribu di transaksi ke dua ada pemotongan 5 ribu, artinya data tersebut akan memotong 10 rb pulsa user karna data tidak di cleansing. Berbeda dengan kita melakukan cleansing, data tersebut akan menjadi satu kita akan menghilangkan duplikasinya. Selain duplikat, data tidak lengkap dapat dikatakan data kotor juga. Data kotor bisa di antisipasi ketika data itu pertama kali keluar dari data production. Tidak ada sistem yang sempurna pasti ada data-data yang kotor jadi harus tetap dilakukan cleansing.

7. Pertanyaan #7 Kamila (Universitas Pakuan): data engineer itu apakah diperlukan disemua instansi? kalua untuk Perguruan tinggi swasta yang butuh data untuk memperbanyak jumlah mahasiswa, apakah perlu data engineer? apa perbedaan tugas data analis dan data engineer?

Jawab: apabila seorang data analyze bisa melakukan engineering data sebener nya data engineer spesifik itu tidak diperlukan kecuali kita berhadapan dengan data yang sangat besar otomatis seorang data analze dan data engineer harus dipisahkan dalam tugas nya yang satu untuk melakukan surpisen data dan yang satu analytical data.

8. Pertanyaan #8 Lina Gozali (Universitas Tarumanagara): cleansing data itu seperti apa pak... karena menurut saya data itu berharga kalau pun harus dibuang ... data2 yang nyeleneh itu mgk atau ada data yang ngak seragam itu juga informasi .... walaupun untuk pengolahan data atau untuk tujuan tertentu mgk tidak diperhitungkan ... tapi menurut saya setiap data itu berharga mungkin contohnya ... kalau data yang menang dilihat dari yang vote.... tapi yang ngak vote pun itu informasi ...berapa persen yang abstein itu informasi walaupun yang abstein tidak mempengaruhi data kandidat yang menang.

9. Jawab: data tidak boleh dibuang karena data berharga. Storage sudah tidak seperti dulu yang mahal. Data cleansing memfilter data-data yang tidak lengkap atau data menyimpang. Biasanya data tersebut yang menjadi perhatian. Namun data tetap tidak di buang. Data yang dipakai ke staging A dan data reject ke staging B, karena ketika kita melakukan recording apabila ada data yang tidak sesuai. Kita dapat memeriksa di staging apabila ada data yang reject kita bisa ambil lagi atribut nya ke atas. Tidak ada data yang di buang hanya ada data reject yang dikumpulkan.

10. Pertanyaan #9 Ali Sumara (ITL Trisakti): Bagaimanakah caranya agar kita bias memulai project data analisis kita sendiri ? apakah harus di request oleh company dulu atau bias kita mulai dari luar ?

Jawab: kesalahan dalam membuat komunitas big data karena terlalu fokus di area teknis, di mana kita mendapatkan teknologi nya, mengadakan pengajaran kepada tim tim teknis. Ketika kita hanya mengajarkan kepada level teknis, divisi IT saja hanya perlu hal seperti itu, namun itu tidak sampai level strategis. Beberapa bulan kebelakang sudah dirubah sistem nya dengan melakukan transfer knowladge betapa penting nya big data analysist sampai level strategic sehingga mereka akan tau ketika mereka punya project big data bahwa mereka akan menghasilkan hal-hal yang tidak di dapat sebelum nya. dari level strategic sudah sadar maka perusahaan perlu yang namanya project big data analytics maka mereka akan rela mengeluarkan dana yang besar untuk kebutuhan nya. jadi, mulai mengumpulkan data untuk level atas merestui untuk project ini maka kita sudah siap secara infrastruktur dan datanya. Hal ini penting bagian dari binis dari perusahaan tersebut.

 

Kursus Lainnya

Big Data Seri-3: Big Data Analytics: Data Visualization and Data Science (Merdeka Belajar Kampus Merdeka)

Big Data Seri-3: Big Data Analytics: Data Visualization and Data Science (Merdeka Belajar Kampus Merdeka)

Big Data Seri-4: Computer Vision in Big Data Applications (Merdeka Belajar Kampus Merdeka)

Big Data Seri-4: Computer Vision in Big Data Applications (Merdeka Belajar Kampus Merdeka)

Big Data Seri-5: Artificial Intelligence: Predicting the Future

Big Data Seri-5: Artificial Intelligence: Predicting the Future

Batch 2 Big Data Seri-1: Introduction to Big Data and Data Science (Merdeka Belajar Kampus Merdeka)

Batch 2 Big Data Seri-1: Introduction to Big Data and Data Science (Merdeka Belajar Kampus Merdeka)

Batch 2 Big Data Seri-2: Big Data Engineering and Implementation (Merdeka Belajar Kampus Merdeka)

Batch 2 Big Data Seri-2: Big Data Engineering and Implementation (Merdeka Belajar Kampus Merdeka)

Big Data Seri-2: Big Data Engineering and Implementation (Merdeka Belajar Kampus Merdeka)

Big Data Seri-2: Big Data Engineering and Implementation (Merdeka Belajar Kampus Merdeka)

Batch 2 Big Data Seri-3: Big Data Analytics: Data Visualization and Data Science (Merdeka Belajar Kampus Merdeka)

Batch 2 Big Data Seri-3: Big Data Analytics: Data Visualization and Data Science (Merdeka Belajar Kampus Merdeka)

Tanya Jawab Big Data Seri-1: Introduction to Big Data and Data Science

Tanya Jawab Big Data Seri-1: Introduction to Big Data and Data Science

Batch 2 Big Data Seri-4: Computer Vision in Big Data Applications (Merdeka Belajar Kampus Merdeka)

Batch 2 Big Data Seri-4: Computer Vision in Big Data Applications (Merdeka Belajar Kampus Merdeka)

Tanya Jawab Big Data Seri-2: Big Data Engineering and Implementation

Tanya Jawab Big Data Seri-2: Big Data Engineering and Implementation

Tanya Jawab Big Data Seri-4: Computer Vision in Big Data Applications

Tanya Jawab Big Data Seri-4: Computer Vision in Big Data Applications

Big Data Seri-1: Introduction to Big Data and Data Science (Merdeka Belajar Kampus Merdeka)

Big Data Seri-1: Introduction to Big Data and Data Science (Merdeka Belajar Kampus Merdeka)

Batch 2 Big Data Seri-5: Artificial Intelligence: Predicting the Future

Batch 2 Big Data Seri-5: Artificial Intelligence: Predicting the Future

https://www.diklatkerja.com/ View My Stats google-site-verification=NZYxT_LuTP9MO8Y5NiwWF4-gn9VswpOgX2gKm3EGtmE k=rsa; p=MIGfMA0GCSqGSIb3DQEBAQUAA4GNADCBiQKBgQC7oocmjoXIed2vSE790e1bSahpUlaqGTn4MPX1dqt6iZb/bCeDPF8AwU5V+O2GdUldnnwsg6EFqqsJZ8QUfXJDbOetOSH/ETbRIAHxeSQjiaq2Cqob+uyKl7uVYIXkWYR1p1Ln04hc7B05Bs/pv7t7sToNFRIqr9G04P8vRxjpswIDAQAB