Skip to content

iData1011/iData1011-curriculum

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 

Repository files navigation

Draft Kurikulum iData1011

Adaptasi dari:

Daftar Isi

Jalur Menjadi Ilmuwan Data

Jalur 1: Fundamental

1. Dasar Matriks dan Algebra Linear

Jalur 2: Statistika

1.

Jalur 3:

Jalur 4:

Jalur 5:

Jalur 6:

Jalur 7:

Jalur 8: Data Ingestion

1. Using ETL

2. How much Data?

3. Google OpenRefine

4. Data Survey

5. Transformation & Enrichment

6. Data Fusion

7. Data Integration

8. Data Sources & Acquisition

9. Data Discovery

10. Summary of Data Formats

Jalur 9: Data Munging

1. Principal Component Analysis

2. Stratified Sampling

3. Sampling

4. Denoising

5. Feature Extraction

6. Binning Sparse values

7. Unbiased Estimators

8. Handling Missing Values

9. Data Scrubbing

10. Normalization

  • Normalization memiliki arti mentransformasikan data, yakni mengubah data ke bentuk lain untuk pemrosesan data yang memungkinkan menjadi lebih efektif. Tujuan utama Normalization adalah meminimalkan bahkan mengecualikan data-data yang bersifat ganda atau duplikat. Hal ini cukup penting karena menjadi permasalahan apabila menyimpan data dalam database relasional, dimana menyimpan data identik di lebih dari satu tempat.
  • Penggunaan Normalization memiliki beberapa keuntungan, yaitu :
      1. Penerapan algoritma menjadi lebih mudah.
      1. Algoritma data menjadi lebih efektif dan efisien.
      1. Dapat dipahami semua orang.
      1. Data dapat diekstraksi lebih cepat.
      1. Memungkinkan untuk menganalisis data dengan cara tertentu.
  • Teknik umum Normalization adalah sebagai berikut :
      1. Min-Max Normalization ⇒ x_new = (x - min(x))/(max(x)-min(x))
      1. Mean-Standard Deviation Normalization ⇒ x_new = (x - mean(x))/std(x)
      1. Softmax Normalization ⇒ (1+exp((mean(x)-x)/std(x)))^-1

11. Dimensionality & Numeriosity Reduction

Dimensionality Reduction

  • Dimensionality reduction adalah proses pengurangan jumlah variabel atau atribut acak yang mengubah atau memproyeksikan data asli ke ruang yang lebih kecil.
  • Beberapa teknik yang mungkin, diantaranya sebagai berikut :
      1. Principal Component Analysis. Merupakan teknik pengurangan fitur yang paling umum. Dalam teknik ini dapat menentukan jumlah komponen utama yang sesuai.
      1. Linear Discriminant Analysis. Ialah teknik lain dengan cara kerja serupa, yaitu dengan memilih jumlah vektor eigen yang sesuai.
      1. Autoencoders. Merupakan teknik pengurangan dimensi berbasis Neural Networks.
      1. Manifold Learning. Adalah teknik yang menggunakan reduksi dimensi non-linier.
  • Terdapat beberapa teknik lain untuk reduksi fitur dengan berdasarkan fitur yang dipilih sesuai dengan kepentingannya masing-masing, yaitu : sequential forward selection, feature importance estimation based on Random forests or decision trees or any ensemble methods, Relief Algorithm, mutual information, information gain, dan lain-lain. Numerosity Reduction
  • Numerosity Reduction adalah teknik reduksi data yang menggantikan data asli dengan bentuk representasi data yang lebih kecil. Terdapat dua teknik untuk Numerosity Reduction, yaitu :
      1. Parametric Methods, data direpresentasikan menggunakan model untuk mengestimasi data, sehingga hanya parameter data yang perlu disimpan, bukan data aktualnya. Terdapat dua model, diantaranya : Regression, dapat berupa linier sederhana dan linier berganda. Dan Log-Linear, dapat digunakan untuk memperkirakan probabilitas setiap titik data dalam ruang multidimensi untuk sekumpulan atribut terpisah, memungkinkan ruang data dimensi lebih tinggi dibangun dari atribut berdimensi lebih rendah.
      1. Non-Parametric Methods, metode ini digunakan untuk menyimpan representasi data yang dikurangi meliputi Histogram, Clustering, Sampling, dan Data Cube Aggregation.

Jalur 10: Toolbox

2. Java, Python

About

iData1011/iData1011-curriculum

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published