Ryan Rama: Januari 2017

Kamis, 26 Januari 2017

Pengertian Pohon Keputusan

Pengertian

Pohon keputusan adalah salah satu metode klasifikasi yang paling populer karena mudah untuk di interpretasi oleh manusia. Pohon keputusan adalah model prediksi menggunakan struktur pohon atau struktur berhirarki.

Konsep dari pohon keputusan adalah mengubah data menjadi pohon keputusan dan aturan-aturan keputusan.

Manfaat utama dari penggunaan pohon keputusan adalah kemampuannya untuk mem-break down proses pengambilan keputusan yang kompleks menjadi lebih simpel sehingga pengambil keputusan akan lebih menginterpretasikan solusi dari permasalahan. Pohon Keputusan juga berguna untuk mengeksplorasi data, menemukan hubungan tersembunyi antara sejumlah calon variabel input dengan sebuah variabel target.

Pohon keputusan memadukan antara eksplorasi data dan pemodelan, sehingga sangat bagus sebagai langkah awal dalam proses pemodelan bahkan ketika dijadikan sebagai model akhir dari beberapa teknik lain. Sering terjadi tawar menawar antara keakuratan model dengan transparansi model. Dalam beberapa aplikasi, akurasi dari sebuah klasifikasi atau prediksi adalah satu-satunya hal yang ditonjolkan, misalnya sebuah perusahaan direct mail membuat sebuah model yang akurat untuk memprediksi anggota mana yang berpotensi untuk merespon permintaan, tanpa memperhatikan bagaimana atau mengapa model tersebut bekerja.

Kelebihan dari metode pohon keputusan :

Daerah pengambilan keputusan yang sebelumnya kompleks dan sangat global, dapat diubah menjadi lebih simpel dan spesifik.
Eliminasi perhitungan-perhitungan yang tidak diperlukan, karena ketika menggunakan metode pohon keputusan maka sample diuji hanya berdasarkan kriteria atau kelas tertentu.
Fleksibel untuk memilih fitur dari internal node yang berbeda, fitur yang terpilih akan membedakan suatu kriteria di bandingkan kriteria yang lain dalam node yang sama. Kefleksibelan metode pohon keputusan ini meningkatkan kualitas keputusan yang dihasilkan jika dibandingkan ketika menggunakan metode penghitungan satu tahap yang lebih konvensional.
Dalam analisis multivariat, dengan kriteria dan kelas yang jumlahnya sangat banyak, seorang penguji biasanya perlu untuk mengestimasikan baik itu distribusi dimensi tinggi ataupun parameter tertentu dari distribusi kelas tersebut. Metode pohon keputusan dapat menghindari munculnya permasalahan ini dengan menggunakan criteria yang jumlahnya lebih sedikit pada setiap node internal tanpa banyak mengurangi kualitas keputusan yang dihasilkan.

Kekurangan Pohon Keputusan :

Terjadi overlap terutama ketika kelas-kelas dan criteria yang digunakan jumlahnya sangat banyak. Hal tersebut juga dapat menyebabkan meningkatnya waktu pengambilan keputusan dan jumlah memori yang diperlukan.
Pengakumulasian jumlah eror dari setiap tingkat dalam sebuah pohon keputusan yang besar.
Kesulitan dalam mendesain pohon keputusan yang optimal.
Hasil kualitas keputusan yang didapatkan dari metode pohon keputusan sangat tergantung pada bagaimana pohon tersebut didesain.

Knowledge Base

Representasi Pengetahuan

Representasi pengetahuan merupakan kelanjutan dari proses akuisisi pengetahuan. Setelah pengetahuan berhasil disarikan dari pakar, maka selanjutnya yang dilakukan adalah merepresentasikan bentuk-bentuk pengetahuan tersebut menjadi bentuk yang dikenali oleh sistem (komputer).

Beberapa cara yang dapat digunakan untuk merepresentasikan bentuk ini antara lain jaringan semantik (semantic net), bingkai (frame), aturan produksi (production rule), logika (logic), bahasa natural (natural language), dan sistem basis data (database system).

Representasi pengetahuan dimaksudkan untuk menangkap sifat-sifat penting suatu pengetahuan agar dapat diakses dan digunakan dalam metode pemecahan masalah. Bahasa representasi haruslah mampu membuat seorang pemrogram mengekspresikan pengetahuan yang diperlukan untuk mendapatkan solusi permasalahan.

Representasi pengetahuan yang baik haruslah memiliki sifat-sifat berikut:

· Mengemukakan hal secara eksplisit

· Membuat masalah menjadi transparan

· Komplit dan efisien

· Menampilkan batasan-batasan alami yang ada

· Menekan dan menghilangkan detil-detil yang diperlukan

· Dapat dilakukan komputasi terhadapnya (memiliki batasan).

Representasi pengetahuan dikelompokkan ke dalam empat jenis, yaitu:

· Representasi Logika

Representasi jenis ini menggunakan ekspresi-ekspresi logika formal dalam melakukan representasi.

· Representasi Prosedural

Sementara jenis kedua ini menggambarkan pengetahuan sebagai kumpulan instruksi untuk memecahkan suatu problema.

· Representasi Jaringan (Network)

Representasi ini menangkap pengetahuan sebagai suatu graf di mana simpul-simpulnya merupakan obyek atau konsep dari problema yang dihadapi, sementara garisnya (edge) menggambarkan hubungan di antara mereka.

· Representasi Terstruktur

Dalam representasi ini, jaringan diperluas dengan cara membuat tiap simpulnya menjadi sebuah struktur data kompleks.

Prinsip representasi pengetahuan adalah jika suatu permasalahan dideskripsikan dengan menggunakan representasi yang tepat, maka dapat dipastikan bahwa masalah tersebut dapat diselesaikan.

Ontologi

Kunci dari suatu basis pengetahuan adalah ontologi, yaitu sistem konsep-konsep yang terorganisir yang menjadikan sesuatu yang ada dalam domain menjadi eksplisit[7]. Ontologi merupakan spesifikasi dari suatu konseptualisasi, atau suatu teori logis yang memberikan suatu akun eksplisit yang parsial dari suatu konseptualisasi[8]; atau bahkan sinonim dari konseptualisasi itu sendiri.

Ontologi digunakan untuk menjelaskan mengenai properti dari suatu domain, dan juga untuk mendefinisikan domain tersebut.

Komponen-komponen dari ontologi antara lain:

· Konsep (concept) digunakan dalam pemahaman yang luas. Sebuah konsep dapat sesuatu yang dikatakan, sehingga dapat pula merupakan penjelasan dari tugas, fungsi, aksi, strategi, dan sebagainya.

· Relasi (relation) merupakan representasi sebuah tipe dari interaksi antara konsep dari sebuah domain. Secara formal dapat didefinisikan sebagai subset dari sebuah pruduk dari n set,

Sebagai contoh dari relasi biner termasuk subclass-of dan connected-to.

· Fungsi (function) adalah sebuah relasi khusus di mana elemen ke-n dari relasi adalah unik untuk elemen ke-(n-1).

Contohnya adalah Mother-of.

· Aksioma (axiom) digunakan untuk memodelkan sebuah kalimat yang selalu benar.

· Instans (instance) digunakan untuk merepresentasikan elemen.

Menurut Tom Gruber dari Stanford University, makna ontologi dalam konteksnya di ilmu komputer adalah “suatu deskripsi konsep dan relasi yang ada dalam suatu agen maupun komunitas agen”[9].

Sebuah ontologi memberikan pengertian untuk penjelasan secara eksplisit dari konsep terhadap representasi pengetahuan pada sebuah basis pengetahuan (Bernaras, proyek KACTUS). Sementara menurut proyek SENSUS, Sebuah ontologi adalah sebuah struktur hirarki dari istilah untuk menjelaskan sebuah domain yang dapat digunakan sebagai landasan untuk sebuah basis pengetahuan.

Sistem Perbaikan Pengetahuan

Sistem Perbaikan Pengetahuan (Knowledge Refining System) merupakan suatu sistem untuk memperbaiki kinerja sistem pakar. Dengan sistem ini, pakar dapat melakukan analisis kinerja, lalu melakukan pembelajaran, dan kemudian meningkatkannya pada konsultasi berikutnya.

Pada pembelajaran mesin, tujuan dari perbaikan basis pengetahuan (knowledge base refinement) adalah meningkatkan performa sistem dengan pembelajaran empiris, di mana performa sistem diukur dari jumlah kesalahan yang terdeteksi ketika sistem dieksekusi untuk kasus-kasus yang ada dalam pustaka sistem.

Interferential Engine

Teknik Penalaran (Forward & Backward Chaining) dipengaruhi oleh tiga macam teknik penelusuran (searching) yaitu:

1. Teknik Dept-First Search
Adalah teknik penelusuran data pada node-node secara vertical dan sudah terdefinisi, misalnya kiri ke kanan, keuntungan pencarian dengan teknik ini adalah bahwa penelurusan masalah dapat di gali secara mendalam sampai di temukannya kapasitas suatu solusi yang optimal. Kekurangan teknik penelesuran ini adalah membutuhkan waktu yang sangat lama untuk ruang lingkup masalah yang besar.

2. Teknik Breadth-First Search
Adalah teknik penelusuran data pada semua node dalam satu level atau salah satu tingkatan sebelum ke level atau tingkatan di bawahnya. Keuntungan pencarian daengan teknik ini adalah sama dengan depth first search, hanya saja penelusuran dengan tehnik ini mempunyai nilai tambah, dimana semua node akan di cek secara menyeluruh pada setiap tingkatan node. Kekurangan teknik penelusuran ini terletak pada waktu yang dibutuhkan yang sangat lama apabila solusi berada dalam posisi node terakhir sehingga menjadi tidak efisien. Kekurangan dalam implementasi juga perlu di pertimbangkan, misalnya teknik penelusuran menjadi tidak interaktif antara suatu topik dengan topik yang lain atau harus melompat dari satu topik ke topik yang lain sebelum topik tersebut selesai di telusuri.

3. Teknik Best-First Search
Adalah teknik penelusuran yang menggunakan pengetahuan akan suatu masalah untuk melakukan panduan pencarian ke arah node tempat dimana solusi berada. Pencarian jenis ini dikenal juga sebagai heuristic. Pendekatan yang dilakukan adalah mencari solusi yang terbaik berdasarkan pengetahuan yang dimiliki sehingga penelusuran dapat ditentukan harus di mulai dari mana dan bagaimana menggunakan proses terbaik untuk mencari solusi. Keuntungan jenis pencarian ini adalah mengurangi beban komputasi karena hanya solusi yang memberikan harapan saja yang diuji dan akan berhenti apabila solusi sudah mendekati yang terbaik. Ini merupakan model yang menyerupai cara manusia mengambil solusi yang dihasilkan merupakan solusi yang mutlak benar.

Teori Pengambilan Keputusan(Pohon Keputusan)

Keputusan dapat dijelaskan sebagai hasil pemecahan masalah, selain itu juga harus di dasari atas logika dan pertimbangan, penetapan alternatif terbaik, serta harus mendekati tujuan yang telah ditetapkan. Seorang pengambil keputusan haruslah memperhatikan logika, realita, rasional, dan pragmatis.

Teori pengambilan keputusan adalah teknik pendekatan yang digunakan dalam proses pengambilan keputusan atau proses memilih tindakan sebagai cara pemecahan masalah.

Fungsi pengambilan keputusan adalah individual atau kelompok baik secara institusional ataupun organisasional, sifatnya futuristik.

Tujuan Pengambilan Keputusan :

1. Tujuan yang bersifat tunggal (hanya satu masalah dan tidak berkaitan dengan masalah lain).
2. Tujuan yang bersifat ganda (masalah saling berkaitan, dapat bersifat kontradiktif ataupun tidak kontradiktif).

Dasar - Dasar Pengambilan Keputusan :

1. Intuisi

2. Pengalaman

3. Fakta

4. Wewenang

5. Rasional

Proses Pengambilan Keputusan :

1. Tahap Penemuan Masalah.

2. Tahap Pemecahan Masalah (state of nature).

3. Tahap Pengambilan Keputusan (payoff).

Menurut Herbert A. Simon terdapat 3 fase :

1. Fase Intelegensia

2. Fase Desain

3. Fase Pemilihan (selection)

Menurut Richard I. Levin terdapat 6 tahap :

1. Tahap observasi.

2. Tahap analisis dan pengenalan masalah.

3. Pengembangan model.

4. Memilih data masukan yang sesuai.

5. Perumusan dan pengetesan.

6. Pemecahan.

Menurut sir Francis Bacon :

1. Merumuskan / mendefinisikan masalah.

2. Pengumpulan informasi yang relevan.

3. Mencari alternatif tindakan.

4. Analisis alternatif.

5. Memilih alternatif terbaik.

6. Melaksanakan keputusan dan evaluasi hasil

Model Pengambilan Keputusan :

1. Model Kuantitatif.

2. Model Kualitatif.

3. Model Probabilitas.

4. Model Matriks.

5. Model Pohon Keputusan (Decisiontree Model).

6. Model Kurva Indiferen (kurvatak acuh).

7. Model Simulasi Komputer (model matematika, simulasi, permainan operasional, model verbal, model fisik).

MODEL DAN ALGORITMA POHON KEPUTUSAN

Model Pohon Keputusan

Pohon keputusan adalah model prediksi menggunakan struktur pohon atau struktur berhirarki. Contoh dari pohon keputusan dapat dilihat di Gambar berikut ini.

Model Pohon Keputusan (Pramudiono,2008)

Disini setiap percabangan menyatakan kondisi yang harus dipenuhi dan tiap ujung pohon menyatakan kelas data. Contoh di Gambar 1 adalah identifikasi pembeli komputer,dari pohon keputusan tersebut diketahui bahwa salah satu kelompok yang potensial membeli komputer adalah orang yang berusia di bawah 30 tahun dan juga pelajar. Setelah sebuah pohon keputusan dibangun maka dapat digunakan untuk mengklasifikasikan record yang belum ada kelasnya. Dimulai dari node root, menggunakan tes terhadap atribut dari record yang belum ada kelasnya tersebut lalu mengikuti cabang yang sesuai dengan hasil dari tes tersebut, yang akan membawa kepada internal node (node yang memiliki satu cabang masuk dan dua atau lebih cabang yang keluar), dengan cara harus melakukan tes lagi terhadap atribut atau node daun. Record yang kelasnya tidak diketahui kemudian diberikan kelas yang sesuai dengan kelas yang ada pada node daun. Pada pohon keputusan setiap simpul daun menandai label kelas. Proses dalam pohon keputusan yaitu mengubah bentuk data (tabel) menjadi model pohon (tree) kemudian mengubah model pohon tersebut menjadi aturan (rule).

ALGORITMA C4.5

Salah satu algoritma induksi pohon keputusan yaitu ID3 (Iterative Dichotomiser 3). ID3 dikembangkan oleh J. Ross Quinlan. Dalam prosedur algoritma ID3, input berupa sampel training, label training dan atribut. Algoritma C4.5 merupakan pengembangan dari ID3. Sedangkan pada perangkat lunak open source WEKA mempunyai versi sendiri C4.5 yang dikenal sebagai J48.

Algoritma C4.5

Pohon dibangun dengan cara membagi data secara rekursif hingga tiap bagian terdiri dari data yang berasal dari kelas yang sama. Bentuk pemecahan (split) yang digunakan untuk membagi data tergantung dari jenis atribut yang digunakan dalam split. Algoritma C4.5 dapat menangani data numerik (kontinyu) dan diskret. Split untuk atribut numerik yaitu mengurutkan contoh berdasarkan atribut kontiyu A, kemudian membentuk minimum permulaan (threshold) M dari contoh-contoh yang ada dari kelas mayoritas pada setiap partisi yang bersebelahan, lalu menggabungkan partisi-partisi yang bersebelahan tersebut dengan kelas mayoritas yang sama. Split untuk atribut diskret A mempunyai bentuk value (A) ε X dimana X ⊂ domain(A).

Jika suatu set data mempunyai beberapa pengamatan dengan missing value yaitu record dengan beberapa nilai variabel tidak ada, Jika jumlah pengamatan terbatas maka atribut dengan missing value dapat diganti dengan nilai rata-rata dari variabel yang bersangkutan.[Santosa,2007]

Untuk melakukan pemisahan obyek (split) dilakukan tes terhadap atribut dengan mengukur tingkat ketidakmurnian pada sebuah simpul (node). Pada algoritma C.45 menggunakan rasio perolehan (gain ratio). Sebelum menghitung rasio perolehan, perlu menghitung dulu nilai informasi dalam satuan bits dari suatu kumpulan objek. Cara menghitungnya dilakukan dengan menggunakan konsep entropi.

S adalah ruang (data) sampel yang digunakan untuk pelatihan, p+ adalah jumlah yang bersolusi positif atau mendukung pada data sampel untuk kriteria tertentu dan p- adalah jumlah yang bersolusi negatif atau tidak mendukung pada data sampel untuk kriteria tertentu. ntropi(S) sama dengan 0, jika semua contoh pada S berada dalam kelas yang sama. Entropi(S) sama dengan 1, jika jumlah contoh positif dan negative dalam S adalah sama. Entropi(S) lebih dari 0 tetapi kurang dari 1, jika jumlah contoh positif dan negative dalam S tidak sama [Mitchell,1997].Entropi split yang membagi S dengan n record menjadi himpunan-himpunan S1 dengan n1 baris dan S2 dengan n2 baris adalah :

Kemudian menghitung perolehan informasi dari output data atau variabel dependent y yang dikelompokkan berdasarkan atribut A, dinotasikan dengan gain (y,A). Perolehan informasi, gain (y,A), dari atribut A relative terhadap output data y adalah:

nilai (A) adalah semua nilai yang mungkin dari atribut A, dan yc adalah subset dari y dimana A mempunyai nilai c. Term pertama dalam persamaan diatas adalah entropy total y dan term kedua adalah entropy sesudah dilakukan pemisahan data berdasarkan atribut A.

Untuk menghitung rasio perolehan perlu diketahui suatu term baru yang disebut pemisahan informasi (SplitInfo). Pemisahan informasi dihitung dengan cara :

bahwa S1 sampai Sc adalah c subset yang dihasilkan dari pemecahan S dengan menggunakan atribut A yang mempunyai sebanyak c nilai. Selanjutnya rasio perolehan (gain ratio) dihitung dengan cara :

Contoh Aplikasi

CREDIT RISK

Berikut ini merupakan contoh dari salah satu kasus resiko kredit (credit risk) yang menggunakan decision tree untuk menentukan apakah seorang potential customer dengan karakteristik saving, asset dan income tertentu memiliki good credit risk atau bad credit risk.

Dapat dilihat pada gambar tersebut, bahwa target variable dari decision tree tersebut atau variable yang akan diprediksi adalah credit risk dengan menggunakan predictor variable : saving, asset, dan income. Setiap nilai atribut dari predictor variable akan memiliki cabang menuju predictor variable selanjutnya, dan seterusnya hingga tidak dapat dipecah dan menuju pada target variable.

Penentuan apakah diteruskan menuju predictor variable (decision node) atau menuju target variable (leaf node) tergantung pada keyakinan (knowledge) apakah potential customer dengan nilai atribut variable keputusan tertentu memiliki keakuratan nilai target variable 100% atau tidak. Misalnya pada kasus di atas untuk saving medium, ternyata knowledge yang dimiliki bahwa untuk seluruh potential customer dengan saving medium memiliki credit risk yang baik dengan keakuratan 100%. Sedangkan untuk nilai low asset terdapat kemungkinan good credit risk dan bad credit risk.

Jika tidak terdapat pemisahan lagi yang mungkin dilakukan, maka algoritma decision tree akan berhenti membentuk decision node yang baru. Seharusnya setiap branches diakhiri dengan “pure” leaf node, yaitu leaf node dengan target variable yang bersifat unary untuk setiap records pada node tersebut, di mana untuk setiap nilai predictor variable yang sama akan memiliki nilai target variable yang sama. Tetapi, terdapat kemungkinan decision node memiliki “diverse” atributes, yaitu bersifat non‐unary untuk nilai target variablenya, di mana untuk setiap record dengan nilai predictor variable yang sama ternyata memiliki nilai target variable yang berbeda. Kondisi tersebut menyebabkan tidak dapat dilakukan pencabangan lagi berdasarkan nilai predictor variable. Sehingga solusinya adalah membentuk leaf node yang disebut “diverse” leaf node, dengan menyatakan level kepercayaan dari diverse leaf node tersebut. Misalnya untuk contoh data berikut ini :

Dari training data tersebut kemudian disusunlah alternatif untuk candidate split, sehingga setiap nilai untuk predictor variable di atas hanya membentuk 2 cabang, yaitu sebagai berikut:

Kemudian untuk setiap candidate split di atas, dihitung variabel‐variabel berikut berdasarkan training data yang dimiliki. Adapun variabel‐variabel tersebut, yaitu :

,di mana

Adapun contoh hasil perhitungannya adalah sebagai berikut :

Dapat dilihat dari contoh perhitungan di atas, bahwa yang memiliki nilai goodness of split * Φ(s/t) + yang terbesar, yaitu split 4 dengan nilai 0.64275. Oleh karena itu split 4 lah yang akan digunakan pada root node, yaitu split dengan : assets = low dengan assets = {medium, high}.

Untuk penentuan pencabangan, dapat dilihat bahwa dengan assets=low maka didapatkan pure node leaf, yaitu bad risk (untuk record 2 dan 7). Sedangkan untuk assets = {medium, high} masih terdapat 2 nilai, yaitu good credit risk dan bad credit risk. Sehingga pencabangan untuk assets = {medium, high} memiliki decision node baru. Adapun pemilihan split yang akan digunakan, yaitu dengan menyusun perhitungan nilai Φ(s/t) yang baru tanpa melihat split 4, record 2 dan 7.

Demikian seterusnya hingga akhirnya dibentuk leaf node dan membentuk decision tree yang utuh (fully grown form) seperti di bawah ini :

SISTEM PAKAR DIAGNOSA PENYAKIT (KUSRINI)

Dalam aplikasi ini terdapat tabel-tabel sebagai berikut:

Tabel Rekam_Medis, berisi data asli rekam medis pasien
Tabel Kasus, beisi data variabel yang dapat mempengaruhi kesimpulan diagnosis dari pasien-pasien yang ada, misalnya Jenis Kelamin, Umur, Daerah_Tinggal, Gejala_1 s/d gejala_n, Hasil_Tes_1 s/d Hasi_Tes_n. Selain itu dalam tabel ini juga memiliki field Hasil_Diagnosis.

Tabel Aturan, berisi aturan hasil ekstrak dari pohon keputusan.

Proses akuisisi pengetahuan yang secara biasanya dalam sistem pakar dilakukan oleh sistem pakar, dalam sistem ini akan dillakukan dengan urutan proses ditunjukkan pada gambar berikut:

Hasil pembentukan pohon keputusan bisa seperti pohon keputusan yang tampak pada gambar:

Lambang bulat pada pohon keputusan melambangkan sebagai node akar atau cabang (bukan daun) sedangkan kotak
melambangkan node daun. Jika pengetahuan yang terbentuk beruka kaidah produksi dengan format:
Jika Premis Maka Konklusi Node-node akar akan menjadi Premis dari aturan sedangkan node daun akan menjadi bagian konklusinya. Dari gambar pohon keputusan pada gambar 4, dapat dibentuk aturan sebagai berikut:

Jika Atr_1 = N_1
Dan Atr_2 = N_4
Dan Atr_3 = N_9
Maka H_1
Jika Atr_1 = N_1
Dan Atr_2 = N_4
Dan Atr_3 = N_10
Dan Atr_4 = N_11
Maka H_2
Jika Atr_1 = N_1
Dan Atr_2 = N_4
Dan Atr_3 = N_10
Dan Atr_4 = N_12
Maka H_2
Jika Atr_1 = N_1
Dan Atr_2 = N_5
Maka H_4
Jika Atr_1 = N_2
Maka H_5
Jika Atr_1 = N_3
Dan Atr_5 = N_6
Maka H_6
Jika Atr_1 = N_3
Dan Atr_5 = N_7
Maka H_7
Jika Atr_1 = N_3
Dan Atr_5 = N_8
Maka H_8

Model case based reasoning dapat digunakan sebagai metode akuisisi pengetahuan dalam aplikasi system pakar diagnosis penyakit. Aturan yagn dihasilkan system ini mampu digunakan untuk mendiagnosis penyakit didasarkan pada data-data pasien. Dalam penentuan diagnosis penyakit belum diimplementasikan derajat kepercayaan terhadap hasil diagnosis tersebut.