Top Banner

of 87

Heru Nurcahya Pst

Jul 05, 2018

Download

Documents

Sidik CaEng
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
  • 8/16/2019 Heru Nurcahya Pst

    1/87

    ANALISIS REGRESI PADA DATA OUTLIER

    DENGAN MENGGUNAKAN LEAST TRIMMED SQUARE

    (LTS) DAN MM-ESTIMASI

    Heru Nurcahyadi

    PROGRAM STUDI MATEMATIKA

    FAKULTAS SAINS DAN TEKNOLOGI

    UNIVERSITAS ISLAM NEGERI

    SYARIF HIDAYATULLAH

    JAKARTA

    2010 M / 1432 H 

  • 8/16/2019 Heru Nurcahya Pst

    2/87

      ii

    PENGESAHAN UJIAN

    Skripsi berjudul “Analisis Regresi pada Data Outlier dengan

    Menggunkan Least Trimmed Square (LTS) dan MM-Estimasi” yang ditulis

    oleh Heru Nurcahyadi, NIM 105094003092  telah diuji dan dinyatakan lulus

    dalam sidang Munaqosyah Fakultas Sains dan Teknologi Universitas Islam

     Negeri Syarif Hidayatullah Jakarta pada tanggal 19 Mei 2009. Skripsi ini telah

    diterima sebagai salah satu satu syarat untuk memperoleh gelar sarjana strata satu

    (S1) Program Studi Matematika.

    Menyetujui :

    Penguji 1, Penguji 2,

    Yanne Irene, M.Si Gustina Elfiyanti, M.Si

     NIP. 19741231 2005012 018 NIP. 19820820 200901 2006

    Pembimbing 1, Pembimbing 2,

    Summa’inna, M.Si  Bambang Ruswandi, M.Stat

     NIP. 150 408 699 NIP. 0305 108 301

    Mengetahui :

    Dekan Fakultas Sains dan Teknologi Ketua Program Studi Matematika,

    DR. Syopiansyah Jaya Putra, M.Sis Yanne Irene, M.Si

     NIP. 19680117 200112 1 001 NIP. 19741231 2005012 018

  • 8/16/2019 Heru Nurcahya Pst

    3/87

    PERSEMB H N

    Skripsi ini aku persembahkan untuk kedua orang tuaku,

     keluarga besarku, dan keluarga besar Prodi Matematika

    MOTTO 

    ‘ Karena sesungguhnya sesudah kesulitan itu ada kemudahan, dan sesungguhnya sesudah kesulitan itu ada kemudahan. Maka apabila kamu telah

     selesai (dari sesuatu urusan), kerjakanlah dengan sungguh-sungguh (urusan) yang

    lain, dan hanya kepada Tuhanmulah kamu be  rharap.’  

    QS. Alam Nasyrah ayat 5-8)

    pelajarilah ilmu

    Barang siapa mempelajarinya karena ALLAH  , itu Taqwa. 

    Menuntutnya, itu Ibadah.

    Mengulang-ngulangnya, itu Tasbih.

    Membahasnya, itu Jihad.

    Mengajarkannya kepada orang yang tidak tahu, itu Sedekah.

    Memberikannya kepada ahlinya, itu mendekatkan diri kepada ALLAH .”  

    ( Muhammad bin Muhammad al Ghazali ). 

  • 8/16/2019 Heru Nurcahya Pst

    4/87

      iii

    PERNYATAAN 

    DENGAN INI SAYA MENYATAKAN BAHWA SKRIPSI INI BENAR-

    BENAR HASIL KARYA SENDIRI YANG BELUM PERNAH DIAJUKAN

    SEBAGAI SKRIPSI ATAU KARYA ILMIAH PADA PERGURUAN TINGGI

    ATAU LEMBAGA MANAPUN.

    Jakarta, 15 Desember 2010

    Heru Nurcahyadi

    105094003092

  • 8/16/2019 Heru Nurcahya Pst

    5/87

    vi

     ABSTRACT

     Regression analysis is a statistical methodology that describes the

    relationship of independent variables and the dependent variable. From the

    relationship it established a model that can be used to predict the value of the

    dependent variable using the dependent variable. The resulting model is derived

     from the method of least square (LS), which must satisfy some assumptions. With

    the existence of a data which is not similar to most other data, called outliers,

    then the LS method using the resulting regression model did not meet the

    assumptions and regression models did not fit with the data.

    Outlier on the x-direction is called leverage can be detected by using the

    h-hat matrix, while the y-direction is called discrepancies can be detected by

    using the externally studentized residual, and the influence can be detected by

    using DFFITS and COOK'SD.

    method of least trimmed square (LTS) to produce regression

    models that fit to the data even though half of the data is outlier data,

    because it has a high value of breakdown point that is 50%. Other robust

    methods that have a breakdown point of 50% is MM-Estimate that use the

    S-Estimated initial iteration. LTS model is very good at simple regressionanalysis compared with MM-estimation seen from the estimated residual

     scale. While the multiple regression analysis of MM-Estimation is better

    when compared with the LTS seen from the estimated residual scale.

     Keywords: least square (LS), outlier, leverage, h-hat matrix,

    discrepancies, externally studentized residual, value influences, DFFITS,

    COOK'SD, least trimmed square (LTS), breakdown point, robust method,

     MM-estimation, S-estimation.

  • 8/16/2019 Heru Nurcahya Pst

    6/87

  • 8/16/2019 Heru Nurcahya Pst

    7/87

      vii

    KATA PENGANTAR

    حيم

     

    حن ر

     

    ا ر

     

    سم

     Assalamu’ alaikum Wr. Wb.

    Puji syukur kehadirat Allah SWT yang telah memberi rahmat dan karunia-

     Nya sehingga penulis dapat menyelesaikan skripsi ini. Shalawat serta salam tak

    lupa disampaikan kepada Nabi Muhammad SAW. Skripsi ini adalah syarat

    kelulusan yang harus ditempuh dalam menyelesaikan pendidikan sarjana strata

    satu Program Studi Matematika Fakultas Sains dan Teknologi Universitas Islam

     Negeri Syarif Hidayatullah Jakarta.

    Kami mengucapkan terima kasih kepada para pihak yang telah banyak

    membantu dalam penyelesaian skripsi ini, di antaranya :

    1. 

    Dr. Syopiansyah Jaya Putra, M.Sis, Dekan Fakultas Sains dan Teknologi .

    2.  Yanne Irene, M.Si, sebagai Ketua Program Studi Matematika dan dosen

     penguji I.

    3.  Suma’inna, M.Si, Sekretaris Program Studi Matematika dan dosen

    Pembimbing I.

    4. 

    Bambang Ruswandi, M.Stat, dosen pembimbing II

    5.  Seluruh dosen Prodi Matematika yang telah memberikan ilmu-ilmu yang

    sangat bermanfaat bagi penulis.

    6.  Seluruh civitas akademika Fakultas Sains dan Teknologi atas bantuannya

    dalam bidang administrasi.

  • 8/16/2019 Heru Nurcahya Pst

    8/87

      viii

    7. 

    Kedua orang tuaku: H. Ahyad dan Hj. Nurhayati, adikku: Herwin Adriyan,

    dan keluargaku yang senantiasa mendoakan dan memberikan semangat selalu

     pada penulis dalam penyelesaian skripsi ini.

    8.  Pamanku, Sersan Satu Unang Sunarya dan keluarganya yang telah banyak

    mendorong dan membantu dalam penyelesaian skripsi ini.

    9.  Mukhlis, Dede Kurniawan, Syakur, dan Perdy atas persahabatannya selama

    ini, semoga selalu kekal hingga akhir waktu.

    10. 

    Seluruh teman-teman angkatan 2004, 2005, 2006, 2007, dan 2008 semoga

    Allah tetap mengekalkan ukhuwah kita.

    Kritik dan saran sangat kami harapkan demi penyempurnaan skripsi.

    Mohon maaf bila ada kekurangan. Semoga skripsi ini dapat bermanfaat bagi para

     pembaca, khususnya bagi penulis pribadi.

    Wassalamu’alaikum Wr.Wb. 

    Jakarta, 15 Desember 2010

    Penulis

  • 8/16/2019 Heru Nurcahya Pst

    9/87

      ix

    DAFTAR ISI

    HALAMAN JUDUL .............................................................................. i

    PENGESAHAN UJIAN ......................................................................... . ii

    PERNYATAAN ...................................................................................... . iii

    PERSEMBAHAN DAN MOTTO ............................................................ iv

    ABSTRAK ............................................................................................... v

    ABSTRACT ............................................................................................. vi

    KATA PENGANTAR ........................................................................... vii

    DAFTAR ISI ........................................................................................... ix

    DAFTAR TABEL .................................................................................. xi

    DAFTAR GAMBAR ................................................................................. xiii

    DAFTAR LAMPIRAN ........................................................................... . xiv

    BAB I. PENDAHULUAN ..................................................................... 1

    1.1. Latar Belakang ................................................................... 1

    1.2. Permasalahan...................................................................... 4

    1.3. Pembatasan Masalah .......................................................... 4

    1.4. Tujuan Penulisan ................................................................ 5

    1.5. Manfaat Penulisan .............................................................. 5

    BAB II. LANDASAN TEORI ................................................................. 6

    2.1. Model Persamaan Regresi Linear…………………………  6

    2.2. Outlier Dalam Regresi: Sumber, Jenis danDeteksi Outlier …  11

    2.3. Robust Estimasi…………………………………………...  26

  • 8/16/2019 Heru Nurcahya Pst

    10/87

      x

    BAB III. ROBUST ESTIMASI PADA REGRESI ................................... 37

    3.1. Least Trimmed Square ....................................................... 37

    3.2. MM-Estimasi ..................................................................... 45

    BAB IV. APLIKASI MODEL .................................................................. 52

    4.1. Aplikasi pada Regresi Sederhana ....................................... 52

    4.2. Aplikasi pada Regresi Berganda ........................................ 60

    BAB V. KESIMPULAN DAN SARAN .................................................. 65

    5.1. Kesimpulan ........................................................................ 65

    5.2. Saran ................................................................................... 61

    REFERENSI ............................................................................................ 67

    LAMPIRAN .............................................................................................. 68

  • 8/16/2019 Heru Nurcahya Pst

    11/87

      xiii

    DAFTAR GAMBAR

    Gambar 2.1 : Model Regresi Linear Sederhana ................................................. 7

    Gambar 2.2 : Garis Least Square ....................................................................... 9

    Gambar 2.3 : Outlier  pada Arah-y ................................................................... 14

    Gambar 2.4 : Outlier  pada Arah-x ................................................................... 15

    Gambar 2.5 : Outlier pada (xk ,yk ) ….. ............................................................. 16

    Gambar 2.6 : Fungsi Huber .............................................................................. 25

    Gambar 2.7 : Fungsi Bisquare  ........................................................................ 31

    Gambar 4.1 : Plot Leverage ... ......................................................................... 53

    Gambar 4.2 : Scatterplot  dan Garis Least Square ........................................... 56

    Gambar 4.3 : Distribusi Normal Residual Data Pensiunan .............................. 56

    Gambar 4.4 : Garis Least Trimmed Square Data Pensiunan ............................ 57

    Gambar 4.5 : Garis MM-Estimasi Data Pensiunan .......................................... 59

    Gambar 4.6 : Distribusi Normal Data Table (4.5) ........................................... 62

  • 8/16/2019 Heru Nurcahya Pst

    12/87

      xi

    DAFTAR TABEL

    Tabel 3.3.1: Efisiensi Asimptotik S -Estimator ................................................ 51

    Tabel 4.1 : dana pensiunan ........................................................................... 52

    Tabel 4.2 : pemeriksaan data outlier pada arah-x dana pensiunan ................ 53

    Tabel 4.3 : pemeriksaan data outlier pada arah-y dana pensiunan ................ 54

    Tabel 4.4 : Perbandingan LS, LTS, MM-Estimasi Dana Pensiunan ............. 59

    Tabel 4.5 : Data Survival Time ..................................................................... 60

    Tabel 4.6 : pemeriksaan data outlier pada data table 4.5 . ............................ 62

    Tabel 4.7 : Perbandingan LS, LTS, MM-Estimasi data tabel 4.5 ................. 64

  • 8/16/2019 Heru Nurcahya Pst

    13/87

      xiv

    DAFTAR LAMPIRAN

    Lampiran 1 : Data Dana Pensiunan ................................................................. 68

    Lampiran 2 : Pemeriksaan Data Outlier  pada Arah- x Dana Pensiunan .......... 68

    Lampiran 3 : Pemeriksaan Data Outlier  pada Arah- y Dana Pensiunan .......... 69

    Lampiran 4 : Data Survival Time .................................................................... 70

    Lampiran 5 : Pemeriksaan Leverage Data Survival Time ….. ........................ 71

    Lampiran 6 : Pemeriksaan Discrepancy Data Survival Time …..................... 72

    Lampiran 7 : Pemeriksaan Nilai Influence Data Survival Time ….. ............... 73

  • 8/16/2019 Heru Nurcahya Pst

    14/87

    1

    BAB I

    PENDAHULUAN

    1.1  Latar Belakang

    Model matematik dalam statistika merupakan penyederhanaan dari realitas

    atau permasalahan yang diteliti oleh statistikawan. Oleh karena itu, diperlukan

    asumsi-asumsi agar model tersebut dapat menggambarkan permasalahannya.

    Selain itu, asumsi diperlukan agar dapat merumuskan apa yang statistikawan

    ketahui atau terka (conjectures) mengenai penganalisisan data atau masalah

     permodelan statistik yang dihadapinya, dan pada saat yang bersamaan asumsi

    diperlukan agar model yang dihasilkan dapat memudahkan (manageable) dalam

    sudut pandang teoritik dan komputasinya. Salah satu asumsi yang paling banyak

    ditemukan dalam satatistik adalah asumsi kenormalan, yang telah ada selama 2

    abad, asumsi kenormalan menjadi kerangka berpikir dalam semua metode statistik

    inferensi, yaitu: Regresi, analisis variansi, analisis multivarit, model runtun waktu

    dan lain-lain. Bahkan terdapat justifikasi untuk asumsi kenormalan dengan

    argumen teori yaitu teorema limit pusat.

    Sering kali dalam prakteknya asumsi kenormalan terpenuhi secara

    aproksimasi pada sebagian besar data observasi. Bahkan, beberapa observasi

     berbeda pola atau bahkan tidak berpola mengikuti distribusi normal. Hal ini

    dikarenakan observasi yang “tidak normal”, observasi yang terpisah dari obsevasi-

    observasi lainnya yang dikenal dengan data outlier . Dengan data outlier   asumsi

    kenormalan seringkali tidak terpenuhi, walupun jumlah data cukup besar.

  • 8/16/2019 Heru Nurcahya Pst

    15/87

    2

    Sehingga statistikawan kemungkinan melakukan kesalahan dalam memodelkan

    suatu fenomena dengan adanya kehadiran data outlier . Oleh karena itu, diperlukan

    metode yang bisa mengatasi masalah tersebut.

    Dalam mengatasi data outlier   harus dilihat dari sumber munculnya data

    yang menjadi outlier   tersebut. Outlier   mungkin ada karena adanya data

    terkontaminasi, yaitu adanya kesalahan pada saat melakukan pengambilan sampel

     pada populasi. Outlier   yang disebabkan oleh data terkontaminasi dapat

    dihapuskan dari data penelitian atau jika memungkinkan dilakukan sampling

    ulang. Akan tetapi, jika setelah melakukan beberapa kali sampling ulang namun

    data outlier   tetap muncul maka data tersebut jangan dihapuskan dari data

     penelitian, karena analisis data yang dihasilkan akan tidak mencerminkan populasi

    yang diteliti. Outlier   pada kasus tersebut digolongkan pada kasus yang jarang.

    Untuk mengatasinya diperlukan metode lain supaya analisis data dengan hadirnya

    data outlier   tetap tahan (robust ) terhadap asumsi yang diterapkan pada

     penganalisisan datanya. Metode tersebut dikenal dengan Metode  Robust . Metode

    inilah yang akan jadi penelitain penulis pada tugas akhir ini.

    Model matematik dalam statistika yang banyak ditemukan dalam berbagai

     bidang adalah model regresi. Model regresi merupakan suatu model yang

    menggambarkan hubungan dari variabel dependen dengan variabel-variabel

    independen, dengan adanya hubungan tersebut diharapkan variabel independen

    dapat memprediksikan nilai-nilai variabel dependen. Model regresi

    mengasumsikan bahwa error   dari model tersebut harus berdistribusi normal,

     bervariansi konstan, dan saling independen antar observasi. Dengan adanya

  • 8/16/2019 Heru Nurcahya Pst

    16/87

    3

    outlier  pada data regresi mengakibatkan model regresi tidak memenuhi asumsinya

    dan model regresi tidak cocok ( fit ) terhadap data yang akan dimodelkan, karena

    nilai koefisien dari model regresi tersebut sangat dipengaruhi oleh adanya outlier .

    Oleh karena itu, model yang dihasilkan tidak dapat digunakan untuk

    memprediksikan. Sehingga, outlier  pada regresi harus diatasi.

    Salah satu metode guna mengatasi outlier   pada regresi adalah metode

    robust . Metode robust   yang akan dipakai pada tugas akhir ini adalah MM-

    Estimasi dan least trimmed square (LTS) merupakan dua metode yang

    mempunyai nilai breakdown point yang tinggi yaitu hampir 50%. MM-estimasi

    merupakan metode robust  dengan iterasi point estimasi dari model regresi. Dalam

    MM-estimasi dibutuhkan iterasi awal (initial ) dan iterasi akhir ( final ). LTS

    merupakan metode dengan pertama-tama menghitung h, banyak data yang

    menjdikan estimasi  Robust , dengan sebelumnya menyusun residual  kuadrat dari

    yang terkecil sampai dengan yang terbesar.

    Disamping penanganan outlier   pada regresi, yang lebih penting adalah

     pengidentifikasian data yang menjadi outlier . Metode pengidentifikasian yang

    digunakan pada tugas akhir ini adalah dengan melihat leverage, nilai discrepancy,

    dan nilai influence-nya. leverage hanya menggambarkan kasus yang terjadi pada

    variabel independen. Untuk tiap kasus, leverage menginformasikan seberapa jauh

    kasus tesebut dari nilai mean  himpunan data variabel independen. Sedangkan

    discrepancy  merupakan jarak antara nilai prediksi dengan nilai observasi dari

    variabel dependen (Y), yaitu ˆi iY Y  , yang merupakan nilai dari residual , ie .

    Pada dasarnya, nilai yang menjadi outlier   menyebabkan nilai residual   menjadi

  • 8/16/2019 Heru Nurcahya Pst

    17/87

    4

     besar dan tidak jatuh pada garis regresi. dan yang terakhir nilai influence 

    merupakan kombinasi dari ukuran leverage  dan discrepancy  yang

    menginformasikan mengenai bagaimana perubahan dari persamaan regresi jika

    kasus ke-i dihilangkan dari himpunan data.

    1.2  Permasalahan

    1.  Bagaimana pengidentifikasian outlier  dengan menggunakan leverage,

    nilai discrepancy, dan nilai influence dari data regresi.

    2.  Bagaimana cara mengestimasi nilai-nilai parameter model regresi

    dengan adanya data outlier   dengan menggunakan Least trimmed

    square (LTS) dan MM-Estimasi pada data regresi tersebut.

    3. 

    Bagaimana perbandingan model regresi yang dihasilkan dengan

    menggunakan Least tr immed square(LTS) dan MM-Estimasi.

    1.3  Pembatasan Masalah

    Pada skripsi ini, permasalahan akan dibatasi, yaitu sebagai berikut:

    1.  Data outlier   diasumsikan bukan berasal dari sumber kesalahan

    sampling, akan tetapi data outlier   tersebut merupakan kejadian yang

    khusus atau jarang.

    2. 

    Pengidentifikasian outlier   menggunakan metode h-matriks  untuk

    mengidentifikasi nilai leverage, metode externally studentized

    residual   untuk mengidentifikasi nilai discrepancy, dan metode

     DFFIT’S  dan Cook’sD untuk mengidentifikasi niali influence.

  • 8/16/2019 Heru Nurcahya Pst

    18/87

    5

    3.  Penanganan data outlier pada regresi akan digunakan metode MM-

    Estimasi dan  Least Trimmed Square, kemudian perbandingannya

    hanya dengan melihat estimasi skala residual nya.

    4.  Asumsi regresi yang dipakai hanya asumsi kenormalan.

    1.4  Tujuan Penulisan

    1.  Mengidentifikasikan data outlier  dengan menggunakan leverage, nilai

    discrepancy, dan nilai influence dari data regresi, sehingga diketahui

    data yang menjadi outlier  dari sekumpulan data regresi.

    2.  Mengetahui cara mengestimasi nilai-nilai model parameter regresi

    dengan adanya data outlier   dengan menggunakan Least trimmed

    square (LTS) dan MM-Estimasi pada data regresi.

    3. 

    Membandingkan model regresi yang dihasilkan dengan menggunakan

    Least tr immed square(LTS) dan MM-Estimasi.

    1.5  Manfaat Penulisan

    1.  Dapat mengetahui cara pengidentifikasian outlier   dengan

    menggunakan leverage, nilai discrepancy, dan nilai influence dari data

    regresi.

    2. 

    Dapat mengetahui pengestimasian nilai-nilai model parameter regresi

    dengan adanya data outlier   dengan menggunakan Least trimmed

    square (LTS) dan MM-Estimasi pada data regresi.

    3.  Dapat mengetahui perbandingan model regresi yang dihasilkan

    dengan menggunakan Least trimmed square (LTS) dan MM-

    Estimasi.

  • 8/16/2019 Heru Nurcahya Pst

    19/87

    6

    BAB II

    LANDASAN TEORI

    2.1  Model Persamaan Regresi Linear

    Analisis regresi merupakan suatu proses pencarian model matematika

    terbaik yang cocok dengan data yang menghubungkan variabel dependen (juga

     biasa disebut respon) dengan variabel independen (prediktor). Bentuk umum

    model regresi linear adalah:

          y E  y   2.1

    Dengan,

    y = variabel dependen

     y E   = ekspektasi dari y.

       = random error .

    Model regresi di atas tidak mempertimbangkan sejumlah variabel

    independen ( x) yang berkorelasi sangat kuat dengan variabel dependen (y),

    dengan menggunakan variabel independen maka keakuratan dalam mengestiamsi

     y E   dapat diperoleh. Sehingga  y E   dapat diestimasi dengan bentuk persamaan

    linear, yaitu:

      x y E  10          2.2

    Dengan model probabilistik, Persamaan 2.2 di atas ditulis dengan:

  • 8/16/2019 Heru Nurcahya Pst

    20/87

    7

              x y 10   2.3

    Persamaan 2.3 di atas disebut Model Linear Orde-Pertama atau Model

    Linear Sederhana, karena hanya terdapat satu variabel independen dengan :

     y = variabel dependen.

     x = variabel independen.

     y E   =  x10         = komponen deterministik.

    0    = intercept pada sumbu y, titik potong dengan sumbu y.

    1     = kemiringan dari garis regresi, yaitu sejumlah kenaikan (atau

     penurunan) dari mean y untuk setiap kenaikan (atau penurunan) 1-unit x.

       = komponen random error .

    Jika terdapat variabel independen lebih dari satu, maka modelnya disebut

    Model Regresi Linear Berganda atau Model Regresi Linear Umum dengan

     persamaan modelnya sebagai berikut :

                  k k  x x x y   .....2210   2.4

    Pada Persamaan-persamaan di atas (2.3 dan 2.4) terdapat komponen

    random error (  ). Distribusi dari  menentukan seberapa ” bagusnya” model yang

    1 2 3 4

    1

    2

    3

    4

    0    

    1    

      x y E  10         

     x

     y

    Gambar 2.1 Model Regresi Linear Sederhana

  • 8/16/2019 Heru Nurcahya Pst

    21/87

    8

    menggambarkan hubungan sebenarnya antara variabel dependen  y  dan variabel

    independen x. Ada empat asumsi yang menyangkut distribusi dari   , yaitu [1] :

    1. Mean distribusi probabilitas dari     adalah 0. Artinya rata-rata error  

     pada percobaan yang dilakukan secara tak hingga adalah 0 untuk setiap

     pengambilan variabel independen. Asusmsi ini mengakibatkan nilai mean dari  y,

    untuk setiap nilai x yang diberikan adalah   x y E  10        .

    2.Variansi distribusi probabilitas dari     adalah konstan untuk setiap

     pengambilan variabel independen.

    3.Distribusi probabilitas dari    berdistribusi normal.

    4. Error   dari setiap dua observasi adalah independen. Artinya error   dari

    salah satu nilai y tidak memberikan pengaruh terhadap error  dari nilai y yang lain.

    Dari persamaan-persamaan di atas nilai koefisien yaitu 0    dan i    (untuk i 

    = 1 sampai dengan k ) tidak diketahui karena merupakan nilai parameter. Oleh

    karena itu, dibutuhkan data sampel untuk mengestimasi koefisien-koefisien

    tersebut.

    Misalkan k Y Y Y    ,....,, 21   merupakan variabel random berdistribusi normal

    dengan mean masing-masing   i x y E           0 , dengan i = 1, 2, ....,k , dan variansi

    yang tidak diketahui 2    Misalkan akan dicari model regresi linear sederhana.

    Fungsi likelihood  dari variabel random k Y Y Y    ,....,, 21  adalah:

     

     

      

     

     

    i

    ii

    i

    ii

     x y

     x y L

    1

    2

    102

    2

    2

    12

    2

    10

    2

    2

    10

    2

    1exp

    2

    1

    2exp

    2

    1,,

          

     

        

          

     

  • 8/16/2019 Heru Nurcahya Pst

    22/87

    9

    Untuk memaksimumkan fungsi 210   ,,         L , atau ekuivalen dengan

    meminimumkan:

    2

    1

    2

    10

    22

    102

    2ln2

    ,,ln 

        

          

    i

    ii   x yk 

     L ,

    harus dipilih 0    dan 1   dengan meminimumkan:

     

    i

    ii   x y H 1

    2

    1010 ,            

    Karena  y E  y x y iii     10         merupakan jarak vertikal dari titik

    ii   y x ,   terhadap garis  y E  y  . Oleh karena itu, 10 ,     H   merepresentasikan

     jumlah kuadrat tersebut. Dengan memilih 0    dan 1    sedemikian hingga jumlah

    kuadrat dari jarak tersebut minimum dengan seperti itu artinya garis lurus

     y E  y    mem- fitting   data. Oleh karena itu, metode ini disebut Metode Least

    square [1].

    Untuk meminimumkan 10 ,     H  , harus dicari

    0

    ,

    0

    10

      

         H    dan

    0

    ,

    1

    10

      

         H  ,

      110   x y E           ii   y x ,  

     y E  yi   

    Gambar 2.2 Garis Least Square  

  • 8/16/2019 Heru Nurcahya Pst

    23/87

    10

     x yk 

     x y

     xk  y

     x y H 

    i

    i

    i

    i

    i

    i

    i

    i

    i

    ii

    1

    1

    1

    0

    1

    10

    1

    1

    10

    0

    10

    ˆ

    0

    012,

      

      

      

        

          

        

     

    Jadi dari penurunan diatas di dapat  x y 10ˆˆ        , notasi   ̂   merupakan

    notasi estimator untuk nilai parameter    , sedangkan untuk nilai 1ˆ     adalah

    sebagai berikut:

     

     

     

      

     

     

     

     

     

     

     

     

     

    i

    i

    iii

    i

    ii

    i

    i

    i

    ik 

    i

    i

    i

    ii

    i

    i

    i

    ik 

    i

    i

    i

    ii

    i

    i

    i

    i

    i

    i

    iii

    i

    iiii

    i

    iii

     xk  x

     y xk  y x

     y xk  y x xk  x

     x

     xkarena x xk  x yk  x y

     xk 

     xk  x

     xk  y x y

     x x x x y x y

     x ykarena x x x y x y

     x x y H 

    1

    22

    11

    1

    2

    1

    2

    1

    1

    1

    2

    1

    2

    1

    1

    1

    2

    11

    1

    1

    1

    1

    2

    1

    1

    1

    1 1

    10

    1

    2

    11

    1

    10

    1

    10

    ˆ

    0

    0

    0

    0

    02,

      

      

        

        

        

            

          

        

     

    Jadi dari penurunan di atas nilai dari 1ˆ    yang merupakan estimator dari 1  

    adalah

    i

    i

    i

    ii

     xk  x

     y xk  y x

    1

    22

    11

    ˆ   , dengan k  merupakan jumlah data sampel.

  • 8/16/2019 Heru Nurcahya Pst

    24/87

    11

    2.2  Outlier  Dalam Regresi: Sumber, Jenis dan Deteksi Outlier  

    2.2.1 Sumber Outlier  

    Outlier  adalah satu atau lebih data yang tidak biasa, yang tidak cocok dari

    sebagian data lainnya (one or more atypical data points that do not fit with the

    rest of the data). Outlier  mungkin disebabkan karena dalam melakukan observasi

    melakukan beberapa kesalahan, hal ini yang biasa disebut observasi

    terkontaminasi, juga bisa outlier   merepresentasikan observasi yang akurat dari

    kasus yang jarang. Apapun sumber outlier , dalam beberapa kasus menyebabkan

    dampak yang sangat besar dalam mengestimasi koefisien regresi , standar error ,

    dan estimasi keseluruhan variabel prediktor, 2 R .[2]

    Outlier   muncul karena data terkontaminasi dalam beberapa cara.

    Observasi yang terkontaminasi dapat dan harus diminimalisir dengan prosedur

     penelitian dan pengolahan data yang hati-hati. Observasi yang terkontaminasi

    disebabkan [2]:

    1.  Kesalahan pelaksanaan prosedur penelitian; misalnya: interviewer salah baca

    dalam beberapa pertanyaan, atau eksperimenter melakukan yang salah atau

     perlakuan yang kurang sempurna.

    2. 

    Ketidakakuratan dalam pengukuran variabel dependen; misalnya peralatan

    mengalami kerusakan sehingga pengukuran variabel dependen tidak akurat.

    3.  Kesalahan penulisan atau pengetikan data.

    4.  Kesalahan perhitungan dari pengukuran; mislnya peneliti kurang tepat

    menghitung sejumlah variabel independen atau membuat kesalahan dalam

     perhitungan dari ukuran

  • 8/16/2019 Heru Nurcahya Pst

    25/87

    12

    5.  Partisipan yang kurang perhatian. Misal dala kasus tertentu, partisipan sedang

    dalam keadaan lelah, sakit atau mabuk, dan tidak mampu merespon dengan

     baik terhadap materi percobaan.

    Tiap statistik diagnostik yang akan dibahas nanti, secara potensial dapat

    menolong dalam pendeketsian data yang terkontaminasi. Ketika peneliti

    mendeteksi outlier , perlakuan pertamanya adalah melihat kemungkinan bahwa

    outlier   merupakan data yang terkontaminasi. Data dan perhitungan harus

    diperiksa keakurasiannya. Jika dapat diverifikasi bahwa outlier   merupakan data

    yang terkontaminasi, maka data tersebut tidak harus dimasukkan dalam

     penganalisisan data. Jika memungkinkan, peneliti bisa mengganti data yang

    terkontaminasi ini dengan data yang benar dari kasus yang ditelitinya, atau

    menghapusnya dari himpunan data yang diteliti.

    Untuk kasus yang lain, outlier   dapat juga merepresentasikan data yang

    valid, tidak terkontaminasi, akan tetapi outlier   tersebut merupakan kasus yang

     jarang dalam populasi. Ketika outlier   yang dideteksi bukan data yang

    terkontaminasi, maka outlier   dapat diperlakukan dengan dua penekanan dalam

    mengatasi outlier . Pertama, mengeliminasi pengaruh dari kasus jarang tersebut.

    Kedua, outlier  mungkin merepresentasikan signal yang halus dari suatu fenomena

    yang sangat penting atau ketidak-tepatan dari penentuan model regresi yang telah

    diujikan, dan penelitian berusaha untuk memahami kasus yang jarang ini sebagai

    sesuatu yang membawa ke bentuk yang sangat penting dalam penelitian ilmiah.

  • 8/16/2019 Heru Nurcahya Pst

    26/87

    13

    2.2.2 Jenis Outlier  

    Analisis regresi memberikan suatu model yang menggambarkan

    hubungan dari beberapa variabel independen ( i X  , i = 1,2,…n) dengan variabel

    dependen (   , 1,2,....,iY i n ). Model regresi tersebut didapatkan dengan

    menggunkan metode estimasi kuadrat terkecil (least square estimate). Metode LS

    didasarkan pada asumsi bahwa error   dari model yang dihasilkan harus

     berdistribusi normal. Karena dengan error   berdistribusi normal metode LS

    memberikan estimasi parameter yang optimal bagi model regresi tersebut [3].

    Akan tetapi, dengan adanya data outlier  asumsi kenormalan model regresi

    tersebut akan tidak terpenuhi [5]. Seperti diketahui pada analisis regresi, terdapat

    satu variabel dependen yang digambarkan pada  scatterplot   sebagai arah  y, dan

     beberapa variabel independen pada  scatterplot  digambarkan sebagai arah  x. Oleh

    karena itu, keberadaan data outlier  mungkin teredapat pada arah- y atau pada arah-

     x atau di keduanya.

    Data outlier   pada arah- y akan memberikan nilai residual   r   yang sangat

     besar (positif atau negatif). Hal ini disebabkan karena data yang menjadi outlier  

    mempunyai jarak yang sangat besar terhadap garis LS. Seperti yang ditunjukkan

    gambar (2.3.a) yang merupakan  scatterplot   dan garis LS dari enam titik,

    1 1 6 6, ,...., , x y x y , yang hampir terletak pada suatu garis lurus (garis LS). Oleh

    karena itu, penyelesaian LS kecocokannya sangat bagus untuk ke-6 data tersebut.

    Akan tetapi, andaikan dengan data yang sama, tetapi data ke-4 merupakan data

    outlier , yaitu4 y  yang disebabkan karena ada suatu kesalahan, maka titik 4 4, x y

    mungkin akan jauh dari garis ideal (garis LS). Hal ini digambarkan pada gambar

  • 8/16/2019 Heru Nurcahya Pst

    27/87

    14

    Gambar 2.3 (a). Enam data asli dan garis LS-nya. (b). Data yang

    sama dengan data pada (a), tetapi dengan outlier   dalam arah-y ,

    yaitu4 y . 

    (2.3.b). titk data yang ke-4 bergeser ke atas dan jauh dari posisi asalnya

    (ditunjukkan dengan bulatan), dan titik ke-4 itu memberikan pengaruh yang besar

     pada garis LS, yang sangat berbeda dari garis LS pada gambar (2.3.a) yaitu garis

    LS tidak memberikan kecocokan terhadap ke-6 data tersebut.

    Sedangkan data outlier   pada arah- x, memberikan pengaruh yang sangat

     besar pada estimator metode LS karena outlier   pada arah- x  akan membalikkan

    garis LS. oleh karena itu, outlier   pada arah- x  disebut sebagai titik leverage [3].

    Seperti ditunjukkan pada gambar (2.4.a) yang merupakan  scatterplot  dan garis LS

    dari lima titik data 1 1 5 5, ,..., , x y x y  yang hampir terletak pada suatu garis lurus

    (garis LS). Misalkan dengan data yang sama akan tetapi titik 1 x adalah outlier  

    yang disebabkan karena suatu kesalahan. Maka, garis LS akan berbalik dari

    keadaan yang digambarkan pada gambar (2.4.a), seperti yang ditunjukkan pada

    gambar( 2.4.b). Hal ini dapat dijelaskan sebagai berikut: karena1

     x terletak jauh,

    maka residual  1

    r  dari garis asal (seperti yang ditunjukkan pada gambar 2.4.a)

  • 8/16/2019 Heru Nurcahya Pst

    28/87

    15

    menjadi sangat besar (negatif), berkontribusi terhadap besarnya jumlah5 2

    1   iir 

    untuk garis tersebut. Oleh karena itu, garis asal tidak dapat dipilih dari prespektif

    LS, dan tentunya garis pada gambar (2.4.b) mempunyai nilai5 2

    1   iir 

    yang

    terkecil, karena itu garis asal dibalikkan menjadi garis pada gambar (2.4.b) untuk

    mengurangi besarnya nilai 21

    r  , bahkan jika keempat bentuk lainnya, 2 2 2 22 3 4 5

    , , ,r r r r   ,

    sedikit dinaikkan [3].

    Secara umum, suatu observasi ,k k  x y   dikatakan suatu titik leverage 

    ketikak 

     x terletak jauh dari sebagian besar data observasi i x dalam sampel. Sebagai

    catatan, bahwa suatu titik leverage  tidak memasukkan nilai k  y ke dalam

     perhitungan, jadi titik ,k k  x y tidak harus perlu menjadi outlier   pada regresi.

    Ketika ,k k  x y   dekat terhadap garis regresi yang ditentukan dengan sebagian

     besar data, maka hal itu dapat diperkirakan sebagai titik leverage  yang bagus

    seperti ditunjukkan pada gambar (2.5). Oleh karena itu, untuk mengatakan bahwa

    ,k k  x y adalah suatu titik leverage  hanya merujuk pada kepotensialannya

    Gambar 2.4 (a). Data asal dengan lima titik dan garis LS-nya. (b).

    Data yang sama dengan data (a), tetapi dengan satu data outlier  

    pada arah-x , yaitu 1 x .

  • 8/16/2019 Heru Nurcahya Pst

    29/87

    16

    mempengaruhi secara kuat terhadap koefisien-koefisien regresi (disebabkan

    keterpencilannya komponen k  x   saja). Titik ,k k  x y tidak harus dipandang

    menyebabkan pengaruh yang besar terhadap koefisien-koefisien regresi, karena

    mungkin saja titik ,k k  x y tepat pada garis yang ditentukan kecendrungannya

    dengan sebagian besar himpunan data lainnya [3].

    Dalam regresi berganda, 1,...,i ip x x terletak pada suatu ruang berdimensi  p.

    Suatu titik leverage tetap didefinisikan sebagai suatu titik 1, ..., ,k kp k   x x y di mana

    1,...,k kp x x merupakan titik-titik yang terpisah dari himpunan data 1,...,i ip x x .

    Seperti sebelumnya, suatu titik leverage  yang berpotensial berpengaruh besar

     pada koefisien regresi LS, bergantung pada nilai aktual dari .k  y  akan tetapi pada

    situasi ini, akan sangat susah mengidentifikasi titik-titik leverage, karena

    dimensinya yang tinggi [3].

    Gambar 2.5 Titik ,k k  x y merupakan titik leverage  karena k  x terpencil.

    Akan tetapi, ,k k  x y bukan outlier   regresi karena cocok dengan pola

    kelineran sebagian himpunan titik data lainnya.

  • 8/16/2019 Heru Nurcahya Pst

    30/87

    17

    2.2.3 Deteksi outlier  

    Data outlier  dapat dikenali dengan pemerikasaan visual dari data mentahnya

    (raw) atau dari diagram pencar dari variabel independen dan variabel dependen.

    Dalam kasus ketika terdapat lebih dari dua variabel independen, beberapa outlier  

    mungkin akan sangat sulit dideteksi dengan pemeriksaan visual. Oleh karena itu,

    dibutuhkan alat bantu pada pemeriksaan visual dengan menggunakan uji statistik

    tertentu yang dikenal dengan regresi diagnostik yang dapat membantu dalam

     pendeteksian outlier . Regresi diagnostik merupakan kasus statistik, artinya

    mungkin akan terdapat satu nilai dari tiap diagnostik statistik dari tiap n-kasus

    dalam himpunan data. Suatu sampel dengan 150 kasus akan menghasilkan 150

    nilai dari tiap diagnostik statistiknya, salah satunya merepresentasikan tiap kasus

    dalam himpunan data tersebut. Regresi diagnostik statistik digunakan untuk

    memeriksa tiga karakteristik yang secara potensial merupakan data outlier .

    Pertama adalah leverage: yang menggambarkan seberapa tidak biasanya kasus

    tersebut dalam bentuk variabel independnya?. Kedua adalah discrepancy  (jarak)

    antara nilai prediksi dan nilai observasi pada variabel hasil (Y). Ketiga adalah

    influence, yang menggambarkan besaran dari perubahan koefisien regresi jika

    outlier   dihilangkan dari himpunan data. Secara konseptual, influence 

    merepresentasikan perkalian dari leverage dan discepancy. Tiap karakteristik ini

    harus diperiksa, karena ketiganya mengidentifikasi aspek-aspek yang berbeda dari

    data outlier .

  • 8/16/2019 Heru Nurcahya Pst

    31/87

    18

    1.  Leverage  

     Leverage  hanya menggambarkan kasus yang terjadi pada variabel

    independen. Untuk tiap kasus, leverage  menginformasikan seberapa jauh kasus

    tesebut dari nilai mean himpunan data variabel independen. Jika hanya terdapat

    satu variabel independen, leverage dapat ditentukan sebagai [2]:

    2

    ii   2

    1leverage = h

      i X  X M 

    n x

      2.5

    dengan hii  adalah leverage  kasus ke-i, n  banyaknya data,  X i  adalah nilai untuk

    kasus ke-i, M  X  adalah mean dari X , dan2 x merupakan jumlah kuadrat n kasus

    dari simpangan X i dari meannya. Jika kasus ke-i bernilai M  X , maka bentuk kedua

    dari persamaan di atas akan 0 dan hii  akan memiliki nilai kemungkinan yang

    minimum,1

    n. Misalkan kasus ke-i  skor pada  X  menjadi jauh dan jauh dari  M  X ,

    maka akan menaikkan hii. Nilai maksimum dari hii adalah 1 nilai mean  dari

    leverage  untuk n-kasus dalam suatu sampel adalah 1iih

     M k n , dengan k  

    merupakan jumlah variabel independen.

    Perhitungan leverage di atas untuk kasus dengan satu variabel independen,

    dapat digeneralisasi untuk kasus dengan variabel independen lebih dari satu.

    Untuk kasus dengan banyak variabel independen, yang menjadi menarik adalah

    seberapa jauh nilai-nilai untuk tiap k   variabel untuk kasus ke-i, 1 3, ,...,i i ik   X X X  ,

    dari centroid   variabel independen, centroid   merupakan mean  dari data,

    1 2, ,..., k  M M M  . Penghitungan nilai hii untuk kasus ini dengan menggunakan

     persamaan [4]:

  • 8/16/2019 Heru Nurcahya Pst

    32/87

  • 8/16/2019 Heru Nurcahya Pst

    33/87

  • 8/16/2019 Heru Nurcahya Pst

    34/87

    21

    dianggap outlier   dihapuskan dari himpunan data. Misalkan Yi i

      

    nilai perediksi

    kasus ke-i, tetapi kasus ke-i dihapuskan dari himpunan data. Outlier  berkontribusi

    secara substansial terhadap estimasi variansi residual   sekitar garis regresi,

    .residual  MS   Sedangkan residual   i MS  untuk variansi residual  dengan kasus ke-i yang

    merupakan outlier   dihapuskan dari data. Misalkan id  sebagai perbedaan antara

    data asli observasi, Y , dengan nilai prediksi untuk kasus ke-i  yang berasal dari

    himpunan data dengan kasus ke-i  dihapuskan, yaitu:

    ˆi i   i i

    d Y Y  . E xternally

     studentized residuals untuk kasus ke-i, it  , dihitung sebagai berikut [2]:

    i

    ii

    d t 

    SE    2.10

    Paralel dengan Persamaan (2.9), pembilang dari persamaan (2.10)

    merupakan residual   yang mana untuk kasus ke-i  dihapuskan dan penyebut

    merupakan standar error   dengan kasus ke-i  diahapuskan.  Residual   yang

    dihapuskan, id  , dapat dihitung dengan menggunakan residual   awal, ie , yaitu

    dengan

    1

    ii

    ii

    ed 

    h

      2.11

    dan nilai standar residual  juga dapat dihitung dengan:

    1iresidual i

    ii

     MS SE 

    h

      2.12

     jika persamaan-persamaan di atas dimasukkan ke (2.10), maka it  menjadi:

  • 8/16/2019 Heru Nurcahya Pst

    35/87

    22

      1

    ii

    iiresidual i

    et 

     MS h

      2.13

    Penentuan nilai outlier  berdasarkan nilai E xternally studentized residuals 

    lebih banyak digunakan. Karena jika model regresi cocok dengan data, maka

    E xternally studentized residuals akan mengikuti distribusi t  dengan 1df n k    

    [2]. Penentuan nilai cutoff   – nya berdasrkan distribusi t , jika nilai it  lebih besar

    dari nilaitabel 

    t  dengan derajat kepercayaan   , maka data tersebut memiliki nilai

    discrepancy yang besar dan dikategorikan sebagai outlier .

    3.  Nilai Influence  

    Metode yang ketiga dalam diagnostik statistik untuk mendeteksi adanya

    outlier  adalah dengan penentuan nilai influence. Ukuran dari influence merupakan

    kombinasi dari ukuran leverage  dan discrepancy  yang menginformasikan

    mengenai bagaimana perubahan dari persamaan regresi jika kasus ke-i 

    dihilangkan dari himpunan data. Dua jenis pengukuran influnece  yang biasa

    digunakan, pertama adalah ukuran ke-influence-an global, yaitu  DFFITS dan

    Cook’sD, yang memberikan informasi mengenai bagaimana kasus ke-i 

    mempengaruhi keseluruhan krarkteristik dari persamaan regresi. jenis yang kedua

    adalah ukuran ke-influnece-an khusus, yaitu  DFBETAS , yang menginformasikan

    mengenai bagaimana kasus ke-i  mempengaruhi tiap-tiap koefisien regresi.

    umumnya, keduanya dalam pengukuran ke-influence-an harus diperiksa.

    Untuk mengukur ke-influence-an global digunakan statistik  DFFITS  

    (kependekan dari difference in fit standardized ), dan Cook’sD, seperti e xternally

     studentized residuals, keduanya merupakan aspek yang membandingkan

  • 8/16/2019 Heru Nurcahya Pst

    36/87

  • 8/16/2019 Heru Nurcahya Pst

    37/87

  • 8/16/2019 Heru Nurcahya Pst

    38/87

    25

     pada persamaan (2.16) di atas memberikan nilai yang distandardisasi. Tidak

    seperti DFFITS , Cook’sD akan selalu 0 , tidak bisa negatif.

     DFFITS   dan Cook’  sD  dua ukuran yang berhubugan. Oleh karena itu,

     DFFITS  dan Cook’sD mempunyai persamaan matematik sebagai berikut [2]:

     

    2

    '1

    residual ii

    i

    residual 

     DFFITS MS Cook sD

    k MS 

      2.17

     DFFITS   dan Cook’sD  merupakan statisitk dapat saling dipertukarkan,

    keduanya dapat digunakan untuk memberikan informasi mengenai ke-influence-

    an dari kasus i  yang merupakan outlier . Penentuan kasus i sebagai outlier  

     berdasarkan cutoff   masing-masing. Untuk  DFFITS , nilai  DFFITS (dengan

    mengabaikan tandanya) yang besarnya 1 untuk data ukuran kecil 15n    dan

    sedang dideteksi sebagai outlier . Sedangkan untuk data yang ukuran besar, nilai

     DFFITS 1

    2  k 

    n

     merupakan data outlier . Untuk Cook’sD digunakan nilai

    cutoff   1.0 atau dengan nilai kritik dari distribusi  F   dengan 0.50   dan

    1, 1df k n k   , jika nilai Cook’sD  melebihi nilai kritik dari distribusi  F  

    dideteksi sebagai outlier  [2].

    BFBETASij  merupakan jenis kedua dari ke-influence-an statistik yang

     penting jika peneliti ingin memfokuskan pada koefisien regresi tertentu dalam

     persamaannya.  BFBETAS ij  merupakan perbandingan koefisien-koefisien regresi

    ketika kasus ke-i dimasukkan versus tidak dimasukkan pada data.

    BFBETASij untuk kasus ke-i didefinisikan sebagai berikut [2]:

  • 8/16/2019 Heru Nurcahya Pst

    39/87

    26

     j i

     j   j i

    ij DFBETAS SE 

      

          2.18

     pada persamaan di atas, pembilang merupakan perbedaan dari koefisien

    dengan seluruh data dimasukkan,  j   , dengan koefisien jika kasus ke-i 

    dihilangkan,  j i   . Penyebut,  j i

    SE   

    , merupakan standar error  dari  j i     setelah

    data ke-i  dihapuskan. Pembagian dengan  j i

    SE   

    memberikan nilai yang telah

    distandardisasi, gunanya untuk mengintrepretasi secara umum pengaruh dari

    kasus ke-i untuk semua koefisien regresi. Tiap kasus data akan memiliki (k  + 1)

     BFBETAS ij  yang berkorepodensi dengan tiap koefisien regresi dalam

     persamaannya termasuk intercept   0   .

    Penentuan kasus yang memiliki ke-influence-an yang merupakan outlier  

     berdasarkan  BFBETAS ij  adalah kasus yang memiliki 1ij DFBETAS      untuk

    ukuran sampel yang kecil dan sedang, sedangkan untuk ukuran sampel yang besar

    ditentukan dengan cutoff  2

    ij DFBETAS n

      [2].

    2.3  Robust  Estimasi

    2.3.1  M-Estimasi

    Suatu estimator yang hampir baik (variansi kecil) untuk berbagai jenis

    distribusi, tidak perlu yang terbaik untuk sebarang dari salah satunya., disebut

    suatu  Robust Estimator . yaitu suatu estimator yang dihubungkan dengan solusi

    dari persamaan:

    1

    0n

    i

    i

     x    

      2.19

  • 8/16/2019 Heru Nurcahya Pst

    40/87

    27

      1w x jika x k  

    k  jika k x

     x

    Persamaan (2.19) di atas sering disebut robust M-estimator   (dinotasikan

    dengan ˆ ) karena persamaan (2.19) tersebut dapat dianggap sebagai maksimum

    likelihood estimator . Jadi dalam menemukan suatu robust   M-estimator harus

    dipilih suatu fungsi yang akan memberikan suatu estimator yang baik untuk

    tiap distribusi pada himpunan ruang lingkupnya.

    Fungsi yang telah dikenal adalah fungsi  Huber   yang merupakan

    kombinasi yang dihubungkan dengan distribusi normal dan distribusi

    eksponensial ganda, yaitu [5]:

      ,

    , ,

    , ,

     x k x k 

     x k x k 

    k k x

      2.20

    yang diturunkan dari fungsi  x   , dengan fungsi  x   adalah sebagai berikut

    [5]:

    2

    22 x

     x jika x k  x

    k x k jika x k    

     

      2.21

    Fungsi  x    berbentuk quadratik pada pusatnya, tetapi naik secara linear

    ke takterhingga seperti dapat dilihat pada gambar (2.6). M-estimasi yang

     berkorespodensi dengan kasus limit k   dan 0k   merupakan mean  dan

    median. Nilai k yang dipilih adalah yang membawa ke asymptotik variansi

    (keefesiensian yang diberikan) pada distribusi normal. Persamaan (2.21) di atas

    mempunyai fungsi bobot:

  • 8/16/2019 Heru Nurcahya Pst

    41/87

    28

    Dengan fungsi  Huber  masalah lain muncul, yaitu jika digandakan tiap

    1 2, ,..., ,n X X X  estimator seperti  X  dan median juga akan ganda. Salah satu cara

    dalam mengatasi kesulitan ini adalah dengan pemecahan yang lain, tetapi sama

    hasilnya, yaiut dengan memecahkan persamaan:

    1

    0n

    i

    i

     x

     

      2.22

    dengan d   merupakan suatu estimasi skala yang robust . Nilai d   yang sering

    digunakan adalah [6]:

    0.6745

    i imedian x median xd 

      2.23

     pembagi 0.675 dimasukkan ke dalam definisi Persamaan (2.23) adalah karena d  

    merupakan suatu estimasi yang konsisten dari     jika data sampel munsul dari

    distribusi normal [6]. Jadi,   dapat di aproksimasi dengan d   di bawah asumsi

    distribusi normal.

    Gambar 2.6 Fungsi   Huber  dan Fungsi  

  • 8/16/2019 Heru Nurcahya Pst

    42/87

    29

    Skema pemilihan d  juga memberikan suatu petunjuk dalam pemilihan nilai

    k . karena jika data sampel muncul dari distribusi normal, maka dapat diharapkan

    kebanyakan nilai-nilai1 2, , ..., n x x x memenuhi pertidaksamaan [6]:

    i x

    k d 

        2.24

    kemudian [6]:

    i i x x

    d d 

     

      2.25

    Sebagai ilustrasi, jika seluruh nilai-nilai yang memenuhi pertidaksamaan

    (2.24), maka Persamaan (2.22) menjadi:

    1 1

    0n n

    i i

    i i

     x x

    d d 

     

      2.26

    Persamaan (2.2.6) mempunyai pemecahan , x yang tentu saja yang lebih

    diinginkan karena bersesuaian dengan distribusi normal. Karena d  

    mengaproksimasi   , nilai-nilai popular dari k  yang digunakan adalah 1.5 dan 2.0

    [6], karena dengan pemilihan tersebut kebanyakan variable biasanya akan

    memenuhi Pertidaksamaan (2.24).

    Selain hal di atas, suatu proses iterasi harus selalu digunakan untuk

    memecahkan Persamaan (2.22). salah satu skema yang akan digambarkan adalah

    Metode Newton. Misal0

    ̂    merupakan estimasi awal dari   , seperti

    0ˆ imedian x   . Aproksimasi bagian sebelah kiri persamaan (2.22) dengan

    kedua awal ekspansi deret Taylor dari0

    ̂  untuk didapatkan:

  • 8/16/2019 Heru Nurcahya Pst

    43/87

    30

      '0 001 1

    ˆ ˆ 1ˆ 0,

    n ni i

    i i

     x x

    d d d 

       

     

      2.27

    hasil dari (2.24) memberikan estimasi yag kedua dari   ,

    0

    1

    1 0

    '   0

    1

    ˆ

    ˆ ˆ ,ˆ

    ni

    i

    ni

    i

     xd 

     x

     

      

     

      2.28

    Persamaan (2.28) disebut langkah pertama dari M-estimasi dari   , jika

    digunakan1

    ̂   pada tempat0

    ̂  , didapatkan2

    ̂  , langkah kedua M-estiamsi dari   .

    Proses ini dapat berlangsun sampai mendapatkan sebarang tingkat akurasi yang

    diinginkan. Dengan fungsi , penyebut pada bentuk kedua Persamaan (2.28),

    yaitu:

    '   0

    1

    ˆ

    ,n

    i

    i

     xd 

     

     

     

    khususnya secara mudah dihitung karena ' 1, , x k x k  dan nol

     jika lainnya. Jadi penyebut tersebut merupakan penjumlahan sedehana bilangan-

     bilangan1 2, ,..., n x x x sedemikian hingga 0

    ˆ .i x d k    

    Selain fungsi      dan  Huber , suatu fungsi lain yang sering digunakan

     juga adalah fungsi   dan  Bisquare, yang didefinisikan sebagai [5]:

     

    32

    1 1

    1

     x k jika x k  x

     jika x k 

      

         

      2.29

    dengan fungsi  Bisquare sebagai berikut:

  • 8/16/2019 Heru Nurcahya Pst

    44/87

    31

    3 56 12 6

    1

     x x x jika x k 

     x  k k k k k k  

     jika x k 

       

     

      2.30

    Fungsi pada Persamaan (2.29) dan (2.30) digambarkan pada gambar 2.7

     berikut:

    Disamping fungsi estimasi  Bisquare  yang telah didefinisikan pada

    Persamaan (2.29) dan (2.30) di atas, salah satu fungsi yang serimg digunakan juga

    adalah fungsi optimal, yang didefinisikan [5]:

    Dan fungsi optimal didefinisikan dengan:

    Gambar 2.7 Fungsi Estimasi  dan Bisquare  

    2.31

    2

    2 4 6 8

    2

    1 2 3 4

    2

    3.25 3

    1.792 2 3

    22

     xk jika

     x x x x x x k h h h h jika

    k k k k k  

     x x jika

      

       

       

     

  • 8/16/2019 Heru Nurcahya Pst

    45/87

    32

    3 5 7

    1 2 3 4

    0 3

    2 3

    2

     x jika

     x x x x x x k g g g g jika

    k k k k k  

     x x jika

       

       

     

     

    Dengan

    1

    1 1

    22 2

    33 3

    44 2

    1.944, 2

    1.728,4

    0.312,6

    0.016,8

     g 

     g h

     g  g h

     g  g h

     g  g h

     

    2.3.2  Tr immed Mean  

    Pendekatan lain selain M-estimasi dalam mengestimasi lokasi pada data

    yang mengandung outlier  adalah Trimmed Mean. Dengan Trimmed Mean dalam

    data yang mengandung outlier  seolah-olah membuang bagain data yang terbesar

    dan terkecilnya. Secara jelasnya, misalkan   0,1 2    dan 1m n      

    dengan [.] menunujukkan bagian bulatnya, dan   -Trimmed Mean  didefinisikan

    sebagai [5]:

    ( )

    1

    1

    2

    n m

    i

    i m

     x xn m

     

        2.33

    dengan i

     x merupakan statistik terurut.

    2.32

  • 8/16/2019 Heru Nurcahya Pst

    46/87

    33

    Trimmed Mean  secara sepintas seperti menekan atau memadatkan data

    observasi. akan tetapi, tidak demikian. Karena hasilnya pada akhirnya merupakan

    fungsi untuk seluruh data observasi. Kasus khusus untuk 0     dan 0.5  

    merupakan mean sampel dan median sampel.

    2.3.3  Ukuran ke-Robust -an

    Tujuan dari metode robust   secara kasar dapat dikatakan adalah untuk

    mengembangkan estimasi yang mempunyai suatu kelakuan yang “baik” dalam

    suatu “lingkungan” model.

    Diantara ukuran yang mengukur ke-robust -an adalah:

    1.  I nfl uence Function  (IF)

    Sebelum mendefinisikan IF terlebih dahulu akan didefinisikan dulu kurva

    sensitive ( sensitive curve  (SC)), yaitu: misal0

     x suatu outlier   yang ditambahkan

    kedalam himpunan data, maka SC dari suatu estimasi ̂ untuk titik sampel

    1,...., n x x adalah perbedaan dari

    1 0 1ˆ ˆ,..., , ,...,n n x x x x x   ,

    yang merupakan fungsi lokasi outlier  0

     x  

    Fungsi influence dari suatu estimator merupakan suatu jenis asimptotik

    dari SC yang mengaproksimasi kelakuan dari ̂  ketika data sampel yang terdapat

     bagian kecil  dari outlier , yang secara matematik didefinisikan sebagai [5]:

       

    0

    ˆ   00

    ˆ ˆ1IF ,F lim

      x F F 

     x   

     

     

      2.34

  • 8/16/2019 Heru Nurcahya Pst

    47/87

    34

    0  0

    ˆ 1   F  

     

        

     

    .

    dengan0 x

      merupakan titik massa pada0

     x , yaitu distribusi yang sedemikian

    hingga 0   1 P x x dan “ ” merupakan tanda yang menyatakan limit dari

    kanan. Jika terdiri dari  p  parameter-parameter yang tak diketahui, maka ̂ 

    merupakan vektor p-dimensi dan begitu halnya dengan IF-nya.

    Kuantitas 0

    ˆ 1  x F      adalah nilai asimptotik dari estimasi ketika

    distribusi yang membangunnya adalah  F  dan bagian  dari outlier   sama dengan

    0 x . Jadi jika    kecil kuantitas tersebut dapat diaproksimasi dengan [5]:

      0   ˆ   0

    ˆ ˆ1 IF , x F F x F       2.35

    dan bias    0ˆ ˆ

    1  x F F    diaproksimasi dengan ˆ   0IF , x F     

    IF dapat dianggap sebagai kasus khusus dari kurva sensitif, dalam

     pengertian berikut: ketika ditambahkan observasi yang baru0

     x terhadap sampel

    1, , n x x  bagian yang terkontaminasi adalah 1 1n , dan juga didefinisikan SC

    yang distandardisasi, yaitu sebagai berikut:

     

    1 1 0 1

    n 0

    1 1 0 1

    ˆ ˆ, , , , ,SC ,

    1 1

    ˆ ˆ1 , , , , ,

    n n n n

    n n n n

     x x x x x x

    n

    n x x x x x

     

     

      2.36

    yang serupa dengan Persamaan (2.34) dengan 1 1n     yang

    diharapkan adalah jikai

     x   nya i.i.d dengan distribusi  F , maka

    0 0SC IF , x x F  untuk n  yang besar dapat dibuat tepat. Misal untuk tiap 0 x ,

  • 8/16/2019 Heru Nurcahya Pst

    48/87

  • 8/16/2019 Heru Nurcahya Pst

    49/87

    36

    0, , dan estimasi harus tetap terbatas, dan juga terbatas jauh dari 0, dalam

     pengertian bahwa jarak antara ̂   dan 0 harus lebih besar dari suatu nilai positif.

    Menurut [5] suatu asimptotik kontaminasi BP dari suatu estimasi ̂   pada F ,

    dinotasikan * ˆ, , F    adalah nilai * 0,1   sedemikian hingga untuk *   ,

    ˆ 1   F G       sebagai suatu fungsi dari G  yang tetap terbatas, dan juga

    terbatas dari batas . Definisi tersebut bermaksud bahwa terdapat suatu batas dan

    himpunan yang tertutup  K     sedemikian hingga  K   (dengan  

    merupakan batas dari ) sedemikian hingga

      *ˆ 1 dan . F G K G       2.39

  • 8/16/2019 Heru Nurcahya Pst

    50/87

    37

    BAB III

    ROBUST  ESTIMASI PADA REGRESI

    3.1  Least tr immed square(LTS)

    Sebelum membahas mengenai least trimmed square (LTS), akan

    diketengahkan dahulu sifat-sifat ke-equivariant- an yang harus dimiliki oleh suatu

    estimator ( penggunaan kata “equivariant ” dalam statistic merujuk pada

    transformasi sebagaimana mestinya, dan kata lawannya yaitu invariant merujuk

     pada kuantitas yang tetap tidak berubah), yaitu: regresi equivariant , skala

    equivariant , dan affine equivariant .

    Suatu estimator T  disebut sebagai regresi equivariant  jika memenuhi:

      , ; 1,...., , ; 1,...., ,i i i i iT y i n T y i n x x v x v   3.1

    dengan v merupakan sebarang vektor kolom. Suatu estimator T   disebut sebagai

    skala equivariant  jika memenuhi:

      , ; 1,...., , ; 1,...., ,i i i iT cy i n cT y i n x x   3.2

    untuk sebarang konstanta c. skala equivariant   menyebabkan bahwa kecocokan

    secara esensial independen dari pemilihan satuan pengukuran pada variabel

    respons  y. Sedangakan, suatu estimator T   adalah affine equivariant   jika

    memenuhi:

      1, ; 1,...., , ; 1,...., ,i i i iT y i n T y i n x A A x   3.3

    untuk sebarang matrik persegi A   yang nonsingular . dengan kata-kata, affine

    equivariant   berarti bahwa suatu transformasi linear dari ix   yang harus

  • 8/16/2019 Heru Nurcahya Pst

    51/87

    38

    mentransformasikan estimator T  , karena 1ˆ   .i i i y T T  x x A A Hal ini

    memperbolehkan penggunaan system koordinat lain dari variabel eksplanatori,

    dengan tanpa mempengaruhi pengestimasian ˆi y .

    Dari [3] dinyatakan suatu teorema yang menyatakan bahwa:

    Teorema 3.1.  Sebarang regresi equivariant  dari estimator T  memenuhi:

    * , 2 1n   T Z n p n     

     pada seluruh sampel Z .

    Menurut [3] least trimmed square didefinisiskan sebagai:

    1   :

    minh

    i   i n

    r  

      3.4

    dengan sebelumnya menyusun residual  kuadrat dari yang terkecil sampai dengan

    yang terbesar, yaitu:

    2 2 21: 2: :

    ...n n n n

    r r r   

    kemudian menambahkan hanya bentuk h yang pertama dari bentuk-bentuk ini.

    Dengan 2 1h n , sehingga LTS akan memiliki breakdown point yang sama

    dengan 2 2n p n [Rousseeuw] dengan  p merupakan jumlah  variabel

    independen dan notasi [] menyatakan bagian bilangan bulat terbesar yang kurang

    dari atau sama dengan bilangan bulat tersebut. Selain itu, untuk

      2 1 2h n p   LTS yang mungkin mencapai nilai maksimum dari

  • 8/16/2019 Heru Nurcahya Pst

    52/87

  • 8/16/2019 Heru Nurcahya Pst

    53/87

    40

    yang merupakan selalu positif, dengan  V adalah himpunan dari semua x  dengan

     jarak terhadap V tidak lebih dari   , Andaikanθ meminimumkan (3.4) untuk  Z ,

    dan dinotasikan dengan H   yang berkorespodensi dengan hyperplane yang

    diberikan dengan persamaan . y  xθ  diberikan max ,i i M r  dengan .i i ir y x θ  

    sekarang akan dikonstruksikan sebarang sampel terkontaminasi

    ' ' ', ; 1,....,i i Z y i n x dengan menyimpan 2 1 2n n p n p

    observasi-observasi dari Z dan dengan menggantikan yang lainnya dengan nilai-

    nilai yang berubah-rubah. Hal ini cukup untuk membuktikan bahwa 'θ - θ  

    terbatas, dengan 'θ  berkorepodensi terhadap ' Z   yang dinotasikan dengan H ’ , jadi

    hyperpalne H ’  yang berkorespodensi merupakan hal yang berbeda dari H . tanpa

    kehilangan keumumannya diasumsikan bahwa ' ,θ θ karena itu, 'H H.  Dengan

    teorema dimensi dari aljabar linear, irisan dari 'H H mempunyai dimensi 1. p  

     jika 'H H pr    merupakan proyeksi vertical dari 'H H   terhadap 0 , y 

     berdasarkan hal itu, paling banyak 1 p dariix  yang bagus (bukan outlier ) dapat

    terletak pada 'H H . pr   

      Sekarang didefinisikan  A  sebagai himpunan

    observasi-observasi bagus yang tersisa. Sekarang misalkan sebarang ,a a yx

    termasuk di A, dan a a ar y x  θ  dan' '.a a ar y x  θ  konstruksikan vertikal  plane 

    2-dimensi Pa melalui ,a a yx dan tegak lurus terhadap 'H H . pr     sebelumnya

     

    1inf 0;terdapat suatu 1 dimensi subruang dari 0 ,sedemikian

    2

    hingga meliputi sekurang-kurangnya dari i

     p y

     p 

        V

    V x

  • 8/16/2019 Heru Nurcahya Pst

    54/87

    41

    akan dikonstruksikan nilai residual   pada Pa yaitu sebagai berikut [3]:

    i i i i ir y y x θ x θ  dengan tan ,i    x θ  dengan    merupakan sudut

    dalam 2, 2   yang dibentuk antara H  dengan garis horizontal pada Pa . Oleh

    karena itu,   merupakan sudut antara garis tegak lurus terhadap H   dan 0,1 ,

    karena itu:

    '

    2

    ,1 0,11arccos arccos

    ,1 0,1 1

     

     

    θ

    θ θ

     

    dan akhirnya didapat tan .      θ  

    Berdasarkan hal itu, maka:

     

     

    ' ' '

    '

    '

    tan tan

    tan tan

    ,

    a a a ar r     

       

      

    x   θ x θ

    θ θ

     

    karena

    2 2 ' ' ' 'θ - θ θ θ θ θ θ θ θ θ  

     berdasarkan pertidaksamaan di atas didapat:

    ' 2 ,a ar r     

    'θ - θ θ  

    dengana

    r    dan 'a

    r    adalah residual   yang berhubungan dengan H   dan H ’  

     berkorespodensi  dengan  titik , .a a yx   Sekarang jumlah dari h  residual   kuadrat

     pertama dari sampel baru  Z ’ yang berhubungan dengan θ yang terdahulu, dengan

    sekurang-kurangnya 1 2n p h dari residual -residual   ini menjadi sama

  • 8/16/2019 Heru Nurcahya Pst

    55/87

    42

    seperti sebelumnya, yaitu kurang dari atau sama dengan 2.hM  karena 'θ

     berkorespodensi dengan Z ’ berdasarkan hal itu juga didapatkan

      2

    ' ' ' 2

    1   :

    .h

    i i

    i   i n

     y hM 

      x θ  

     jika sekarang diasumsikan bahwa

    2 1 , M h     'θ - θ θ  

    maka, untuk semua a di A memenuhi

      ' ' 2 1 ,a ar r M h   θ θ θ  

     jadi

    ' ' 1 .a a a ar r r r M h M M h  

    Sekarang perhatikan bahwa1.n A h

      oleh karena itu, himpunan h

    dari ' ',i i yx  harus terdiri sekurang-kurangnya satu dari , ,a a yx  jadi

        2 2

    ' ' 2

    1   :

    ,h

    i i a

    i   i n

     y r hM 

      ' 'x θ  

    suatu kontradiksi. Ini menyebabkan bahwa

    2 1 M h     'θ θ θ  

    untuk semua sampel ' Z  .

    Langkah kedua adalah mendapatkan Pertidaksamaan sebaliknya yaitu

    * , 2 1n   T Z n p n      yang segera didapatkan berdasarkan teorema 3.1

    dan lemma 3.1

  • 8/16/2019 Heru Nurcahya Pst

    56/87

    43

    Cara lain menginterpretasikan Persamaan (3.5) adalah dengan mengatakan

     bahwa T   akan tetapi terbatas jika lebih dari 1 12

    n p   observasi tidak

    terkontaminasi. Nilai dari h menghasilkan nilai yang maksimum dari breakdown

     point. Di lain sisi, jumlah observasi yang jelek n A  harus tetap kurang dari h 

    dan 1 A p   harus sekurang-kurangnya h. nilai yang terbaik dari h  adalah

    kemudian diperoleh dengan meminimumkan  A   atas h  yang terletak pada

    1 A n h  dan 1 , A h p yang menghasilkan   2 1 2 .h n p  pada

    umumnya, h mungkin bergantung pada beberapa proporsi trimming   , umpanya

    dengan 1 1h n p   atau 1 1.h n       Maka dengan

    breakdown point *n   sama dengan proporsi   ini. Untuk  mendekati 50%, maka

    akan didapatkan LTS estimator, sedangkan untuk  mendekati 0%, maka akan

    didapatkan LS estimator [3].

    Suatu LTS estimator juga akan memenuhi sifat kecocokan yang tepat,

    yang dinyatakan sebagai berikut[3]:

    Jika terdapat beberapa θ sedemikian hingga cenedrung ( strictly) lebih dari

    12   1n p dari suatu observasi yang memenuhi i i y   x θ secara tepat dan dalam

     posisi yang umum, maka penyelesaian LTS sama dengan θ apapun bentuk

    observasinya.

    LTS mempunyai kekonvergenan1

    2n

    , dengan efesiensi keasimptotikan

    terhadap distribusi normal seperti M -estimator yang didefinisikan dengan [3]:

  • 8/16/2019 Heru Nurcahya Pst

    57/87

    44

      1, 1 2

    0, lainnya,

     x x x

      

     

      3.6

    Persamaan (3.6) disebut tipe- Huber   skipped   mean  dalam kasus estimasi

    lokasi sama dengan yang didefinisikan pada Persamaan (2.20).

    Langkah-langkah penentuan estimasi dengan menggunkan LTS

    dapat dijelaskan sebagai berikut:

    1.  Bentuk subsampel dengan tiap subsampel ini terdiri dari

    h observasi.

    2.  Untuk tiap subsampel dihitung:

    3.  Hitung jumlah kuadarat dari tiap subsampel:

    4.  Solusi yang dipilih adalah yang memberikan nilai paling

    kecil.

    1n h

    1

    :

    1

    1

    :

    1

    1

    .

    .

    .1

    h

    i n

    i

    nn h

    i n

    i n h

     y yh

     y yh

    21 1

    :

    1

    21 1

    :

    1

    .

    .

    .

    h

    i n

    i

    nn h n h

    i n

    i n h

    SQ y y

    SQ y y

     j y  

     jSQ

  • 8/16/2019 Heru Nurcahya Pst

    58/87

    45

    3.2  MM-Estimasi

    Pendekatan estimasi robust   regresi dengan ix dan i y   yang mungkin

    terdapat outlier   adalah dengan menggunkan suatu M-estimasi ˆ     yang

    didefinisikan sebagai [5]:

    1

    ˆ

    minˆ

    ni

    i

    r       

     

      3.7

    dengan suatu      yang terbatas dan suatu permulaan skala ̂    yang memliki

    breakdown point yang tinggi. Skala ̂   akan dibutuhkan untuk memenuhi syarat-

    syarat tertentu yang akan didiskusikan kemudian. Jika     mempunyai turunan   ,

    maka,

    0

    ni

    i

    i

    r  

     

      x   3.8

    dengan     adalah redescending   (non-monoton). Menyebabkan pengestimasian

     pada Persamaan (3.7) mungkin memiliki banyak solusi dikarenakan memiliki

    minum lokal dari fungsi pada sisi kiri Persamaan (3.7), dan umumnya hanya satu

    solusi (solusi terbaik) yang menyebabkan minimum global dari ˆ     yang

    didefinisikan pada (3.7). salah satu metode yang digunakan untuk

    mengaproksimasi ˆ    yang didefinisikan pada (3.7) adalah metode MM-estimasi.

    Metode MM-estimasi didefinisikan kedalam tiga langkah. Langkah

     pertama adalah menghitung estimasi ˆ *β yang memiliki breakdown point yang

    tinggi, misalnya LTS atau least median square (LMS) . dalam langkah pertama ini

  • 8/16/2019 Heru Nurcahya Pst

    59/87

    46

    tidak diperlukan robust   estimator yang efesien. Langkah kedua adalah

    menghitung suatu M-estimasi skala ˆ  dengan 50% breakdown point yang

    dihitung dari residual   *ˆir   β dari estimasi robust  yang cocok pada langkah awal.

    Langkah terakhir, mencari solusi dari persamaan (3.8), yang memenuhi:

    *ˆ ˆS S β β   3.9

    dengan

     

    1

    ˆ

    ˆ

    ˆ

    ni

    i

    r S 

         

     

     

    Sekarang akan dijelaskan secara detail langkah-langkah di atas. Estimasi

    awal yang robust  0ˆ     harus regresi, skala dan affine equivariant   yang telah

    didefinisikan di subbab 3.1 di atas, yang memastikan bahwa memberikan sifat-

    sifat yang sama. Salah satu estimasi yang akan dibahas adalah estimasi

     berdasarkan pada robust  skala residual . Yang didefinisikan sebagai berikut: misal

    ˆ ˆ     r merupakan suatu skala equivariant   dari robust   estimasi skala yang

     berdasarkan pada suatu vektor residual  

    1   ,..., .nr r    r   3.9

    Maka suatu regresi esrimasi dapat difenisikan sebagai:

    ˆ ˆmin .  

          r   3.10

  • 8/16/2019 Heru Nurcahya Pst

    60/87

    47

    Estimasi demikian merupakan regresi, skala, dan affine equivariant , dan

    disebut sebagai S-Estimasi [3].

    Sebaraan ̂  r didefinisikan sebagai solusi dari [3]:

    1

    1

    ˆ

    ni

    i

    r  K 

    n  

     

      3.11

    Dengan  K   disamakan dengan , E      dengan   merupakan normal

    standar. Dengan fungsi     harus memenuhi kondisi di bawah ini [5]:

    (S1).      merupakan simetrik dan terdiferensial secara kontinu, dan

    0 0.      

    (S2). Terdapat 0c   sedemikian hingga   merupakan cendrung naik pada

    0,c  dan konstan pada   , .c    

    Jika terjadi lebih dari satu penyelesaian pada (3.11), maka jadikan

    ̂  r sama dengan supremum dari himpunan penyelesaiannya; ini artinya

      ˆ ˆ ˆsup ; 1 .in r K    r   jika tidak terdapat penyelesaian pada

    (3.11), maka jadikan ̂  r = 0.

    Karena kondisi (S2), ' x x   akan selalu nol dari nilai  x  tertentu,

     jadi    merupakan fungsi redescending . Fungsi yang demikian contohnya adalah

    fungsi Biweight Tuckey’s yang didefinisikan [5]:

    2 4 6

    2 4

    6

    untuk2 2 6

    untuk .6

     x x x x c

    c c x

    c x c

      

     

      3.12

  • 8/16/2019 Heru Nurcahya Pst

    61/87

    48

    Persamaan (3.12) sama dengan yang dinyatakan pada Persamaan (2.29),

    fungsi yang lain yang bisa digunakan adalah fungsi yang dinyatkan pada (2.31)

    Untuk menunjukkan breakdown point dari S -estimator adalah 50%, di

    mana suatu kondisi tambahan pada fungsi     dibutuhkan, yaitu:

    (S3).

    1

    2

     K 

    c    

    Kondisi ini mudah dipenuhi. Pada kasus (3.27) dengan , K E       

    diterima dengan menggunkan 1.547c  .

    Berikut adalah lemma dan beberapa teorema yang diturunkan dari (S1)

    sampai dengan (S3), yaitu sebagai berikut:

    Lemma 3.3.1. untuk tiap      memenuhi kondisi (S1)-(S3) dan untuk tiap n,

    terdapat konstanta positif     dan      sedemikian hingga estimator ̂    yang

    diberikan (3.11) memenuhi:

    1i

    ˆmed ,..., med .i n ii

    r r r r      

    Di sinii

    med   atau 1ˆ   ,..., nr r    mungkin nol.

    Teorema 3.3.1. untuk setiap     yang memenuhi (S1)-(S3), selalu terdapat suatu

    solusi terahadap (3.25).

    Teorema 3.3.2.  suatu S -estimator yang dibentuk dari suatu fungsi      yang

    memnuhi (S1)-(S3) memiliki breakdown point

    * 2 2n   n p n    

  • 8/16/2019 Heru Nurcahya Pst

    62/87

    49

    untuk sebarang sampel , ; 1,....,i i y i nx  dalam posisi umum.

    Teorema 3.3.2 menyebabkan bahwa jika terdapat beberapa β sedemikian

    hingga sekurang-kurangnya 2 1n n p dari titik-titik yang memenuhi

    i i y   x β  secara tepat dan pada posisi yang umum, maka S -estimasi untuk vektor

    regresi akan sama dengan β  apapun observasi yang lainnya.

    Jika kondisi (S3) diganti dengan

      ,

     K 

        

    dengan 12

    0 ,    maka S -estimator yang berkorespodensi mempunyai

    breakdown point cendrung terhadap *     ketika n . Jika hal itu

    diasumsikan bahwa  K E       dalam usaha untuk mendapatkan suatu estimasi

    skala yang konsisten terhadap residual   yang terdistribusi normal. Disamping

    resistansinya yang tinggi terhadap data yang terkontaminasi , S -estimator juga

     berkelakuan baik ketika data tidak terkontaminasi. Untuk melihat hal ini, akan

    dilihat keasimptotikan kelakuan S -estimator pada model Gaussian, dengan

    ,i i yx  merupakan variabel random i.i.d yang memenuhi

    0   ,i i i y e x β   3.13

    ix  mengikuti suatu distribusi  H , dan ie independen terhadap ix  dan berdistribusi

    0e      untuk 0   0   . Sebelum melihat keasimptotikan kenormalan dari S -

    estimasi akan diketengahkan dulu teorema yang menjamin kekonvergenan dari

    estimator S -estimasi, yaitu sebagai berikut:

  • 8/16/2019 Heru Nurcahya Pst

    63/87

    50

    Teorema 3.3.3. misal     merupakan suatu fungsi yang memenuhi (S1) dan (S2),

    dengan turunan ' .     asumsikan bahwa:

    1.  u u   tidak naik untuk 0u  ;

    2.  , H  E    x dan H  merupakan suatu kepadatan.

    Misal ,i i yx i.i.d yang yang memenuhi model pada (3.28), dan misalkan

    ˆnβ merupakan penyelesaian dari (3.25) untuk titik n  yang pertama, dan

    1 ˆ ˆˆ ˆ   ,...., .n n n nr r      β β  jika n  maka

    0. .

    ˆn

    a sβ β  

    dan

    0. .

    ˆn

    a s

       

    dengan a.s. menyatakan selalu konvergen (absolutely converge).

    Selanjutnya akan ditunjukkan keasimptotikan kenormalan dari S -

    estimator, yang dinyatakan dalam sebuah teorema, yaitu sebagai berikut:

    Teorema 3.3.4.  dengan tanpa kehilangan keumumannya misalkan 0   0β dan

    0

      1   . Jika kondisi dari teorema 3.3.3 terpenuhi dan

    1.     terdiferensial pada seluruh titik tetapi terhingga, maka '   dan

    ' 0;d      

    2. 

     E    t

    H  x x  merupakan nonsingular dan

    3, E    

    H  x  maka:

  • 8/16/2019 Heru Nurcahya Pst

    64/87

    51

          12

    212 '

    0n 0,n   N E d d    

     

    tβ β x xL  

    dan        

    12

    2

    0   2n 0, .n

     y E d y N 

     y y d y

         

     

    L  

    Karena teorema 3.3.4, maka dapat dihitung keasimptotikan keefisiensian e 

    dari S -estimator yag berasal dari fungsi     yang didefimisikan pada (3.12) untuk

    nilai-nilai breakdown point *   yang berbeda-beda. Seperti yang ditunjukkan pada

    table di bawah ini:

    Tabel 3.3.1. Efisiensi Asimptotik S -Estimator untuk Nilai-nilai*

       

    yang Berbeda-beda, dengan Menggunakan Fungsi Biweight Tuckey’s 

    *    e  c  K  

    50% 28.7% 1.547 0.199545% 37.0% 1.756 0.2312

    40% 46.2% 1.988 0.2634

    35% 56.0% 2.251 0.2957

    30% 66.1% 2.560 0.3278

    25% 75.9% 2.937 0.3593

    20% 84.7% 3.420 0.3899

    15% 91.7% 4.096 0.4194

    10% 96.6% 5.182 0.4475

    Dari tabel 3.3.1 di atas terlihat bahwa nilai-nilai c  yang lebih besar dari

    1.547 menghasilkan keasimptotikan efisiensi yang bagus terhadap model utama

    Gaussian, tetapi mempunyai breakdown point yang kecil.

  • 8/16/2019 Heru Nurcahya Pst

    65/87

    52

    BAB IV

    APLIKASI MODEL

    4.1 Aplikasi Pada Regresi Sederhana

    Data yang digunakan adalah data perusahaan asuransi pensiunan Belanda

    dari 18 cabang perusahaan. Data ini terdiri dari data yaitu: pendapatan premi yang

    merupakan variabel independen dan premi cadangan yang merupakan variabel

    dependen.[3]

    Data terlampir pada lampiran I.

    4.1.1 Pemeriksaan Outlier  

    Sebelum menganalisis menggunkan regresi akan diperiksa terlebih dahulu

    apakah dalam data tersebut terdapat outlier pada arah-y atau arah-x atau ada pada

    keduanya.

    a.  Pemeriksaan Leverage  

     Leverage disebabkan adanya data outlier  pada arah-x, deteksi yang digunakan

    adalah dengan melihat nilai hii  dan dengan membandingkan nilai centroid nya.

    Data yang lebih besar dari nilai centroid  (mean) variabel independen dan nilai hii 

    yang melebihi nilai cutoff 3 1k n   dengan k merupakan banyaknya variabel

    independen dan n  adalah banyaknya data, digolongkan sebagai data yang tidak

     biasa (outlier ). Mean dari data dana pensiun adalah 176.0222, dan nilai cutoff dari

    nilai h  adalah 0.33. untuk data dana pensiun didapatkan lima data pertama dari

    nilai centroid   dan nilai-nilai h-nya ditabelkan pada 4.2, sebagian data lainnya

    dilampirkan.

  • 8/16/2019 Heru Nurcahya Pst

    66/87

    53

    Tabel 4.2 pemeriksaan data outlier  pada dana pensiun untuk 18 cabang pada

    arah-x 

    Untuk menentukan mana yang menjadi nilai leverage akan dihipotesisikan

     bahwa

    H0:ℎi ≤ ,     

    H1:ℎ > ,    

    Dari perhitungan didapatkan bahwa data ke-18 mempunyai h18  yaitu

    0.873729, melebihi nilai cutoff-nya yaitu 0.33. oleh karena itu, H0 ditolak utnuk

    data ke-18, artinya data ke-18 merupakan outlier . sedangkan untuk sisa data yang

    lain nilai dari hi kurang dari nilai cutoff yang ditentukan. Pemeriksaan data outlier  

    dengan penntuan nilai hi  dilampirkan. Untuk lebih jelasnya disajikan gambar

    (4.1), yang menyajikan leverage dan variabel independen

    No x y centroid   h ii   cutoff

    1. 10.4 272.2 176.02 0.070383 0.33

    2. 15.6 212.9 176.02 0.069467 0.33

    3. 16.2 120.7 176.02 0.069363 0.33

    4. 17.9 163.6 176.02 0.069071 0.33

    5. 37.8 226.1 176.02 0.065883 0.33

     x

            l      e      v      e      r      a      g      e

    1400120010008006004002000

    0.9

    0.8

    0.7

    0.6

    0.5

    0.4

    0.3

    0.2

    0.1

    0.0

    index plot leverage Vs. data independen

    Gambar 4.1 indeks plot leverage  Vs. data variabel

  • 8/16/2019 Heru Nurcahya Pst

    67/87

    54

    b.  Pemeriksaan Outlier  pada Arah-y (Nilai Discrepancy)

     Nilai discrepancy merupakan jarak antara nilai prediksi dengan nilai

    observasi variabel dependen, yaitu ˆi iY Y  , yang merupakan nilai dari residual ,

    ie . nilai yang menjadi outlier  menyebabkan nilai residual  menjadi besar dan tidak

     jatuh pada garis regresi. Nilai discrepancy penghitungannya dengan menggunakan

    dua metode yaitu  Internally Studentized Residuals  dan  Externally Studentized

     Residuals. Pemeriksaan data outlier  pada arah-y pada tugas akhir ini hanya akan

    digunakan dengan metode  Externally Studentized Residuals  (t i). Penentuan nilai

    outlier  berdasarkan nilai E xternally studentized residuals berdasarkan Penentuan

    nilai cutoff   – nya yang mengikuti distribusi t  dengan 1.df n k     jika nilai it 

    lebih besar dari nilai tabel t  dengan derajat kepercayaan  2 , maka data tersebut

    memiliki nilai discrepancy  yang besar dan dikategorikan sebagai outlier . Dan

    diberikan hipotesis:H0:−   ≤  ≤ , 晦     

    H1: >    

  • 8/16/2019 Heru Nurcahya Pst

    68/87

    55

    Dari tabel 4.3 di atas nilai  Externally studentized residuals yang lebih dari

    ttabel adalah data ke-15 dan data ke-18 dengan masing-masing nilai  Externally

     studentized residuals adalah 3,058 dan -4,90717. Oleh karena itu, H0 pada kedua

    data ini ditolak artinya kedua data tersebut merupakan outlier .

    Deteksi outlier   yang selanjutnya adalah dengan melihat nilai dari jarak

    Cook’s  dan  DFFITS   (kependekan dari difference in fit standardized ), yang

    digunkan untuk mendeteksi adanya outlier   yang menjadi nilai influence. Ukuran

    dari influence merupakan kombinasi dari ukuran leverage dan discrepancy yang

    menginformasikan mengenai bagaimana perubahan dari persamaan regresi jika

    kasus ke-i dihilangkan dari himpunan data. Penentuan nilai  DFFITS  dan Cook’s.

    Jika nilai  DFFITS  dan Cook’s  1 atau < -1 maka dikategorikan sebagai outlier .

    Pendeteksian outlier   dengan  DFFITS   dan Cook’s  menghasilkan data ke-18

    sebagai outlier   ke-18 sebagai outlier   dengan nilai  DFFITS = -12.9082 yang

    kurang dari nilai cutoff  , -1, dan Cook’s distance = 34.1087 yang lebih dari nilai

    cutoff , 1, untuk pendeteksian data yang lainnya terlampir.

    Dari pendeteksian leverage, nilai discrepancy, nilai  DFFITS   dan Cook’s 

    didapatkan data outlier  yaitu: data ke-15 yang merupakan outlier  pada arah-y dan

    data ke-18 yang merupakan nilai leverage  dan yang meberikan nilai influence

    terhadap model regresi.

    4.1.2 Analisis Regresi

    a. Metode Least Square  

    Penerapan metode least square  pada data dana pensiun dari perusahan

    asuransi Belanda di atas menghasilkan persamaan model:

    ˆ= 632.301 + 5.018 y x   (4.1)

  • 8/16/2019 Heru Nurcahya Pst

    69/87

    56

    RESI1

          P     e     r     c     e     n      t

    200010000-1000-2000

    99

    95

    90

    80

    70

    60

    50

    40

    30

    20

    10

    5

    1

    Mean

  • 8/16/2019 Heru Nurcahya Pst

    70/87

    57

    0 200 400 600 800 1000 1200 1400

    x

    0

    4000

    8000

    12000

          y

    Gambar 4.4 Garis LTS untuk Data Dana Pensiunan

    Distribusi dari residual  data pensiunan tidak memenuhi asumsi kenormalan.

    Hal ini dapat ditunjukkan dengan gambar (4.3) dan dengan uji kenormalan

    kolomorgov-semirnov, nilai dari P -value bahwa data normal hanya 0.001, kurang

    dari tingkat siginfikansi  = 0.05. oleh karena itu, persamaan tersebut tidak dapat

    digunakan untuk analisis regresi dari data dana pensiunan dari ke-18 cabang

     perusahaan asuransi Belanda.

    b. metode Least Tr immed Square(LTS)

    Analisis regresi untuk data dana pensiunan karena tidak dapat menggunakan

    metode LS, maka akan digunakan metode lain yang  Robust   terhadao kehadiran

    outlier  yaitu data ke-15 dan data ke-18. Persamaan model yang didapatkan dari

    metode LTS adalah:

    ˆ =181.6062+8.9183 y x   (4.2)

    Persamaan dari (4.2) dapat digambarkan sebagai berikut:

  • 8/16/2019