Top Banner
M U L T I P L E L I N E A R R E G R E S S I O N
31

PPT Regresi Linear Berganda

Sep 18, 2015

Download

Documents

regresi
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
  • MULTIPLE LINEAR REGRESSION

  • 1. HIKMALIA2. MAYASARI3. RUMINDA4. TUANI M. NAPITUPULU

  • Page *Pemodelan matematika adalah bahasa matematika yang digunakan untuk menyederhanakan suatu fenomena atau kejadian nyata hampir di segala bidang di suatu kondisi tertentu untuk memudahkan penyelesaian.

    Fase dalam melakukan pemodelan matematika sebelumnya telah dijelaskan kelompok satu dimana fase satu dimulai dari konsep atau logika yang ada pada fenomena dilanjutkan formulasi, kemudian simulasi atau uji coba dan yang terakhir aplikasi. Dalam dunia penelitian, kerap kali metode statistika digunkan sebagai metode untuk mengumpulkan, mengolah, menganalisis dan menarik kesimpulan. Pada makalah ini akan dibahas pemodelan matematika dalam regresi linier ganda.BAB - I

  • Page *BAB - IIPemodelan matematika memprediksi jawaban angka yang mendekati kebenaran, hal ini dinamakan ketepatan. Analisis regresi mungkin sering meningkatkan ketepatan terhadap ketepatan dari model regresi linier sederhana dengan adanya variabel tambahan. Kebenarannyapun lebih akurat.

    Contoh :(Mayer:1985, h:180)Dapatkah kamu mengukur berat badan seseorang dengan menggunakan alat ??...Kita semua tahu bahwa orang yang lebih tinggi akan lebih berat badannya, jadi jika kamu tahu tinggi seseorang mungkin kamu bisa lebih cepat memprediksi berat badan seseorang

  • Contoh:Pada tabel 1 berikut menunjukkan berat dan tinggi untuk 10 orang siswa.

    Page *ATabel 1Tbl 1

    SiswaUkuran SepatuUkuran PinggangUkuran LeherTinggi Badan (Inchi)Berat Badan (pon)193415,5681602103215,570160310,531167115047,52914,56812058341668175610,53415,5761907123816,573,52058123417,575,52159113616,573185109,53215,572170

  • sambunganAdapun asumsi garis regresi yang cocok dapat dilihat pada gambar 1 yang rumusnya.

    muncul pertanyaan apakah asumsi ini masuk akal ??...

    siswa 1 yang memiliki tinggi 68, jika dimasukkan ke rumus maka berat yang didapat 147,76 seharusnya 160siswa 4 yang memiliki tinggi 68 jika dimasukkan ke rumus maka berat yang didapat 147,76 seharusnya 120

    Page *Berat Badan = 7.07 Tinggi Badan - 333APers -1

  • Hal ini menunjukkan bahwa tidak ada cara untuk memprediksi bahwa berat badan dipengaruhi dari tinggi badanAdapun respon dari seorang ahli pemodelan matematika untuk masalah ini adalah bahwa model sebelumnya dapat ditingkatkan untuk memberikan hasil yang lebih akurat. Kita mungkin mengira bahwa siswa ke-4 dan siswa ke-5 dapat dibedakan dengan pengukuran pinggang mereka.Yang satu gemuk dan yang satu lagi kurus. Hal ini mengarah pada gagasan bahwa jika kita mengukur ukuran pinggang semua siswa, kita bisa menggunakan rumus ini, dalam kombinasi dengan tinggi badan, untuk memprediksi berat badan.Hasilnya mungkin persamaan seperti:Page *Berat Badan = a Tinggi Badan + b Pinggang +cPers -2

  • kita juga bisa menambahkan model ukuran kerah dan mencari persamaan seperti:

    Page *Berat Badan = a Tinggi Badan + b Pinggang + c Kerah+ d

  • Pada prinsipnya kita dapat mengambil sejumlah variabel yang ada, teknik inilah yang disebut regresi linier ganda.Regresi linier ganda adalah analisis yang digunakan untuk menganalisis hubungan antara variabel bebas (x) dan variabel terikat (y). Namun pada regresi linier ganda ini, variabel bebas (x) yang digunakan lebih dari dari satu.Misalkan kita diberi nilai untuk tiga kuantitas, seperti pengukuran pinggang, tinggi badan, dan berat untuk berbagai individu seperti contoh sebelumnya.Ketiga variabel disebut x, y dan z sehingga setiap baris tabel dapat dianggap sebagai triple (x, y, z) yang pada gilirannya, dianggap sebagai titik dalam 3-ruang Page *

  • kita akan mempertimbangkan kasus tersebut dan kita sedang mencari penjelasan linier yang tepat, yaitu dengan menggunakan persamaan:

    Karena persamaan 3 adalah persamaan ruang dimensi tiga, kita dapat menafsirkan masalah geometris yang sedekat mungkin dapat melewati titik-titik (gambar 2).Jika di merupakan jarak vertikal dari (xi, yi, zi) dengan beberapa bidang, kita mendefinisikan jarak dari himpunan titik-titik terhadap bidang sebagai:

    Page *Z = ax + by + cPers -3

  • Gambar 2

    Untuk memudahkan perhitungan aljabar kita akan membahas dengan jarak kuadrat yang kita sebut S. Jika bidang memiliki persamaan z = ax + by + c, maka:

    Page *Pers -4

  • Tugas kita adalah memilih nilai-nilai untuk a, b dan c sehingga membuat S sekecil mungkin; dengan cara ini kita juga akan meminimalkan D. Oleh karena itu nilai-nilai a, b dan c akan sesuai dengan bidang terdekat.Untuk meminimalkan S, kami menetapkan derivatif parsial terhadap a, b dan c = 0

    Page *Pers -5

  • Page *Kita gunakan ilmu aljabar untuk mengubah persamaan (5) kepersamaan berikut dalam variabel a, b dan c

    Persamaan ini disebut persamaan normal a, b dan c, yang terdiri dari tiga persamaan linier dalam a, b dan c dan dapat diselesaikan dengan berbagai cara seperti Eliminasi Gauss

    Pers -6

  • Contoh 2Mari kita perhatikan versi singkat dari tabel 1, yang hanya terdiri dari lima siswa pertama. Kita perlu menghitung 12 koefisien untuk disubsitusi ke dalam persamaan (6). Seperti sebelumnya x = ukuran pinggang, y= tinggi badan, dan z = berat badan. Untuk persamaan pertama kita perlukan:

    sekarang kita memiliki koefisien, yaitu5.138a + 11.037b + 160c = 24.64011.037a + 23.813b + 345c = 52.790160a + 345b + 5c =765

    Page *Pers -7

  • solusi dari persamaan ini adalaha = 9,59, b = 4,22, c = -445,30Oleh karena itu bidang yang sesuai adalahZ = 9,59x + 4,22y - 455,30

    Jika prosedur dalam contoh terakhir dilakukan untuk seluruh tabel 1 dari lima entri pertama, kita mendapatkan sistem yang berbeda dari persamaan (7) dan mengikuti bidang yang sesuai:

    Z = 6,35x + 4,59y 368

    Pers. (1) dan (9) memberikan dua model yang terpisah yang memungkinkan kita untuk membuat prediksi berat badan dengan pengukur yang mana lebih baik?

    Page *Pers -8Pers -9

  • Kita membutuhkan sesuatu yang lebih baik untuk menyelesaikan pertanyaan itu. Kita membutuhkan cara matematis untuk mengukur kecocokan yang terbaik.Pemakalah akan menjelaskan salah satu dari semuanya yaitu yang disebut koefisien korelasi berganda, dilambangkan R (koefisien korelasi sampel).Koefisienkorelasi berganda didefinisikan sebagai,

    Page *Pers -10

  • Contoh Kita hitung R2 ke dalam persamaan regresi pers.(9): Z = 6,35x + 4,59y 368

    Gunakan formula, kita hitung:

    Maka di dapat;

    Page *

  • Sebagai perbandingan, kita melaksanakan perhitungan persamaan regresi pers. (1), yang mencoba untuk menjelaskan data yang sama dengan hanya y (tinggi) sebagai variabel penjelas.

    Setelah menggunakan formula, maka didapatlah;

    Dilihat dengan dua nilai dari (0,594 dan 0,862), kita melihat telah terjadi kenaikan yang cukup besar dalam akurasi dengan mengambil variabel tambahan pengukuran pinggang ke perhitungan tinggi dan pinggang bersama-sama melalui persamaan (9), dan pekerjaan tersebut lebih akurat dari pada memprediksi berat dari ketinggian saja, melalui persamaan(1).

    Page *

  • Contoh: Kanker dan Fluoridasi (Real Data)Hal ini diketahui bahwa menambahkan fluoride untuk sumber air dapat mencegah gigi berlubang. Tapi apakah ada harga yang harus dibayar untuk berkah ini? Beberapa kritikus, terutama di luar komunitas ilmiah, telah menyatakan bahwa fluoride menyebabkan kanker. Apakah ada bukti untuk pandangan ini? Tampaknya tidak ada bukti bahwa para ilmuwan menganggap persuasif, tetapi ini tidak berarti bahwa seseorang tidak dapat menemukan bukti sama sekali. (jika ini tampaknya membingungkan, perlu diingat bahwa, statistik adalah ilmu matematika, penggunaan statistik bukan ilmu melainkan memerlukan pertimbangan). Untuk menggambarkan hal ini, kita sekarang mempertimbangkan dua model untuk hubungan antara fluoride-kanker. Kedua model didasarkan pada data pada Tabel 2.

    Page *

  • Page *TABEL 2

    CityCancer Mortality rateNumber of years fluoridatesLPercent age 65 or moreNew York21550,7012,1Chicago204141,1510,6Philadelphia217161,2011,7Detroit21330,4811,5Baltimore223171,2310,6Dallas19140,607,9Washington200181,269,4Cleveland219141,1510,6

  • Page *

    CityCancer mortality rateNumber of years fluoridatedLPercent age 65 or moreCleveland219141,1510,6Milwaukee189161,2011,0San Fransisco249171,2314,0St. Louis207141,1514,7Pittsburgh243171,2313,5Denver157161,2011,5Buffalo248151,1813,3Minneapolis228121,0815,0

  • Page *

    CityCancer mortality rateNumber of years fluoridatedLPercent age 65 or moreFort Worth16950,709,6Oklahoma City170151,189,8Louisville230181,2612,4Miami266181,2514,5Tulsa159161,209,1

  • Pendekatan sederhana untuk data tersebut adalah untuk mencari hubungan antara angka kematian kanker dan tahun fluoridasi, tanpa memperhitungkan profil usia masing-masing kota. Dalam hal ini, kita akan merencanakan pasangan (L, C) dan mencari garis regresi. Pada bagian ini, kita menggunakan L sebagai satu-satunya variabel penjelas untuk memprediksi C, angka kematian kanker. Hasil regresi linier sederhana.

    C = 27,1 L + 181

    Maka didapat R2 = 0,047. Semakin L lebih tinggi (lebih tahun fluoridasi), maka akan semakin tinggi pula C. Nilai R2 sangatlah rendah dan cukup untuk membuat seorang ahli statistik yang bijaksana gelisah tentang model ini.Page *

  • Pendekatan yang lebih baik untuk pertanyaan ini adalah untuk mengambil variabel penjelas lain ke perhitungan. Hal ini juga diketahui bahwa orang-orang yang lebih tua lebih rentan untuk terkena kanker, dan ini menyebabkan ide bahwa variasi angka kematian kanker dari satu kota ke kota lain mungkin lebih disebabkan fakta bahwa kota-kota bervariasi dalam proporsi warga yang lebih tua dari pada variasi dalam fluoridasi

    Cara untuk menguji ini adalah untuk melakukan regresi linier berganda di mana L dan A (profil usia) digunakan sebagai variabel penjelas untuk C. Ketika kita melakukan ini, kita memperolehC = 0,566L + 10,6A + 85,8R2 = 0,493

    Page *

  • Tetapi koefisien ini 0,566 jauh lebih kecil daripada koefisien 27,1 yang ditemukan di model sebelumnya; sehingga dugaan hubungan antara fluoride dan kanker adalah sekitar 50 kali lebih lemah dalam model yang lebih masuk akal.

    Page *

  • Contoh; Jarak dan Waktu (Real Data)Jika contoh sebelumnya meyakinkan Kita bahwa menambahkan variabel penjelas untuk meningkatkan R2 adalah strategi yang baik, maka bagian selanjutnyanya mungkin tampak mengganggu: menambahkan variabel penjelas kadang-kadang ide yang buruk, bahkan variabel yang tidak ada sama sekali hubungannya dengan apa yang akan coba kita jelaskan, seperti dalam contoh berikut:

    Tabel 3 berisi data yang dikumpulkan untuk mencoba memprediksi berapa lama waktu yang dibutuhkan siswa dari rumah menuju Universitas Adelphi, dalam satuan mil.

    Page *Tabel - 3

    MilWaktuNo. Jaminan Sosial2710954150925,85010924435,820352,8116215,25015

  • regresi linear pada dua kolom pertama, menggunakan jarak sebagai variabel penjelas, kita memperoleh:

    Waktu = 1,89 mil + 8,05R2 = 0.867

    Regresi selanjutnya di mana nomor jaminan sosial digunakan sebagai variabel penjelas kedua. Ini hasilnya:

    Waktu = 1,7 mil - 0,0872 nomor jaminan sosial + 13,2 R2 = 0.883

    Perhatikan bahwa dalam model ini nilai R2 sedikit lebih tinggi dari sebelumnya.

    Hal ini dimungkinkan untuk menunjukkan secara teoritis, ketika kita menambahkan variabel penjelas lain, nilai R2 pernah menurun dan umumnya meningkat.

    Page *

  • Pada contoh sebelumnya, menambahkan nomor jaminan sosial tidak membuat model deskriptif realistis, dan kita tidak perlu perhitungan yang rumit untuk memberitahu bahwa itu adalah ide yang buruk. Namun, yang lebih masuk akal tentang realisme deskriptif tidak selalu dapat diandalkan dengan baik. Ini adalah subyek dari contoh berikut.

    CONTOHDi tengah tahun 1960-an Dinas Pendidikan Amerika Serikat mencoba untuk mencari tahu apa yang membuat siswa berhasil di sekolah. Secara khusus, mereka ingin tahu apakah kualitas sistem sekolah, yang diukur dengan uang yang dihabiskan untuk pendidikan, kualitas guru, dan faktor-faktor yang sama bisa menjelaskan mengapa beberapa siswa, terutama siswa minoritas, menunjukkan nilai yang lebih rendah pada tes standar.

    Page *

  • Page *Kita perhatikan tabel berikut Keterangan:SLRY-Rata-rata gaji guru per siswaWHTC-Persentase siswa kulit putihSES-ukuran tingkat sosial ekonomi siswaTCHR-skor tes verbal guruMOM-level pendidikan orang tua siswa (1 satuan=2 tahun)SCOR-skor tes verbal siswa

  • Pendekatan pertama, untuk SCOR boleh digunakan pada semua variabel penjelas. Hasilnya:SCOR = 19,95 -1,79 SLRY + 0,04 WHTC + 0,65 SES + 1,11 TCHR 1,81 MOM R2= 0,9063Nilai R2 tinggi. Sekarang jika kita menghilangkan WHTC dan MOMSCOR = 12,12 - 1,79SLRY + 0,55 SES + 1,01TCHRR2= 0,9007Kita bisa mencoba menyederhanakan lebih lanjut dengan menghilangkan SLRY. sehingga didapat:SCOR = 0,54 SES+ 0,75 TCHR +14,58R2= 0,8873

    sekali lagi, kita hanya memperoleh harga kecil di R2 untuk penyederhanaan ini, jadi mungkin itu adalah ide yang baik

    Page *

  • Thank You

    *