Top Banner
1. introduction Empat macam teknik yang telah di gunakan untuk mendeteksi teks dalam foto dan video teknik pertama menggunakan connected component analysis (CCA) , di mana piksel dengan warna yang sama dikelompokkan ke dalam komponen terhubung, dan kemudian menjadi wilayah teks. CCA cepat. Namun, hal itu gagal ketika teks-teks yang tidak homogen dan bagian teks tidak dominan dalam gambar. teknik kedua didasarkan pada tepi , yang mengasumsikan perbedaan kontras tinggi antara teks dan latar belakang. Metoda ini cepat, dan dapat memiliki pengingat yang tinggi. Namun, sering menghasilkan alarm palsu, karena latar belakang juga mungkin memiliki tepi yang kuat mirip dengan teks. teknik ketiga adalah berdasarkan tekstur , dan mengasumsikan bahwa teks memiliki pola tekstur yang spesifik. Hal ini lebih memakan waktu dan bisa gagal bila latar belakang penuh dengan teks. teknik keempat adalah berdasarkan frekuensi , di mana teks diekstraksi dari latar belakang pada frekuensi (misalnya, wavelet) domain. Hal ini juga memakan waktu, dan representasi frekuensi tidak mungkin lebih baik daripada representasi spasial. Teknik klasifikasi pola (seperti AdaBoost , support vector machines , belief propagation and neural networks ) untuk lokalisasi teks. Dengan bantuan fitur rumit dirancang yang menggabungkan berbagai properti dari teks (seperti geometri, tekstur warna, dan frekuensi), teknik ini sering berhasil membedakan teks dari latar belakangnya. 2. Representasi sparse dan kamus diskriminatif Representasi sparse dari sinyal atas sebuah overcomplete kamus dicapai dengan mengoptimalkan fungsi objektif yang meliputi dua hal: satu mengukur kesalahan rekonstruksi sinyal dan tindakan lainnya sparsity sinyal. Misalkan data x dalam R n mengakui
9

Text Detection

Jul 05, 2015

Download

Documents

Zaq Qi
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Text Detection

1. introduction

Empat macam teknik yang telah di gunakan untuk mendeteksi teks dalam foto dan video

teknik pertama menggunakan connected component analysis (CCA) , di mana piksel dengan warna yang sama dikelompokkan ke dalam komponen terhubung, dan kemudian menjadi wilayah teks. CCA cepat. Namun, hal itu gagal ketika teks-teks yang tidak homogen dan bagian teks tidak dominan dalam gambar.

teknik kedua didasarkan pada tepi , yang mengasumsikan perbedaan kontras tinggi antara teks dan latar belakang. Metoda ini cepat, dan dapat memiliki pengingat yang tinggi. Namun, sering menghasilkan alarm palsu, karena latar belakang juga mungkin memiliki tepi yang kuat mirip dengan teks.

teknik ketiga adalah berdasarkan tekstur , dan mengasumsikan bahwa teks memiliki pola tekstur yang spesifik. Hal ini lebih memakan waktu dan bisa gagal bila latar belakang penuh dengan teks.

teknik keempat adalah berdasarkan frekuensi , di mana teks diekstraksi dari latar belakang pada frekuensi (misalnya, wavelet) domain. Hal ini juga memakan waktu, dan representasi frekuensi tidak mungkin lebih baik daripada representasi spasial.

Teknik klasifikasi pola (seperti AdaBoost , support vector machines , belief propagation and neural networks ) untuk lokalisasi teks. Dengan bantuan fitur rumit dirancang yang menggabungkan berbagai properti dari teks (seperti geometri, tekstur warna, dan frekuensi), teknik ini sering berhasil membedakan teks dari latar belakangnya.

2. Representasi sparse dan kamus diskriminatif

Representasi sparse dari sinyal atas sebuah overcomplete kamus dicapai dengan mengoptimalkan fungsi objektif yang meliputi dua hal: satu mengukur kesalahan rekonstruksi sinyal dan tindakan lainnya sparsity sinyal. Misalkan data x dalam Rn mengakui pendekatan tipis di atas overcomplete kamus D (dimana D ∈ Rn × Kdengan K»n) dengan atom K. Maka x dapat direpresentasikan sebagai kombinasi linier dari beberapa atom dari D. Ada beberapa algoritma yang dapat digunakan untuk mempelajari D. Salah satu algoritma populer themost adalah K-SVD , di mana sebuah overcomplete kamus diperoleh dengan memecahkan masalah optimasi berikut :

Page 2: Text Detection

3. Kamus discriminative untuk deteksi teks

Dalam tulisan ini, dua kamus overcomplete dilatih. Yang pertama kamus memberikan representasi tipis untuk teks, sementara yang kedua memberikan representasi tipis untuk latar belakang. Untuk melatih teks kamus, kita pilih sebagai sampel pelatihan terisolasi mesin-karakter yang dicetak diekstrak dari 5 gambar dokumen disintesis. Gambar-gambar berisi 1500 karakter Cina yang umum digunakan, 26 huruf bahasa Inggris dan 10 bahasa Arab jumlah berbagai font dan sizes.Two dari dokumen gambar ditunjukkan pada Gambar. 1 (a). Selain itu, karena kami terutama akan mempertimbangkan mendeteksi teks Bahasa Inggris dan Cina dalam percobaan, sehingga hanya bahasa Inggris dan karakter Cina termasuk dalam pelatihan yang ditetapkan. Seperti yang akan terlihat dalam percobaan, ini masih memungkinkan deteksi teks dengan bentuk yang sama seperti Cina atau Inggris (seperti Perancis). Jelas, ini juga dapat diperluas untuk mendeteksi teks dalam bahasa lain dengan hanya termasuk karakter bahasa-bahasa tersebut ke dalam training set. Adapun latar belakang kamus, 56 non-teks gambar adegan nyata ditunjukkan pada Gambar. 1 (b) digunakan untuk membangun training set. Gambar-gambar ini dikumpulkan dari situs internet termasuk pemandangan alam, bangunan, manusia, hewan dan kendaraan.

Di sini, kita tidak akan menggunakan informasi warna gambar. Oleh karena itu, semua gambar pelatihan yang diperoleh di atas terlebih dahulu dikonversikan ke grayscale. Setelah itu, ujung-ujungnya diekstraksi dengan detektor tepi Canny. Akhirnya, sebuah sliding window scans kecil gambar ke sebuah patcheswith raster-scan order, dan semua non-edge patch dibuang. Perhatikan bahwa ukuran jendela geser adalah penting. Jika terlalu besar, vektor yang dihasilkan akan tinggi-dimensi, peningkatan konsumsi kesulitan dan waktu proses klasifikasi. Jika terlalu kecil, segmen tepi tidak mengandung karakter yang cukup atau informasi latar belakang untuk diskriminasi. Dalam percobaan, kami menemukan bahwa 16 × 16 adalah tradeoff baik. Akhirnya, total 200.000 200.000 patch teks dan latar belakang patch dihasilkan.

Kami kemudian menggunakan kamus diskriminatif pelatihan algoritma untuk membangun dua kamus, D1 untuk teks dan D2 untuk latar belakang. Dalam percobaan, masing-masing kamus 512 atom. Selain itu, 10 iterasi dari algoritma dijalankan. Pada setiap iterasi, kita memangkas dua set dengan menjaga "patch terbaik diklasifikasikan 90%". Hal ini diharapkan bahwa tumpang tindih antara set teks dan latar belakang kemudian dapat diminimalkan. Akhirnya, 41.178 patch tetap dalam setiap rangkaian setelah pelatihan. Teks yang dihasilkan dan kamus latar belakang ditunjukkan pada Gambar. 2.

4. Deteksi Teks Melalui kamus DiskriminatifSebuah flowchart dari algoritma deteksi teks akan ditampilkan dalam Gambar. 3. Ada tiga langkah utama, masing-masing akan dijelaskan dalam rincian di bawah ini :

Page 3: Text Detection

Deteksi tepi dengan wafelet

Tepi pada gambar yang pertama diekstraksi oleh transformasi wavelet. Secara umum, ujung-ujungnya dibuat oleh objek yang memiliki lokal yang berbeda

intensitas karena oklusi, bayangan, dan tekstur profil. Untuk label tepi tepatnya, hal demikian diperlukan untuk menganalisis sifat lokal, yang dapat dicirikan secara matematis dengan singularitas dalam hal eksponen Lipschitz. Teori wavelet menunjukkan bahwa eksponen Lipschitz dapat dihitung evolusi fromthe di skala wavelet transformasi ekstrim lokal, dan ekstrim lokal wavelet transformasi sesuai dengan nol penyeberangan dari turunannya. Mallat dan Zhong menunjukkan bahwa temuan lokal maxima o

Page 4: Text Detection
Page 5: Text Detection

suatu wavelet transformasi setara dengan tepi Canny multi-skaladeteksi.

Sebagai contoh, kita memvisualisasikan tepi sinyal satu dimensi sederhana pada Gambar. 4 (a). Gambar. 4 (b) menunjukkan wavelet diskrit diad yang mengubah dihitung pada tiga skala. Gambar. 4 (c) menunjukkan derivatif yang sesuai dan lokasi dari maxima lokal. Seperti dapat dilihat, setiap impuls Dirac pada Gambar. 4 (c) menunjukkan posisi dan amplitudo dari Gambar localmaximumin. 4 (b), yang pada gilirannya menunjukkan posisi tepi pada Gambar. 4.

Menimbang bahwa sebagian besar teks berada di arah horizontal atau vertikal, dasar wavelet ortogonal akan digunakan sebagai berikut. Namun, hal ini mungkin tidak berfungsi dengan baik pada teks miring. Jika diperlukan untuk mendeteksi teks miring, kita harus memperkenalkan deteksi teks garis miring pertama. Ada banyak metode pendeteksian baris teks miring sampai sekarang. Kita bisa mendeteksi sudut bias dengan memanfaatkan metode deteksi baris teks miring, dan kemudian mengubah teks miring ke teks horisontal. Setelah itu, kita dapat mengimplementasikan metode deteksi teks yang diusulkan. Fungsi dasar wavelet untuk arah horisontal dan vertikal:

Page 6: Text Detection
Page 7: Text Detection

klasifikasi tepi menggunakan representasi tipisPada tahap ini, kita mungkin menemukan semua Tepi teks dengan klasifikasi tampil dan menggunakan representasi sparse. Seperti dalam kamus pelatihan, jendela dengan ukuran yang sama meluncur di atas gambar tepi dan citra tepi disegmentasi ke banyak non-overlapping patch (yang direpresentasikan sebagai vektor kolom pada Gambar. 7 (b)).

Perbaikan teks areaKadang-kadang, gambar blok dengan tepi pada beberapa paralel mungkin palsu terdeteksi sebagai teks. Ini bisa sangat bermasalah untuk tekstur seperti objek persegi, daun, dll Berikut ini, kita akan menggunakan analisis proyeksi profil horisontal dan vertikal dengan adaptive run-length smoothing algoritma (ARSLA) untuk memisahkan teks yang benar dari kandidat tersebut

Run-length smoothing algoritma (RLSA) berlaku untuk gambar biner, yang mengambil keuntungan dari white runs yang ada di arah horisontal dan vertikal. Ini adalah teknik rendah kompleksitas dan dapat segmen Tepi teks kandidat menjadi balok segi empat dan kemudian menggolongkan mereka ke baik teks atau latar belakang. Di masing-masing arah, RLSA menghilangkan white runs yang panjangnya lebih kecil dari nilai ambang smoothing. Ingat bahwa patch input ukuran 16 × 16 piksel, nilai-nilai smoothing baik dalam arah horisontal dan vertikal dengan demikian juga di set ke 16 piksel. Namun, terkadang RLSA kelompok komponen yang terhubung homogen atau garis miring yang berbeda bersama-sama. ARLSA adalah perluasan yang mengatasi kekurangan ini. Secara empiris, ARLSA juga bisa menangani gambar berisi karakter dengan ukuran font variabel.