Friday, April 27, 2012

Arsitektur Search Engine

1. Spider 
Spider adalah program yang dimiliki oleh search engine yang bekerja untuk mengambil halaman-halaman yang ditemukannya, hampir mirip dengan browser. Perbedaannya adalah jika Spider tidak kelihatan karena ditujukan kepada mesin yang langsung disimpan pada database mereka, sedangkan browser ditujukan kepada manusia yang langsung menampilkan informasi baik berupa teks, gambar, dan sebagainya.

2. Crawler 
Crawler merupakan program yang dimiliki search engine yang bertugas menelusuri setiap link yang ada di sebuah web site. Tugas Crawler adalah untuk membantu Spider untuk menentukan arah yang akan ditujunya sekaligus mengevaluasi link tersebut.
Persoalan web crawler adalah:
o   Menjaga tanda-tanda
§  Berkas yang disebut norobots.txt / robots.txt (pada google)
§  Menjumlah halaman yang sering diganti dan recrawl semuanya berkali-kali
o   Salinan, host utama, dll
§  Mengubah konten halaman dengan menyerang fungsi
§  Perbandingan halaman baru ke tabel serangan
o   Banyak masalah
§  Server tidak tersedia
§  Html tidak tepat
§  Links hilang


3. Indexer
 
Indexer merupakan salah satu komponen search engine yang bertugas untuk mendeskripsikan suatu halaman web site dan menganalisa berbagai unsur di dalamnya, yang diperlukan index:
o   Informasi umum untuk dokumen atau record
§  Nama file, URL, ID Record
§  Penulisan title atau equivalent
§  penulisan huruf keyword-keyword
§  Ukuran, tanggal dan MIME type
o   Full Text dari Item
o   Metadata lebih
§  Nama produk, ID gambar
§  Kategori, topik atau subyek
§  Atribut lainnya, untuk relevansi peringkat dan tampilan
Semua yang ada di konten diatas adalah supaya search engine akan mengenal web tersebut lebih jauh lagi terutama dalam menganalisa suatu keyword di dalamnya.
o   Proses Index:
§  Kemahiran teks, mengenalkan dan menyimpan dokumen untuk mengindeks
§  Transformasi teks, dokumen ditransformasi ke terms indeks atau mengistimewakan.
                        §  Pembuatan indeks, mengambil indeks terms dan membuat struktur
                            data(indeks) untuk menyokong pencarian cepat.

4. Database 
Database merupakan komponen search engine yang bertugas sebagai tempat meletakkan data-data sebelumnya yang telah didownload oleh Spider serta sebagai tempat yang tadinya digunakan oleh Indexer dalam menganalisa suatu web.

5. Result Engine 
Result Engine merupakan program yang bertugas menggolongkan suatu web site dan menentukan suatu perangkingan dalam hasil pencarian yang diminta oleh user. Program ini menganalisa siapa yang pantas masuk kriteria utama dalam pencarian suatu keyword yang diminta oleh pengguna. Data yang pertama muncul tentunya data yang telah memenuhi kriteria-kriteria search engine dan kaidah tertentu yang ditentukan oleh search engine.

6. Web Server 
Web Server merupakan komponen terakhir pada seacrh engine yang berfungsi melayani permintaan kepada user yang merupakan umpan balik dari permintaan user tersebut. Web Server merupakan bagian central dan penentu terhadap apa-apa yang diminta oleh user.

No comments:

Post a Comment