Powered by Blogger.
RSS

Solusi URL dicekal file robots.txt

 
Fungsi file robots.txt adalah mengatur halaman tertentu agar diindex atau mengatur bagian-bagian tertentu supaya tidak diindex oleh search engine.

Apa itu file Robots.txt?

Suatu kali saya mencemaskan performance blog karena sudah 5 bulan saya tidak bisa menghapus URL yang dicekal oleh robots.txt. Dari waktu ke waktu jumlah URL yang dicekal meningkat, terakhir naik drastis dari 102 langsung ke 182 URL. PageRank blog PR1 drop ke PR 0. Apa yang harus kulakukan dengan web blog website design milikku.

Google dan search engine lain kadangkala tidak bisa merayapi seluruh artikel atau sangat lambat memunculkan artikel di search engine disebabkan masalah Robots.txt.
  • File Robots.txt ialah file dalam directory root suatu blog (website) untuk mengkontrol webpage tertentu agar DIINDEKS oleh spider search engine atau  mengatur bagian-bagian tertentu blog agar TIDAK DIINDEKS.

Default robots.txt

Anda bisa melihat isi file robots.txt blog blogger dengan mengetikkan URL seperti ini.
Sesuaikan “NAMABLOGANDA” dengan nama blog Anda.

Secara default isi file robots.txt terdapat baris 'Disallow: /search' seperti terlihat dibawah ini.



User-agent: Mediapartners-Google 
Disallow: 

User-agent: * 
Disallow: /search
Allow: / 

Sitemap : http://website-download.blogspot.com/feeds/posts/default?orderby=updated


Penjelasan default robots.txt

  • Adanya “Disallow: /search” menjadikan robot Google memblokir semua url yang datang dengan label 'search.'

  • Semua label blog beserta URL terkait dicekal (diabaikan) oleh search engine Google.

  • Inilah penyebab masalah meningkatnya jumlah URL dicekal.

  • Untuk memperbaiki URL Dicekal tersebut Anda perlu menghapus “/search

Memperbaiki URL dicekal robot.txt via Blogger

Edit file robots.txt dilakukan melalui dashboard Blogger. Kemudahan ini berlaku sejak tahun 2012.

Tutorial

1.   Login ke Blogger.com
2.   Setelan  >>>  Preferensi dan penelusuran
3.   Pada kolom Perayap dan pengindeksan, pilih Edit di bagian kanan robots.txt khusus

halaman edit file robot
4.   Pergi ke baris Disallow: /search 

5,   Hapus   /search  (sehingga terlihat seperti poin nomor 4 dibawah User-agent"*).
      Hasil akhirnya seperti dibawah ini.


      Ganti “http://website-download.blogspot.com” dengan URL blog Anda"

6.   Klik tombol Simpan prubahan 

ALTERNATIF LAIN

Isi file robots.txt diatas bisa memunculkan masalah paginasi (penomoran halaman posting) di blog blogspot setelah menghapus
  • /search 

Apa solusinya? Gunakan isi file robots.txt  dibawah ini untuk memblok halaman paginasi.


User-agent: Mediapartners-Google
Disallow:

User-agent: *
Disallow: /search?updated-min=
Disallow: /search?updated-max=
Disallow: /search/label/*?updated-min=
Disallow: /search/label/*?updated-max=
Allow: /

Sitemap: http://www.example.com/feeds/posts/default?orderby=updated

Ganti example.com dengan URL blog Anda (misalnya http://website-download.blogspot.com). Pastikan semua sesuai seperti yang kita inginkan dengan mengunjungi

Untuk melihat hasilnya, tunggu  4-5 hari sesuai jadwal crawler Googlebots.

Peringatan keras terkait penggunaan robots.txt

PERHATIAN!

Anda harus hati-hati. Kesalahan setting robots.txt dapat menyebabkan blog hilang dari  indeks search engine Google.

Contoh kesalahan, misalnya mengisi “disallow:”  dengan hanya garis miring saja.

  • Disallow: /

Sama saja Anda tidak mengizinkan Googlebots menelusuri keseluruhan content. Akibatnya blog lenyap dari hasil pencarian Search Engine dan siapapun tidak akan menemukannya di Google.

Nangis Bombay, dahhh!!!

Jika ragu, abaikan saja keberadaan URL dicekal sampai Anda merasa yakin dan tahu resiko. Perkaya referensi Anda tentang robots.txt via browsing Google, masuk forum atau blog yang membahas isu ini.

CATATAN

  • Kita mengetahui URL dicekal melalui Webmaster tools. Google yang akan mengirim pesan bila terjadi kerusakan serius untuk segera diperbaiki.
  • Setidaknya seminggu sekali memeriksa kesehatan blog di Webmaster tools untuk mengetahui ada tidak-nya kerusakan blog.


  • Digg
  • Del.icio.us
  • StumbleUpon
  • Reddit
  • RSS

0 comments:

Post a Comment