Powered by Blogger.
RSS

Serial SEO: Bagaimana bikin robots txt (file robots.txt)?

Kenali file robots.txt, penggunaan benar akan support SEO blog & meningkatkan SERPs

Blogger / Webmaster menggunakan robots.txt untuk memberi instruksi ke robots terkait situsnya.

Cara kerja file robots.txt

Saat Robot jelajahi URL, eg. http://www.example.com/ atau http://www.example.com/welcome.html. Maka pertama dilakukan robots pada blog Anda adalah check file situs atau website tersebut, salah satu file yang pertamakali diperiksa oleh Googlebots dan robots search engine lain adalah file robots.txt bertempat di http://www.example.com/robots.txt.

Contoh content file robots.txt

User-agent: *
Disallow: /

  • "User-agent: *" ARTINYA section berlaku bagi robots semua search engine.
    Tanda bintang '*' pada User-agent ialah nilai khusus yang berarti "robot apapun"
  • "Disallow: /" ARTINYA semua robot TIDAK BOLEH berkunjung ke halaman apapun di situs yang disebutkan dalam section ini.

Aturan penulisan file robots.txt bikin canggung, karena tidak ada field (record) "Allow:" untuk “izin akses.”  Alternatifnya yaitu meletakkan semua file yang akan dilarang di belakang "Disallow:" Ditulis dalam baris terpisah untuk masing-masing direktori.  (Lihat bagian akhir artikel).

Pertimbangan penting penggunaan robots.txt

  • robots (sama seperti malware robots) dapat saja mengabaikan file robots.txt,
    tapi Malware robots tetap bisa memindai kerentanan security & scan alamat
    email spammers.
  • File robots.txt tersedia untuk publik. Artinya semua orang bisa melihat isi file
    atau melihat section-section dari web server yang Anda tidak ingin robots
    menggunakannya.

So, JANGAN gunakan file robots.txt untuk menyembunyikan informasi.

ilustrasi googlebots robot web crawler

How to create robots.txt?

Dimana kita tempatkan file robots.txt?

File ini ditempatkan dalam direktori Top-Level pada web server. Tutorial pengeditan file robots.txt dalam template blogger dapat dilihat di link :

Mengenali file robots.txt dan penggunaannya

Letak file robots.txt ada sesudah alur komponen URL, didahului slash tunggal (/).  Contoh riil seperti :

http://website-download.blogspot.com/robots.txt  atau  http://www.example.com/robots.txt.

Ilustrasi lokasi robots.txt

Contoh URL http://www.example.com/shop/index.html, kemudian  "/shop/index.html"dihapus. Ganti dengan teks "/robots.txt" Hasilnya menjadi http://www.example.com/robots.txt

Anda harus meletakkan di tempat yang tepat di web server sehingga dapat bekerja. Lokasi biasanya ada di tempat sama dimana Anda letakkan website utama – welcome page – "index.html"  Tapi tepatnya dimana, dan bagaimana penempatan file robots.txt, tergantung software web server.

PERINGATAN

Gunakan semua huruf kecil untuk nama file : "robots.txt", bukan  ”Robots.TXT” atau ”ROBOTS.TXT”

Apa isi file robots.txt?

File "/robots.txt" adalah sebuah text file, terdiri satu record atau lebih. Secara default biasanya berisi satu record (single record) yaitu “disallow” seperti contoh pada awal artikel. Berikut ini contoh single record beserta 3 direktori yang dikecualikan untuk dikunjungi (diletakkan dibelakang “Disallow:”).

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

Perhatikan bahwa Anda perlu baris "Disallow" terpisah untuk setiap URL prefix yang ingin DIKECUALIKAN – jangn menuliskan "Disallow: /cgi-bin/ /tmp/" dalam satu baris. Juga TIDAK BOLEH ada baris kosong dalam satu record, karena mereka digunakan untuk membatasi beberapa record.

Globbing dan regular expression TIDAK didukung, baik dalam baris User-agent maupun baris Disallow. Tanda '*' (pada field User-agent) adalah nilai khusus yang berarti "robot apapun"  Anda juga tidak boleh memiliki baris seperti :   

"User-agent: *bot*",
"Disallow: /tmp/*" atau
"Disallow: *.gif".

Contoh penulisan file robots.txt

  1. Pengecualian semua robots crawler dari seluruh server 

    User-agent: *
    Disallow: /

    SEMUA ROBOT tanpa kecuali TIDAK DIZINKAN menjelajahi seluruh isi situs. Penulisan ini SANGAT TIDAK DIREKOMENDASIKAN!

  2. Mengizinkan semua robots untuk akses penuh

    User-agent: *
    Disallow:


    Semua robot search engine mendapat akses penuh untuk mengunjungi situs. (Dengan cara lain : KOSONGKAN isi file "/robots.txt" atau sama sekali jangan gunakan file "/robots.txt").
  3. Pengecualian semua robots dari sebagian isi server

    User-agent: *
    Disallow: /cgi-bin/
    Disallow: /tmp/
    Disallow: /junk/

    SEMUA ROBOT search engine, tanpa kecuali, TIDAK BOLEH mengunjungi ketiga direktori diatas.

  4. Pengecualian untuk robot tertentu (robot tersebut tidak diizinkan akses)

    User-agent: BadBot
    Disallow: /

    Badbot SATU-SATUNYA robot search engine yang TIDAK DIIZINKAN akses ke seluruh situs.

  5. To allow a single robot

    User-agent: Google
    Disallow:

    User-agent: *
    Disallow: /

  6. Larangan akses ke semua file dalam direktori kecuali satu file

    Misalnya direktori ‘joe’ dan hanya satu file yang boleh diakses (misal file ‘stuff’). Letakkan semua file yang akan dilarang ke direktori terpisah (direktori "stuff"),  dan sisakan satu file di level directory ini. Cara penulisannya :

    User-agent: *
    Disallow: /~joe/stuff/

    Alternatifnya secara eksplisit  “DILARANG” untuk semua disallowed pages seperti :

    User-agent: *
    Disallow: /~joe/junk.html
    Disallow: /~joe/foo.html
    Disallow: /~joe/bar.html


    et cetera.


Happy blogging!

  • Digg
  • Del.icio.us
  • StumbleUpon
  • Reddit
  • RSS

0 comments:

Post a Comment