- File robots.txt dibutuhkan hanya jika situs mengandung konten yang ingin untuk tidak diindeks.
- File robots.txt (sering salah dinamai robot.txt, – tanpa “s” sehingga berarti singular bukan jamak) diciptakan untuk disallow (membatasi) file dan direktori website sehingga spiders mesin pencari (dan robots seperti Googlebot atau Bingbots) tidak mengakses konten tersebut.
Untuk melihat URL mana yang telah diblokir (ketika spiders atau robots atau Googlebots merayapi situs), silahkan kunjungi Google Webmaster Tools >> halaman Blocked URLs di bagian Health. Disini Anda juga bisa melihat isi file robots.txt.
Bagaimana melakukan setting file robots.txt?
Jika Anda ingin semua search engine mengindex semua file dan folder – atau seluruh konten situs, Anda tidak memerlukan file robots.txt ini. Isi file robots.txt secara bawaan (DEFAULT) seperti di bawah ini :
- User-agent: Mediapartners-Google
Disallow: - User-agent: *
Disallow: /search
Allow: / - Sitemap: http://NAMABLOGANDA.blogspot.com/feeds/posts/default?orderby=updated
Untuk kepentingan SEO Anda bisa mengedit isi file robots.txt menjadi :
- User-agent: Mediapartners-Google
Disallow: - User-agent: *
Disallow: /*?updated-max=*
Allow: / - Sitemap: http://NAMABLOGANDA.blogspot.com/feeds/posts/default?orderby=updated
Atau alternatif snippet ini :
- User-agent: Mediapartners-Google
Disallow: - User-agent: *
Disallow: /search?q=*
Disallow: /*?updated-max=*
Allow: / - Sitemap: http://NAMABLOGANDA.blogspot.com/feeds/posts/default?orderby=updated
Sebaliknya jika Anda ingin mencegah isi sebuah halaman agar tidak terdaftar dalam indeks, bahkan jika situs lain juga ditautkan ke halaman tersebut, maka isi file robots.txt harus diedit. Dan Google tidak akan mengindeks konten halaman yang diblokir oleh robots.txt, namun Google masih mengindeks URL yang ditemukan Google dari link halaman web lain.
Create a robots.txt file
File robots.txt ini berada di Root cPanel, untuk itu Anda harus punya akses ke root domain. File robots.txt yang paling simple hanya menggunakan 2 aturan, yaitu :
- User-agent: the robot the following rule applies to :
(terjemahannya, robot! aturan berikut ini berlaku untuk:) - Disallow: the URL you want to block
(terjemahannya, URL yang ingin diblok oleh Anda) - User-agent: *
- User-agent: *
Disallow: /folder1/ - User-Agent: Googlebot
Disallow: /folder2/ - User-agent: Googlebot
Disallow: / - User-agent: *
Disallow: /
Kedua baris di atas dianggap satu entri di file. Anda dapat memasukkan entri sebanyak yang Anda mau. Anda dapat memasukkan baris Disallow ganda dan User-agents ganda dalam satu entri. Setiap bagian dalam file robots.txt terpisah dan tidak membangun bagian sebelumnya.
User-agent adalah robot search engines spesifik. Web Robots Database mendaftar banyak robot biasa. Anda dapat mengatur entri untuk diterapkan ke bot tertentu (dengan mendaftarkan nama) atau Anda dapat mengatur entry untuk diberlakukan pada semua bot dengan listing tanda *). seperti terlihat di bawah ini :
Google menggunakan beberapa bot yang berbeda (user-agents). Bot yang digunakan untuk pencarian web adalah Googlebot. Bot Google lain seperti Googlebot-Mobile dan Googlebot-Image mengikuti aturan yang Anda tetapkan untuk Googlebot, tetapi Anda dapat membuat aturan khusus untuk bot-bot khusus juga. Contoh 1 :
Pada contoh diatas, hanya URL matching dengan /folder2 / yang akan diblok (disallowed) oleh Googlebot. Contoh 2 untuk pengaturan (setting) pada file robots.txt, misalnya penerapan agar HANYA Googlebot yang tidak boleh mengindeks SELURUH halaman :
Contoh 3 untuk MELARANG semua bot (semua search engine) mengindeks SELURUH halaman :
Kode di atas dapat dibaca “Semua search engine statusnya disallow” atau dibatasi.
Validasi file robots.txt
Robots.txt checker adalah "validator" untuk menganalisa syntax file robots.txt, untuk memastikan formatnya valid dan sesuai dengan patokan Robot Exclusion Standard. Google Webmaster membutuhkan waktu untuk merayapi kembali robots.txt yang baru saja dimodifikasi. Karena Crawler merayapi secara terjadwal. Untuk melihat hasilnya, amati saja “Blocked URLs” pada Webmaster. Tools.
Sebagai tambahan, untuk memeriksa validitasi robots.txt, dilakukan melalui robots.txt Checker (atau layanan lain). Masukkan h**p://namablog.blogspot.com/robots.txt, kemudian klik tombol Check robots.txt Kemudian untuk testing apakah halaman blog tidak diblok lagi, coba Fetch as Google — pada Webmaster Tools — akan mengindikasikan salah satu alamat dari posting kita.“Success” atau “Denied by robots.txt”

Bagaimana edit file robots.txt blog blogspot?
Edit setting file robots bisa dilakukan dengan membuka Dashboard blogger dengan alamat Gmail Anda. Kemudian pada menu Drop-down pilih sub-menu SETTING >> PREFERENSI PENELUSURURAN >> AKTIFKAN Robots txt khusus dengan memilih opsi "Ya" seperti gambar di bawah ini.
Silahkan tambahkan editan yang ingin Anda lakukan (mem-block halaman web tertentu atau untuk membuka block halaman web yang diblokir)






0 comments:
Post a Comment