Memahami dan cara seting Robots.txt Blog Blogger Blogspot yang tepat

Robot web menjelajahi dan merayapi miliaran laman web di dunia maya. Perayapan dimulai dari URL, struktur, dan sumber daya apa saja yang ada pada laman situs/blog tersebut. Selain itu juga perayap mengenali file robots yang terdapat pada akar URL sehingga merayapi sesuai dengan perintah robots.txt yang ada. akan merayapi sebuah URL, maka robot pertama kali cek robots.txt.

Contoh file robots.txt pada akar URL domain situs/blog:
https://contoh.com/robots.txt

Berikut ini adalah contoh komponen file robots.txt yang umum pada blog Anda:

User-agent: *
Disallow: /

Maksudnya adalah:
User-agent: * (memperkenankan semua robot untuk merayapi)
Disallow: /     (menginstruksikan robot tidak merayapi semua halaman web)

Lalu apa sebenarnya Robots.txt itu?
ROBOTS.TXT adalah file yang terdapat pada akar domain blog atau situs web Anda berfungsi sebagai filter yang memperkenankan atau tidak memperkenankan perayap web merayapi laman blog atau situs web Anda. Baik perayap seluler maupun perayap desktop.

contoh:
http://www.wilbeblogger.com/robots.txt
http://www.wilbeblogger.com (domain blog)
/robots.txt (cabang atau root domain)

Setiap blog atau situs web Anda memiliki robots.txt secara default. Untuk mengetahuinya Anda cukup mengunjungi Blog atau situs web dengan cara: https://namabloganda.blogspot.co.id/robots.txt

Berikut ini contoh Robots.txt blog saya di:
http://www.wilbeblogger.com/robots.txt

Akan muncul seperti di bawah ini:

User-agent: Googlebot
Disallow:

User-agent: *
Disallow: /search
Allow: /

Sitemap: http://www.wilbeblogger.com/sitemap.xml  

Mari kita secara perlahan memahami kodenya:
Sebagai contoh Google memiliki robot atau spider yang kerja siang malam merayapi milyaran informasi di dunia internet seperti Googlebot, Mediapartners, dan AdsBot-Google.Masing-masing robot memiliki fungsi sesuai kebutuhannya.

User-agent: Googlebot
Disallow:

User-agent:Googlebot
Googlebot adalah perayap web Google yang bekerja mencari, merayapi dan mengindeks laman web di jagat maya. Pada bagian ini Anda dapat menggantinya dengan Robot spesifik(selain perayap web: Googlebot) perayap web yang sesuai dengan kebutuhan blog atau situs web Anda. 

Disallow:
berarti tidak memperbolehkan

Catatan:
User-agent: Googlebot dan Disallow satu paket perintah pada robots.txt di atas.

Misalkan kita lakukan sedikit perubahan dengan menambahkan kode "/" pada Disallow seperti ini:

User-agent: Googlebot
Disallow:

Robots.txt ini memperkenankan Googlebot merayapi Blog (User-agent: Googlebot), namun tidak mengijinkan merayapi semua laman web (Disallow: /). Selanjutnya:

User-agent: *
Disallow: /search
Allow: /

Sitemap: http://www.wilbeblogger.com/sitemap.xml  

User-agent: *
File robots.txt ini mengijinkan semua robot mesin pencari merayapi Blog atau situs web Anda.

Disallow: /search
Tidak memperbolehkan merayapi folder atau widget  /search blog. Perintah ini juga berlaku bagi /label juga.

Allow: /
Memperbolehkan perayap untuk merayapi seluruh halaman blog, kecuali yang diatur/tertulis pada Disallow di atas.

Sitemap: http://www.wilbeblogger.com/sitemap.xml 
Peta situs yang juga merupakan feed blog terdapat semua URL blog atau situs web yang menjadi bagian pertama perayap web akan kunjungi saat melakukan perayapan pada URL blog kita.

Seting robots.txt default sebenarnya sudah mencegah robot web tidak merayapi URL halaman yang bukan menuju pada satu halaman tertentu.

Seperti contoh:
Disallow: /search

robots.txt ini tidak mengijinkan robot/perayap web merayapi halaman "/search" dan juga "/label".

Di bawah ini contoh seting robots.txt yang tidak memperbolehkan perayap web merayapi dan mengindeks laman "About" Blog Anda.

User-agent: Googlebot
Disallow:

User-agent: *
Disallow: /search
Disallow: /p/about/html
Allow: /

Sitemap: http://www.wilbeblogger.com/sitemap.xml  

Baiklah kita sudah sedikit belajar memehami arti kode robots.txt dan cara melakukan perubahan-perubahan kode sesuai kebutuhan Blog atau situs web Anda. Berikutnya Cara Seting Robots.txt Blog.

Sangat mudah langsung masuk pada Blogger Home Anda, Setelan/Settings - Preferensi Penelusuran/Search Preferences - Crawler and Indexing (Custom robots.txt) - klik edit dan Ya - tulis kode robots.txt sesuai kebutuhan Anda - Kemudian Simpan. 

Selain itu juga Anda juga dapat mengubah atau membuat sendiri robots.txt langsung pada Search Console dengan membuka: Perayapan  dan Penguji Robots.txt, selesai membuat file robots.txt-nya jangan lupa mengirimkan dan meminta Google memperbaharuinya. 

Apakah Anda harus melakukan seting robots.txt?
Belum perlu, karena sebenarnya setiap Blog sudah memiliki robots.txt bawaan/default jadi perayap tetap akan selalu mengunjungi Blog Anda.

Perlu, bila blog Anda kaya akan konten seperti video, foto, dan sudah di-monetize agar Anda dapat memfokuskan perayapan halaman sesuai dengan kebutuhan Blog Anda.

Catatan:
Googlebot bekerja dengan algoritma yang kompleks, sangat sensitif dan selalu siap mengunjungi blog sesuai perintah perayapan dan pengindeksan dari laman Anda. Sebaiknya hati-hati dalam melakukan seting robots.txt. Jangan langsung meng-copy saja robots.txt orang lain karena belum tentu sesuai dengan kebutuhan blog Anda. Salah seting mengakibatkan laman blog tidak dapat ditemukan dan tidak muncul pada hasil penelusuran search engine.

Selamat mencoba dan semoga berhasil!

Happy Blogging!

Sumber:
http://www.robotstxt.org/robotstxt.html
https://support.google.com/webmasters/answer/1061943?hl=id
http://tf-m.blogspot.com/2013/11/Mengenal-Robot.txt-dan-cara-Setting-yang-Benar.html
Post a Comment

Teman-teman Google+ Terkren!

Popular posts from this blog

Daftar Blog atau Situs Web di Google Webmaster.

Jarum suntik: cara penggunaan dan risikonya.

Memperbaiki Eror Struktur Data hAtom Markup Microformat pada Structured Data Testing Tool.