Tentang Robots Txt

Pengertian Robots.Txt & Penerapannya

| | Webmaster

Apa Itu Robots.Txt? & Bagaimana Menerapkannya?

Salah satu aspek yang cukup penting dalam SEO adalah mengetahui dan menerapkan robots.txt dengan benar. Mengapa robots.txt begitu berpengaruh? Hal ini dikarenakan robots.txt mengatur atau memberikan instruksi tentang halaman mana saja yang diizinkan atau diblokir dari akses crawler. Lantas apa itu yang disebut robots.txt?

Pengertian Robots.Txt

Apa itu file robots.txt?

Robots.txt adalah file teks yang sengaja dibuat untuk memberikan instruksi kepada robot web (pada umumnya robot mesin pencari / search engine). Instruksi ini adalah tentang cara robot mesin pencari merayapi sebuah halaman website.

File ini merupakan bagian dari REP (Robots Exclution Protocol) atau protokol pengecualian robot, yaitu sekumpulan standar web yang mengatur bagaimana robot merayapi, mengakses, dan mengindeks konten di halaman untuk selanjutnya ditayangkan kepada pengunjung.

Selain robots.txt, REP juga mencakup arahan langsung halaman dengan robot meta, serta petunjuk halaman, subdirektori, atau situs yang mengarahkan cara mesin pencari untuk memperlakukan url / link (misalnya “follow” dan “nofollow”).

Dalam penerapannya, file robots.txt menginstruksikan apakah agen pengguna tertentu (perangkat lunak perayapan web / robot) diizinkan atau dilarang merayapi bagian-bagian tertentu dari sebuah situs web.

Instruksi penjelajahan ini ditunjukkan dengan perintah “allow” atau “disallow” bagi semua robot ataupun beberapa robot saja.

Selain menginstruksikan izin akses, robots.txt juga menunjukkan sitemap yang digunakan oleh suatu website.

Penerapan Robots.Txt

Bagaimana cara menerapkan robots.txt?

Cara menerapkannya yaitu dengan membuat sebuah file dengan nama robots.txt pada root direktori atau folder utama (biasanya public_html) situs web.

Contoh isi robots.txt

User-agent: * 
Disallow: /

Sitemap: /sitemap.xml

Kode tersebut melarang akses semua robot perayap ke seluruh halaman web mulai dari root, dan juga menujukkan file sitemap.xml yang digunakan.

Dengan menggunakan kode di atas, maka seluruh robot perayap (termasuk googlebot) tidak akan merayapi semua halaman, dan otomatis seluruh halaman tidak akan diindeks oleh Google.

Bagaimana agar seluruh halaman dicrawl dan bisa diindeks?

Untuk mengizinkan perayapan, maka kode Disallow: / harus dihapus trailingslash nya menjadi Disallow: (dikosongkan). Atau bisa juga mengubahnya menjadi Allow: / untuk mengizinkan perayapan terhadap semua halaman.

Harap diperhatikan perbedaan menggunakan tanda : dan : / serta perintahnya (allow / disallow). Karena masih banyak blogger yang belum memahami penggunaan kode ini.

Coba anda cari kata kunci “Hapus User-agent: Mediapartners-Google” di google. Banyak artikel yang merekomendasikan untuk penghapusan kode ini. Konon katanya agar diterima adsense. Dan ada yang beranggapan jika kode ini tidak dihapus akan menyebabkan iklan tidak tayang.

Itu tidak benar, dan menunjukkan para penulis itu belum memahami penerapan robots.txt yang benar. Contoh salah satu yang saya kunjungi menunjukkan saran seperti screenshot berikut.

Alt

Jika robots.txt blogger anda adalah default dan tidak merubah kodenya, maka disitu terdapat kode seperti ini:

User-agent: Mediapartners-Google
Disallow: 

Seperti saya sebutkan di atas, bahwa Disallow: (tanpa trailingslash), artinya adalah diizinkan atau sama dengan Allow: / (dengan trailingslash). Jadi adanya kode tersebut sudah benar bahwa menginstruksikan robot adsense untuk merayapi semua halaman, maka sebenarnya tidak perlu dihapus.

Seperti blog lama saya yang menayangkan adsense dan robots.txt masih default tidak saya hapus.

Alt

Kenapa saya membahas ini, karena untuk meluruskan pemahaman tentang robots.txt terutama bagi pengguna blogger yang salah kaprah menganggap robots.txt default yang memblokir akses mediapartners.

Saya sudah berusaha mengingatkan penulis dari blog yang saya ambil screenshotnya di atas melalui komentar. Tetapi komentar saya dimoderasi dan tidak ditanggapi, dari sini saya sebagai pengunjung yang mencoba berinteraksi, merasa tidak dihargai. Kok jadi curhat

Kembali ke topik, ada banyak sekali robot perayap website. Dalam membuat robots.txt bisa menginstruksikan izin bagi robot tertentu ataupun semua robot. Untuk menginstruksikan perintah bagi seluruh robot / user-agent, maka digunakan kode asterisk (*) untuk mewakili. Contoh: User-agent: * artinya semua robot crawler.

Contoh Penerapannya

Misalnya anda tidak ingin google mengindeks folder beserta semua gambar yang ada anda bisa menggunakan contoh kode berikut (misalnya semua gambar berada pada folder images):

User-agent: Googlebot
Disallow: /images/

Itu jika hanya google saja yang diblok untuk merayapi dan mengindeks gambar, tapi jika ingin melarang semua robot, maka kodenya menjadi seperti ini:

User-agent: *
Disallow: /images/

Namun dengan melarang semua robot, maka fungsi opengraph (facebook) dan twitter card tidak bisa menampilkan gambar dari halaman yang anda bagikan. Maka anda bisa menambahkan robot tertentu untuk diizinkan merayapinya. Contoh:

User-agent: Twitterbot
Disallow: 

Atau:

User-agent: Twitterbot
Allow: /

Sesuaikan sendiri dengan yang anda inginkan untuk menentukan robot yang diizinkan mengakses halaman dan url ataupun direktori (folder) tertentu dari website anda.

SEO

Lisensi Creative Commons DMCA.com Protection Status