Karamihan sa mga napapanahong mga blogger ay tiyak na alam kung ano ang robots.txt at kung bakit kailangan mo ang file na ito. Ngunit ilang mga may-akda ang agad na nagmamadali upang lumikha ng isang robots.txt file pagkatapos mag-install ng isang blog sa WordPress.
Ang Robots.txt ay isang text file na na-upload sa root direktoryo ng iyong site at naglalaman ng mga tagubilin para sa mga crawler. Ang pangunahing layunin ng paggamit nito ay upang pagbawalan ang pag-index ng mga indibidwal na pahina at seksyon sa site. Gayunpaman, gamit ang robots.txt, maaari mo ring tukuyin ang tamang mirror ng domain, inireseta ang landas sa sitemap, at mga katulad nito.
Karamihan sa mga modernong search engine ay natutunan na mag-navigate nang maayos sa sikat na CMS at karaniwang huwag subukang i-index ang nilalaman na hindi inilaan para dito. Halimbawa, hindi i-index ng Google ang iyong lugar ng admin sa WordPress blog kahit na hindi mo ito tinukoy nang direkta sa robots.txt. Gayunpaman, sa ilang mga kaso, ang paggamit ng mga direktang pagbabawal ay maaaring maging kapaki-pakinabang pa rin. At pangunahing sinasabi namin ang tungkol sa pagbabawal ng dobleng nilalaman.
Ang ilang mga webmaster ay hanggang sa ipinagbabawal ang pag-index ng kategorya at mga pahina ng tag, dahil ang kanilang nilalaman ay bahagyang dinoble ang nilalaman ng pangunahing pahina. Ngunit ang karamihan ay limitado sa pagbabawal ng mga trackback at feed page, na ganap na doble ng nilalaman ng artikulo at hindi inilaan para sa mga search engine. Ang nasabing pag-iingat ay hindi lamang gagawing "mas malinis" sa mga resulta ng site, ngunit mai-save ka din mula sa mga posibleng pagsala sa paghahanap, lalo na pagkatapos ng pagpapakilala ng bagong algorithm ng Google Panda.
Narito ang mga inirekumendang direktibo para sa isang robots.txt file (gagana ito para sa halos anumang blog sa WordPress):
User-Agent: * Tanggalin: /wp-login.php Tanggalin: /wp-register.php Tanggalin: /xmlrpc.php Tanggalin: / wp-admin Tanggalin: / wp-kasama ang Tanggalin: / wp-nilalaman / mga plugin Tanggalin: / wp-content / cache Tanggalin: / wp-content / mga tema Hindi Papayag: / trackback / Tanggalin: / feed / Tanggalin: * / trackback / Tanggalin: * / feed /
Mangyaring tandaan na sa robots.txt ang mga folder ng administratibong wp-admin at kasama ang wp ay ganap na sarado para sa pag-index. Ang folder ng nilalaman na wp ay bahagyang sarado lamang, dahil naglalaman ito ng direktoryo ng mga pag-upload, na naglalaman ng lahat ng mga imahe mula sa iyong blog na dapat na na-index.
Ang kailangan mo lang gawin ay kopyahin ang mga direktiba mula sa nasa itaas na code (tandaan na ang bawat direktiba ay dapat na nakasulat sa isang bagong linya), i-save ang mga ito sa isang text file na tinatawag na robots.txt, at i-upload ang mga ito sa root direktoryo ng iyong site.
Maaari mong laging suriin kung gumagana nang tama ang robots.txt sa pamamagitan ng mga interface ng Google Webmaster at mga interface ng Yandex Webmaster.