Paano Gumawa Ng Isang Robot Txt File

Talaan ng mga Nilalaman:

Paano Gumawa Ng Isang Robot Txt File
Paano Gumawa Ng Isang Robot Txt File

Video: Paano Gumawa Ng Isang Robot Txt File

Video: Paano Gumawa Ng Isang Robot Txt File
Video: How to Add a Robots.txt File 2024, Mayo
Anonim

Ang isa sa mga tool para sa pamamahala ng pag-index ng mga site sa pamamagitan ng mga search engine ay ang robots.txt file. Pangunahin itong ginagamit upang maiwasan ang lahat o ang ilang mga robot lamang mula sa pag-download ng nilalaman ng ilang mga pangkat ng pahina. Pinapayagan kang alisin ang "basura" sa mga resulta ng search engine at, sa ilang mga kaso, makabuluhang pagbutihin ang pagraranggo ng mapagkukunan. Mahalagang magkaroon ng tamang file ng robots.txt para sa matagumpay na aplikasyon.

Paano gumawa ng isang robot txt file
Paano gumawa ng isang robot txt file

Kailangan

text editor

Panuto

Hakbang 1

Gumawa ng isang listahan ng mga robot kung saan itatakda ang mga espesyal na patakaran sa pagbubukod o mga direktiba ng pinalawig na pamantayan ng robots.txt, pati na rin ang hindi pamantayan at tukoy na mga direktiba (mga extension ng isang tukoy na search engine) na gagamitin. Ipasok sa listahang ito ang mga halaga ng mga patlang ng User-Agent ng mga header ng paghiling ng HTTP na ipinadala ng mga napiling robot sa server ng site. Ang mga pangalan ng mga robot ay maaari ding matagpuan sa mga seksyon ng sanggunian ng mga site ng search engine.

Hakbang 2

Piliin ang mga pangkat ng mga URL ng mga mapagkukunan ng site kung aling pag-access ang dapat tanggihan sa bawat isa sa mga robot sa listahan na naipon sa unang hakbang. Gawin ang parehong operasyon para sa lahat ng iba pang mga robot (isang hindi tiyak na hanay ng mga bot ng pag-index). Sa madaling salita, ang resulta ay dapat na maraming mga listahan na naglalaman ng mga link sa mga seksyon ng site, mga pangkat ng mga pahina o mapagkukunan ng nilalaman ng media na ipinagbabawal sa pag-index. Ang bawat listahan ay dapat na tumutugma sa ibang robot. Dapat ding magkaroon ng isang listahan ng mga ipinagbabawal na URL para sa lahat ng iba pang mga bot. Gumawa ng mga listahan batay sa paghahambing ng lohikal na istraktura ng site sa pisikal na lokasyon ng data sa server, pati na rin sa pagpapangkat ng mga URL ng mga pahina ayon sa ang kanilang mga katangian ng pag-andar. Halimbawa, maaari mong isama sa tanggihan ang mga listahan ng mga nilalaman ng anumang mga katalogo ng serbisyo (naka-grupo ayon sa lokasyon) o lahat ng mga pahina ng profile ng gumagamit (naka-grupo ayon sa layunin).

Hakbang 3

Piliin ang mga palatandaan ng URL para sa bawat mapagkukunan na nilalaman sa mga listahan na naipon sa ikalawang hakbang. Kapag pinoproseso ang mga listahan ng pagbubukod para sa mga robot na gumagamit lamang ng karaniwang mga robots.txt na direktibo at hindi natukoy na mga robot, i-highlight ang natatanging mga bahagi ng URL ng maximum na haba. Para sa natitirang mga hanay ng mga address, maaari kang lumikha ng mga template alinsunod sa mga pagtutukoy ng mga tukoy na mga search engine.

Hakbang 4

Lumikha ng isang robots.txt file. Magdagdag ng mga pangkat ng mga direktiba dito, na ang bawat isa ay tumutugma sa isang hanay ng mga nagbabawal na panuntunan para sa isang tukoy na robot, na ang listahan ay naipon sa unang hakbang. Ang huli ay dapat sundan ng isang pangkat ng mga direktiba para sa lahat ng iba pang mga robot. Paghiwalayin ang mga pangkat ng panuntunan na may isang solong blangko na linya. Ang bawat ruleset ay dapat magsimula sa isang direktiba ng User-agent na kinikilala ang robot, na sinusundan ng isang direktang Disallow, na nagbabawal sa mga pangkat ng URL sa pag-index. Gawin ang mga linya na nakuha sa pangatlong hakbang na may mga halaga ng mga hindi direktang pahintulot. Paghiwalayin ang mga direktiba at ang mga kahulugan nito sa isang colon. Isaalang-alang ang sumusunod na halimbawa: User-agent: YandexDisallow: / temp / data / imahe / User-agent: * Huwag payagan: / temp / data / Ang hanay ng mga direktiba na ito ay nagtuturo sa pangunahing robot ng Ang search engine ng Yandex ay hindi i-index ang URL. Na naglalaman ng substring / temp / data / mga imahe /. Pinipigilan din nito ang lahat ng iba pang mga robot mula sa pag-index ng mga URL na naglalaman ng / temp / data /.

Hakbang 5

Karagdagan ang robots.txt na may pinalawig na karaniwang mga direktiba o tukoy na mga direktiba sa search engine. Ang mga halimbawa ng mga naturang direktiba ay: Host, Sitemap, Request-rate, Visit-time, Crawl-delay.

Inirerekumendang: