Роботът на търсачката е отговорен за обхождането на уеб страници. Програмата автоматично чете данни от всички сайтове и ги регистрира във форма, която е разбираема за самата търсачка, така че по-късно системата да показва най-подходящите резултати за потребителя.
Функции
Цялата индексирана информация се записва в обща база данни.
Роботът за търсене е програма, която автоматично обикаля страниците на Интернет, като изисква необходимите документи и получава структурата на обходените сайтове. Роботът избира самостоятелно страниците, които да бъдат сканирани. В повечето случаи сайтовете за сканиране се избират на случаен принцип.
Видове ботове
Неправилно функциониращият робот значително увеличава натоварването в мрежата и сървъра, което може да доведе до недостъпност на ресурса.
Всяка търсачка има няколко програми, наречени роботи. Всеки от тях може да изпълнява определена функция. Например в Yandex някои роботи са отговорни за сканирането на RSS емисии новини, което ще бъде полезно за индексиране на блогове. Има и програми, които търсят само снимки. Най-важното обаче е ботът за индексиране, който формира основата за всяко търсене. Има и спомагателен бърз робот, предназначен да търси актуализации на новинарски емисии и събития.
Процедура за сканиране
Друг начин за предотвратяване на обхождането на съдържание е създаването на достъп до сайта чрез панела за регистрация.
При посещение на сайта програмата сканира файловата система за наличие на файлове с инструкции robots.txt. Ако има документ, започва четенето на директивите, записани в документа. Robots.txt може да забрани или, обратно, да позволи сканиране на определени страници и файлове на сайта.
Процесът на сканиране зависи от вида на програмата. Понякога роботите четат само заглавията на страниците и няколко абзаца. В някои случаи сканирането се извършва в целия документ в зависимост от HTML маркирането, което може да работи и като средство за посочване на ключови фрази. Някои програми са специализирани в скрити или мета тагове.
Добавяне към списъка
Всеки уебмастър може да попречи на търсачката да обхожда страници чрез robots.txt или META тага. Също така създателят на сайта може ръчно да добави сайта към опашката за индексиране, но добавянето му не означава, че роботът веднага ще обходи желаната страница. За да добавите сайт към опашката, търсачките предоставят и специални интерфейси. Добавянето на сайт значително ускорява процеса на индексиране. Също така за бърза регистрация в търсачка могат да се използват системи за уеб анализ, директории на сайтове и др.