Как работают пауки Google

google-girlКак и другие поисковые системы, Google собирает свою базу данных интернет-контента, используя небольшую программу, называемую “пауком”.

Пауки регулярно “ползают” в Интернете, изучая ссылки между страницами и отчетности, которые они находят на компьютерах. Таким образом, Google остается в курсе о местонахождении и содержании многочисленных и постоянно меняющихся сайтов, расположенных в сети. Googlebot постоянно ползает в Интернете, но он может посещать различные веб-сайты с интервалом и совершенно разными частотами.

Googlebot

Пауки Google называются “Googlebot”, которые используются для сканирования сайтов, регистрации информации о находимых сайтах и возврата информации на сервера Google. Чтобы найти сайты, паук Googlebot использует список веб-ресурсов, уже имеющихся в базе данных, и проверяет эти сайты для ссылки на другие источники.

Частота

Googlebot ползает по сети Интернет, и предназначен для регистрации изменений в уже изученных им сайтов как можно быстрее, обычно в течение нескольких секунд. Специальные алгоритмы определяют, как часто Googlebot изучает определенный сайт, похожий на алгоритм PageRank, который определяют ранжирование сайта в результатах поисковой выдачи Google. Страницу со многими другими страницами, ссылающимися на нее, или та, которая часто меняется, ждут более частые визиты паука Googlebot.

Посещение Logging Google

Паук Googlebot посещает сайты так же, как и любой другой пользователь, и поэтому существуют специальные программы, предназначенные специально для мониторинга трафика этого бота. Если у вас есть блог или веб-сайт который работает в рамках WordPress, например, вы можете установить плагин, чтобы следить, как часто Googlebot сканирует ваш сайт.

Блокировка Googlebot

Как и другие пауки, Googlebot запрограммирован, чтобы проверить сервер сайта на текстовый файл с именем “robots.txt”. При изменении содержимого этого файла, вы можете указать Googlebot, игнорировать отдельные страницы, предотвращая возвращения о сведениями, о вас в Google, в этом случае вы можете сохранить страницы, или весь сайт, за пределами списка результатов выдачи поисковика Google. Обратите внимание, на то, что в то время как Googlebot и все респектабельные программы пауки подчиняются таким ограничениям, имеющимся в файле robots.txt это не запрещает паукам, разработанным менее щепетильными программистами от ползания по любы сайтам, которые они могут найти в сети.