Как и другие поисковые системы, Google собирает свою базу данных интернет-контента, используя небольшую программу, называемую "пауком".
Пауки регулярно "ползают" в Интернете, изучая ссылки между страницами и отчетности, которые они находят на компьютерах. Таким образом, Google остается в курсе о местонахождении и содержании многочисленных и постоянно меняющихся сайтов, расположенных в сети.
Пауки Google называются "Googlebot", которые используются для сканирования сайтов, регистрации информации о находимых сайтах и возврата информации на сервера Google. Чтобы найти сайты, паук Googlebot использует список веб-ресурсов, уже имеющихся в базе данных, и проверяет эти сайты для ссылки на другие источники.
Googlebot ползает по сети Интернет, и предназначен для регистрации изменений в уже изученных им сайтов как можно быстрее, обычно в течение нескольких секунд. Специальные алгоритмы определяют, как часто Googlebot изучает определенный сайт, похожий на алгоритм PageRank, который определяют ранжирование сайта в результатах поисковой выдачи Google. Страницу со многими другими страницами, ссылающимися на нее, или та, которая часто меняется, ждут более частые визиты паука Googlebot.
Паук Googlebot посещает сайты так же, как и любой другой пользователь, и поэтому существуют специальные программы, предназначенные специально для мониторинга трафика этого бота. Если у вас есть блог или веб-сайт который работает в рамках WordPress, например, вы можете установить плагин, чтобы следить, как часто Googlebot сканирует ваш сайт.
Как и другие пауки, Googlebot запрограммирован, чтобы проверить сервер сайта на текстовый файл с именем "robots.txt". При изменении содержимого этого файла, вы можете указать Googlebot, игнорировать отдельные страницы, предотвращая возвращения о сведениями, о вас в Google, в этом случае вы можете сохранить страницы, или весь сайт, за пределами списка результатов выдачи поисковика Google. Обратите внимание, на то, что в то время как Googlebot и все респектабельные программы пауки подчиняются таким ограничениям, имеющимся в файле robots.txt это не запрещает паукам, разработанным менее щепетильными программистами от ползания по любы сайтам, которые они могут найти в сети.