Делаем грамотно robots.txt
Файл Robots.txt - располагается в корневой папке сайта (например, site.ru/robots.txt). Он нужен исключительно для правильной индексации сайта поисковыми системами. Обычному пользователю всё равно, что там написано.
Основные возможности robots.txt:
· закрывать от индексации страницы (разделы сайта)
· указывать зеркало сайта
· указывать host
· указывать ссылку на xml-карту сайта
Давайте для примера создадим файл robots.txt для Яндекса:
User-agent: YandexDisallow: /cgi-binHost: www.VASH-SITE.ru Sitemap: http://www.VASH-SITE.ru/sitemap.xmlЕсли бы мы создавали файл robots.txt для Google, то нужно было написать:
User-agent: GooglebotDisallow: /cgi-binHost: www.VASH-SITE.ru Sitemap: http://www.VASH-SITE.ru/sitemap.xmlЧтобы учесть всех поисковых роботов, нужно прописать так:
User-agent: *Disallow: /cgi-binHost: www.VASH-SITE.ru# здесь можно написать комментарийSitemap: http://www.VASH-SITE.ru/sitemap.xmlТеперь поясню, что мы прописали выше.
Disallow: /cgi-bin - говорит о том, что поисковые роботы не должны индексировать все содержимое папки cgi-bin. Например, документ www.VASH-SITE.ru/cgi-bin/1.html или www.VASH-SITE.ru/cgi-bin/papka/1.html - не будут проиндексированы. Однако, Google может отходить от данного правила, поскольку он воспринимает это лишь как рекомендацию.
Host: www.VASH-SITE.ru - указывается главное зеркало Вашего сайта. Например, я не люблю прописывать www и на всех своих сайтах прописываю host без www. Если Вы напишите несколько host-ов, то использоваться будет первый. См. какой вариант выбрать: сайт с www или без www
http://www.VASH-SITE.ru/sitemap.xml - указывается карта сайта в формате xml. Данный формат поисковые системы воспринимают очень хорошо, поэтому владельцам движков стоит использовать такую карту сайта. Для владельцев статических сайтов прописывать все в формате xml я не вижу смысла. См. как создать карту сайта
# - является признаком начала комментария. Распространяется только на одну строчку.
Использование * в robots.txt
По умолчанию в конце каждого правила автоматически добавляется "*", однако иногда бывает важно конкретизировать что-то.
1. В данном примере все файлы, которые содержатся в папке (и подпапках) /php-script и имеют расширения .php не будут проиндексированы.
2. Все папки, которые имеют название lichnoe, запрещены к индексации. Т.е. папки /articles/lichnoe, /2011/lichnoe, /lichnoe - будут запрещены к индексации.
Использование $ в robots.txt
User-agent: YandexDisallow: /primer$В данном случае будет запрещена индексация /primer, но /primer.php - разрешен.
Файл robots.txt является открытой информацией для каждого. Любой пользователь может посмотреть его по адресу сайта с окончанием robots.txt: site.ru/robots.txt
Дата добавления: 2016-03-10; просмотров: 650;