4. назначение файла
robots.txt
robots.txt предназначен для ограничения
доступа роботам к сайту.
каждый робот находит свою секцию (если
она есть), а также общую секцию.
Официальный сайт:
http://www.robotstxt.org/, но удобнее
Вебмастер Яндекса.
некоторые «несознательные» роботы не
учитывают robots.txt. Поможет .htaccess
4
6. структура файла
robots.txt
1. Основные поля файла:
User-agent: * (GoogleBot, Yandex)
Allow: <шаблон>
Disallow: <шаблон>
Sitemap: http://www.site.by/sitemap.xml
Crawl-delay: 10
Host: www.site.by
*Поле host является обязательным для
Яндекса
6
7. структура файла
robots.txt
2. Варианты шаблонов для секций Allow и Disallow:
Disallow:
Disallow:
Disallow:
Disallow:
Disallow:
/
/name*
/name
/*.htm$
-
нет запретов
запрет всего сайта
запрет name, name.html, name/…
аналогично предыдущему
запрет всех htm но не html
3. Робот смотрит порядок директив Allow и Disallow
7
8. Различные роботы
Яндекса
'YandexBot' — основной индексирующий робот;
'YandexMedia' — робот, индексирующий мультимедийные данные;
'YandexImages' — индексатор Яндекс.Картинок;
'YandexCatalog' — «простукивалка» Яндекс.Каталога, используется
для временного снятия с публикации недоступных сайтов в
Каталоге;
'YandexDirect' — робот Яндекс.Директа, особым образом
интерпретирует robots.txt;
'YandexBlogs' — робот поиска по блогам, индексирующий посты и
комментарии;
'YandexNews' — робот Яндекс.Новостей;
'YandexPagechecker' — валидатор микроразметки;
‘YandexMetrika’ — робот Яндекс.Метрики;
‘YandexMarket’— робот Яндекс.Маркета;
‘YandexCalendar’ — робот Яндекс.Календаря.
8
10. валидация файла
robots.txt
Использование инструмента Yandex:
http://webmaster.yandex.ru/robots.xml
Использование инструмента Google в панели
Вебмастера.
Анализ логов веб-сервера для проверки IPадресов и юзер-агентов, сканирующих сайт
1
0
12. Подключение
mod_rewrite
Включение механизма mod_rewrite:
RewriteEngine On
RewriteBase /
2. Основные операторы регулярных выражений:
^ (ограничение слева)
+(1 и более символов)
.(любой символ)
( ) (переменная)
$(ограничение справа)
* (0 и более символов)
(экранирование)
[] (диапазон значений)
3. Примеры регулярных выражений:
^page
^page$
^page.+
page*.html
page[1-9].html
^page(.+)
12
13. Переменные окружения
Переменные записываются в виде
%{ИМЯ_ПЕРЕМЕННОЙ}
REQUEST_URI (строка запроса без имени хоста и
параметров запроса)
HTTP_HOST (имя хоста веб-сайта)
REMOTE_ADDR ( IP -адрес посетителя)
т.е. %{REQUEST_URI}
%{HTTP_HOST}
%{REMOTE_ADDR}
13
15. Установка и
подключение sitemap
Для чего нужен sitemap?
быстрая индексация сайта (новых страниц
сайта);
Как сделать sitemap?
вручную или автоматически (www.xmlsitemaps.com)
многие популярные CMS автоматически
могут генерировать sitemap.
Как сообщить ПС о sitemap?
webmaster.yandex.ru (для Яндекса)
google.com/webmasters (для Google)
15
16. Установка и
подключение sitemap
Пример секции файла
sitemap.xml:
<url>
<loc>http://www.relax.by/</loc>
<lastmod>2010-0909T00:00:00+00:00</lastmod>
<changefreq>daily</changefreq>
<priority>1</priority>
</url>
16
17. Транслитерация URLов страниц
Транслитерация — передача одной
письменности средствами другой
письменности;
Автоматическая транслитерация
большинством CMS;
ЧПУ (Человеко-Понятный URL),
названия доменов;
Легко индексируются ПС;
Проверка транслитерации с
помощью запроса к yandex.ru
17