GVMproject.info-бесплатные программы, скрипты, шаблоны
Управление индексацией

Управление индексацией

Есть два пути влияния на роботов поисковых машин - это файл robots.txt и META тег ROBOTS. Оба инструмента не являются средством защиты информации от несанкционированного доступа - это всего лишь предписания роботам поисковых машин.

   Единственное,что может делать файл robots.txt - это закрывать от индексации файлы и каталоги, но делать он это может выборочно, ориентируясь на имена роботов поисковых машин.

Если проект предназначен для индексации поисковыми машинами, присутствие файла robots.txt в каталоге “www”сервера обязательно. Некоторые поисковые машины производит индексацию только при наличии файла robots.txt . Закрывать от индексации имеет смысл скрипты, архивы, графические файлы.

Имя файла robots.txt должно состоять из строчных букв. Файл robots.txt должен находится в каталоге “www”.Файл с именем robots.txt , находящийся в других каталогах, будет проигнорирован.

Если проект не предназначен для индексации поисковыми машинами, файл robots.txt можно использовать для полного запрета индексации сервера, хотя это только рекомендация.

Файл robots.txt формируется из записей, по две строки в каждой. Первая строка содержит имя робота, вторая -перечень закрытых каталогов. Регистр (большие, маленькие буквы) имеет значение только для URI описываемых в строке Disallow. Строки должны быть разделены одной или несколькими пустыми строками.

Также в файле robots.txt возможно использование строк комментариев - они должны начинаться с символа #.

Пример - запись, которая ничего не запрещает:

 

# Пример, который разрешает все

 

User-agent: *      # относится ко всем роботам

 

Disallow: # никаких запретов

 

   Звездочка в строке User-agent говорит, что эта запись относится ко всем роботам. Строка Disallow не содержит записей, что означает отсутствие запретов.

 

Пример записи, запрещающей всё и всем:

 

User-agent: *

 

Disallow: /

 

Первая строка говорит, что данная рекомендация относится ко всем роботам. Вторая строка блокирует (рекомендательно) доступ ко всем каталогам сервера.

В строке User-agent вместо звездочки могут быть указаны имена конкретных роботов через пробел. Тогда запрет для роботов Scooter, Spidey и T-Rex будет выглядеть так:

 

User-agent: Scooter Spidey T-Rex

 

Disallow: /

  

Пример запрета индексации файлов в служебных каталогах:

 

User-Agent: *

 

Disallow: /cgi-bin/ /img/ /news/img/

 

   Каталоги перечисляются через пробел, возможно и построчное перечисление (старый стандарт).

 

User-Agent: *

 

Disallow: /cgi-bin/

 

 

Disallow: /img/

 

Disallow: /news/img/

 

Файл robots.txt может содержать несколько записей как для одного, так и для разных роботов.

   METAтег ROBOTS может управлять индексацией только страницы, в которой он описан.

Значение свойства Robots (METAтега ROBOTS) может  состоять из следующих директив, разделенных запятыми:

 

Index                  - эта страница должна быть индексирована.

                                      Noindex           - эта страница не должна индексироваться.

                                      Follow             - прослеживать гиперссылки на странице.

                                      Nofollow         - не прослеживать гиперссылки на странице.

                                      All                   - = index, follow (принято по умолчанию).

                                      None               - = noindex, nofollow.

 

 

Тег ничего не меняет в работе робота поисковой машины,так как значение "all" принято по умолчанию.

 

Но если эта страница создается динамически или очень часто обновляется, то нет смысла ее индексировать, таккак информация о странице в поисковой машине и ее истинное содержание будут разными. В этом случае можно рекомендовать поисковой машине не индексироватьэту страницу, а только отслеживать на ней гиперссылки, что бы проиндексировать остальную часть сайта .

При использовании тега, запрещающего отслеживание гиперссылок часть сайта может остаться не проиндексированной, так как внутри сайта роботы перемещаются по гиперсылкам. И те страницы, переход на которые заблокирован, роботы найти не смогут.

META тег Robots имеет приоритет над директивами управления, заданными в файле robots.txt. То есть, если в директиве управления в файле robots.txt разрешают индексировать все файлы в каталоге, то блокирующий META тег ROBOTS может запретить индексирование страницы, находящейся в этом каталоге. Обратное не возможно, так как робот просто не узнает, что рекомендует  METAтег странички в заблокированном каталоге.

Не все роботы воспринимают директивы META тега ROBOTS в полном объеме. В основном возникают проблемы с директивами Follow и Nofollow.


Страниц : 1
TEXT +   TEXT -   Печать Опубликовано : 08.12.08 | Просмотров : 4704 | Ваша оценка

Введите слово для поиска :
Популярные файлы
- скрипт форума phpBB2
- Скрипт MLM пирамиды
- Nvu 1.0 визуальный редактор
- Java скрипты
- auto URL submit программа для регистрации сайта в каталогах
- PHP скрипт обменного пункта
 
Популярные статьи
- учебник вебмастеру
- Руководство по html
- Cascading Style Sheets (Таблицы Каскадных Стилей)
- Дорвеи и поисковые системы.
- Клоакинг
 
Реклама

##
##
##
 
Услуги
 
статистика
Поздравления с Новым годом

Яндекс.Метрика
 
RSS

 
В начало страницы © 2018 www.gvmproject.info CMS Danneo (некоммерческий продукт) - это бесплатная, c открытым исходным кодом система управления сайтами. Разработана на языке программирования PHP и может работать почти на любой платформе(хостинг площадке), используя в качестве базы данных MySQL. Поддерживает SEO-frendly, RSS 2.0 - каналы и Yandex-news, Google SiteMap, экспорт контента с помощью JavaScript и многое другое. А базовая комплектация позволяет построить сайт почти любой сложности и дизайна и эффективно им управлять.Распространяется в соответствии с GNU General Public 2