Интеграктивный рейтинг сайтов на основе BIG DATA
понедельник - пятница с 10:00 до 18:00
О компанииNetPromoter - инновационная технологическая компания-разработчик программных решений в области кибермаркетинга. Компания основана в 1999 году и специализируется на разработке индивидуальных решений в области продвижения, мониторинга и анализа ресурса. За время существования компании был накоплен огромный опыт работы, результатом которого стало создание комплекса программного обеспечения и услуг Page Promoter. Высокий профессиональный уровень наших сотрудников в сочетании с самыми передовыми технологиями позволяет гарантировать нашим клиентам полную отдачу вложенных средств, а также неизменное качество и эффективность предложенных услуг. | Составление файла robots.txtГлавная / Продвижение сайта / SEO Статьи / Поисковые роботы / Составление файла robots.txtКак известно, файл robots.txt используется для запрета индексации части или всего сайта всевозможными роботами. Правильное составление этого файла позволит избежать индексации документов, для индексации не предназначенных. Формат файла robots.txtRobots.txt — простой текстовый файл1, который должен находиться в корневой директории сервера. Имя файла должно быть в нижнем регистре (ROBOTS.TXT, Robots.txt — неправильно). В файле содержатся записи, отделяемые одной или несколькими пустыми строками (разделяемыми CR, CRNL, NL или r, rn, n). Каждая запись, в свою очередь, состоит из строк следующего вида:
Поле является нечувствительным к регистру (case insensitive). Каждая запись начинается одной или несколькими строками, где имя_поля=User-agent, после чего следует одна или несколько строк, где имя_поля=Disallow, имена полей, которые отличаются от двух указанных, игнорируются2. Знак «#» означает, что пробелы перед ним и все символы до конца строки являются комментарием. Строки, содержащие только комментарий, игнорируются и не могут использоваться для разделения записей. User-agent
Disallow
Практика
В процессе обработки сайта роботы имеют массив ссылок для посещения и набор правил исключения из файла robots.txt. Для каждой ссылки выделяется путь (http://www.site.com /path/to/file.html), после чего к этому пути применяются по очереди правила исключения. Пусть в файле есть строка Disallow: /path/to , она сравнивается с соответствующей подстрокой ссылки:
Чтобы запретить роботу посещение динамических страниц, можно использовать частичный путь. Например, чтобы запретить посещение страниц для печати вида http://www.site.com/index.php?action=print&id=1, но разрешить посещение страниц вида http://www.site.com/index.php?action=view&id=1, необходимо в robots.txt написать следующее: Пример файла robots.txt
Следует заметить, что файл robots.txt не является панацеей, так как его правила исключения используют только «культурные» роботы, а наряду с ними существует целый список роботов, сервисов и программ, которые не следуют правилам исключения, либо игнорируют существование файла robots.txt на сайте. Кроме этого в файл исключений не стоит добавлять пути к файлам, о существовании которых не следует знать посторонним людям. Файл robots.txt доступен всем, поэтому присутствие там строк, вроде Disallow: /admin , только подзадорит некоторых посетителей к совершению вредоносных действий. Примечания 1. В некоторых случаях используется динамическое формирование файла robots.txt, для сайтов с зеркалами. 2. Некоторые системы поддерживают дополнительные поля. Яндекс, например, использует поле Host для определения основного зеркала сайта.
3. Некоторые системы разрешают использование регулярных выражений. Так Гугл, который имеет поиск по изображениям, файлам PDF и другим, поддерживает в поле Disallow символы «*» (любая последовательность символов) и «$» (окончание строки ссылки). Это позволяет запретить индексирование определенного типа файлов:
По мнению автора это избыточное расширение, так как с тем же успехом можно вынести все документы PDF в отдельный каталог и запретить его индексирование: Автор: Владимир Чернышов aka Cherny Источник: | |||||||||||