1. wfedin - 15 января 2010 — 18:05 - перейти к сообщению
Сильно не пинать, набирал в поске robots.txt без результата. Мог бы кто обьяснить как его правильно написать для форума, а лучше выложить уже написанный и прилепить его FAQ
2. wfedin - 16 января 2010 — 17:21 - перейти к сообщению
3. Леголегс - 13 марта 2010 — 19:16 - перейти к сообщению
Апнем тему.
Я тут решил составить "идеальный" robots.txt раз и навсегда. Получилось вот такое:
Делалось для форума на своём домене. Если ваш форум в поддиректории forum - везде исправьте /messenger.php на /forum/messenger.php и т.д.
Задачи, решаемые этим robots.txt: минимизация никому не интересных вещей в выдаче (например, отлупы незареганым), минимизация слишком динамических вещей, минимизация дублирования инфы. Задача продвижения в результатах не стояла.
Какие-то вопросы/коменты/исправления?
Заранее скажу: / и /index.php - одинаковые, так что одну надо выкинуть. Тоже самое касается
/forums.php?forum=*&p=1$ и /forums.php?forum=*$
/tools.php?action=members&s=&order=ASC&p=1$ и
/tools.php?action=members$
/topic.php?forum=*&topic=*&p=1$ и /topic.php?forum=*&topic=*$
Отдельно надо упомянуть /topic.php?forum=*&topic=*&postid= и /topic.php?forum=*&topic=*&v=l - они страшно замусоривают выдачу.
Правила форума на подопечном ресурсе свои, так что они не исключены из выдачи. Если кому надо -
Я тут решил составить "идеальный" robots.txt раз и навсегда. Получилось вот такое:
CODE:
User-agent: *
Disallow: /admincenter.php
Disallow: /forums.php?action=markall
Disallow: /index.php?c=
Disallow: /loginout.php
Disallow: /messenger.php
Disallow: /postings.php
Disallow: /post.php
Disallow: /printpage.php
Disallow: /profile.php?action=lostpassword
Disallow: /register.php
Disallow: /search.php
Disallow: /set*.php
Disallow: /tools.php?action=chat
Disallow: /tools.php?action=mail
Disallow: /tools.php?action=online
Disallow: /tools.php?action=preport
Disallow: /tools.php?action=smiles
Disallow: /tools.php?action=threadstop
Disallow: /index.php$
Disallow: /forums.php?forum=*&p=1$
Disallow: /tools.php?action=members&s=&order=ASC&p=1$
Disallow: /topic.php?forum=*&topic=*&p=1$
Disallow: /topic.php?forum=*&topic=*&postid=
Disallow: /topic.php?forum=*&topic=*&v=l
Disallow: /admincenter.php
Disallow: /forums.php?action=markall
Disallow: /index.php?c=
Disallow: /loginout.php
Disallow: /messenger.php
Disallow: /postings.php
Disallow: /post.php
Disallow: /printpage.php
Disallow: /profile.php?action=lostpassword
Disallow: /register.php
Disallow: /search.php
Disallow: /set*.php
Disallow: /tools.php?action=chat
Disallow: /tools.php?action=mail
Disallow: /tools.php?action=online
Disallow: /tools.php?action=preport
Disallow: /tools.php?action=smiles
Disallow: /tools.php?action=threadstop
Disallow: /index.php$
Disallow: /forums.php?forum=*&p=1$
Disallow: /tools.php?action=members&s=&order=ASC&p=1$
Disallow: /topic.php?forum=*&topic=*&p=1$
Disallow: /topic.php?forum=*&topic=*&postid=
Disallow: /topic.php?forum=*&topic=*&v=l
Делалось для форума на своём домене. Если ваш форум в поддиректории forum - везде исправьте /messenger.php на /forum/messenger.php и т.д.
Задачи, решаемые этим robots.txt: минимизация никому не интересных вещей в выдаче (например, отлупы незареганым), минимизация слишком динамических вещей, минимизация дублирования инфы. Задача продвижения в результатах не стояла.
Какие-то вопросы/коменты/исправления?
Заранее скажу: / и /index.php - одинаковые, так что одну надо выкинуть. Тоже самое касается
/forums.php?forum=*&p=1$ и /forums.php?forum=*$
/tools.php?action=members&s=&order=ASC&p=1$ и
/tools.php?action=members$
/topic.php?forum=*&topic=*&p=1$ и /topic.php?forum=*&topic=*$
Отдельно надо упомянуть /topic.php?forum=*&topic=*&postid= и /topic.php?forum=*&topic=*&v=l - они страшно замусоривают выдачу.
Правила форума на подопечном ресурсе свои, так что они не исключены из выдачи. Если кому надо -
CODE:
Disallow: /tools.php?action=rules
4. alexx - 13 марта 2010 — 21:56 - перейти к сообщению
Думаю, нужно оставить, то что относится к контекту форума.
Остальное нафиг с пляжа.
(Добавление)
Вот попались рекомендации для другого движка
Думаю, что надо и по нашему движку написать "идеальный" вариант.
Остальное нафиг с пляжа.
(Добавление)
Вот попались рекомендации для другого движка
Цитата:
В случае с форумом PhpBB рекомендуется закрыть от индексации поисковиков всё кроме /viewforum.php и /viewtopic.php.
Создайте файл robots.txt и сохраните в нём следующий код.
User-agent: *
Disallow: /admin/
Disallow: /cache/
Disallow: /db/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /templates/
Disallow: /extension.php
Disallow: /news.php
Disallow: /common.php
Disallow: /config.php
Disallow: /faq.php
Disallow: /friend.php
Disallow: /groupcp.php
Disallow: /login.php
Disallow: /memberlist.php
Disallow: /modcp.php
Disallow: /posting.php
Disallow: /privmsg.php
Disallow: /profile.php
Disallow: /search.php
Disallow: /viewonline.php
Disallow: /watched.php
Disallow: /index.php?c=
Создайте файл robots.txt и сохраните в нём следующий код.
User-agent: *
Disallow: /admin/
Disallow: /cache/
Disallow: /db/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /templates/
Disallow: /extension.php
Disallow: /news.php
Disallow: /common.php
Disallow: /config.php
Disallow: /faq.php
Disallow: /friend.php
Disallow: /groupcp.php
Disallow: /login.php
Disallow: /memberlist.php
Disallow: /modcp.php
Disallow: /posting.php
Disallow: /privmsg.php
Disallow: /profile.php
Disallow: /search.php
Disallow: /viewonline.php
Disallow: /watched.php
Disallow: /index.php?c=
Думаю, что надо и по нашему движку написать "идеальный" вариант.
5. Zeg - 14 марта 2010 — 01:21 - перейти к сообщению
Леголегс пишет:
Кроме того, тут уже упоминалось, что с символом $ надо осторожнее.
Специально полистал доки, проблем с * и $ ни у Яндекса, ни у Гугла быть не должно, т.к. эти символы и там, и там описаны, как рекомендованные к применению. До остальных искалок как-то дела нет, но думаю дела там не хуже обстоят.
Как гугл попадает - хез, но попадает же...
(Добавление)
С Гугла:
Цитата:
Чтобы задать соответствие конечных символов URL-адреса, используйте символ $. Например, чтобы заблокировать доступ к URL, оканчивающемуся на .xls, используйте следующие строки:
CODE:
User-agent: Googlebot
Disallow: /*.xls$
Disallow: /*.xls$
С Яндекса:
Цитата:
Использование спецсимволов "*" и "$".
При указании путей директив Allow-Disallow можно использовать спецсимволы '*' и '$', задавая, таким образом, определенные регулярные выражения. Спецсимвол '*' означает любую (в том числе пустую) последовательность символов. Примеры:
Спецсимвол '$'.
По умолчанию к концу каждого правила, описанного в robots.txt, приписывается '*', например:
чтобы отменить '*' на конце правила, можно использовать спецсимвол '$', например:
При указании путей директив Allow-Disallow можно использовать спецсимволы '*' и '$', задавая, таким образом, определенные регулярные выражения. Спецсимвол '*' означает любую (в том числе пустую) последовательность символов. Примеры:
CODE:
User-agent: Yandex
Disallow: /cgi-bin/*.aspx # запрещает '/cgi-bin/example.aspx'
# и '/cgi-bin/private/test.aspx'
Disallow: /*private # запрещает не только '/private',
# но и '/cgi-bin/private'
Disallow: /cgi-bin/*.aspx # запрещает '/cgi-bin/example.aspx'
# и '/cgi-bin/private/test.aspx'
Disallow: /*private # запрещает не только '/private',
# но и '/cgi-bin/private'
Спецсимвол '$'.
По умолчанию к концу каждого правила, описанного в robots.txt, приписывается '*', например:
CODE:
User-agent: Yandex
Disallow: /cgi-bin* # блокирует доступ к страницам
# начинающимся с '/cgi-bin'
Disallow: /cgi-bin # то же самое
Disallow: /cgi-bin* # блокирует доступ к страницам
# начинающимся с '/cgi-bin'
Disallow: /cgi-bin # то же самое
чтобы отменить '*' на конце правила, можно использовать спецсимвол '$', например:
CODE:
User-agent: Yandex
Disallow: /example$ # запрещает '/example',
# но не запрещает '/example.html'
Disallow: /example$ # запрещает '/example',
# но не запрещает '/example.html'
CODE:
User-agent: Yandex
Disallow: /example # запрещает и '/example',
# и '/example.html'
Disallow: /example # запрещает и '/example',
# и '/example.html'
CODE:
User-agent: Yandex
Disallow: /example$ # запрещает только '/example'
Disallow: /example*$ # так же, как 'Disallow: /example'
#запрещает и /example.html и /example
Disallow: /example$ # запрещает только '/example'
Disallow: /example*$ # так же, как 'Disallow: /example'
#запрещает и /example.html и /example
6. Zeg - 31 марта 2010 — 21:58 - перейти к сообщению
Проанализировал статистику по 5 разным форумам и их индексации в Яндексе. На тех форумах, которые Яндекс не любит особо часто посещать и вдаваться в дебри вот эти строки не рекомендованы:
По логике - они верны, т.е. "отсекаются" дубли страниц, которые искалки серьезные (аля Гугл) не приветствуют. Т.е., к примеру,адреса мой.сайт/forums.php?forum=1&p=1 и мой.сайт/forums.php?forum=1 идентичны. И это плохо.
Но! Яндекс же не всегда поддаётся логике, поэтому, дальше страницы 1, т.е. с &p=1 он почему-то не идет, хотя на другие страницы явно есть ссылки (даже с той же первой страницы без &p=1). И эти страницы с параметром тоже в индекс не добавляет, т.к. они запрещены в robots-е. Почему так себя ведет Яндекс - понять нельзя.
Еще нужно добавить в robots.txt вот такую строку:
Яндекс на вложениях тоже иногда такую "дурь" выкидывает, страх.
А вот строку со ссылкой на "Рейтинг популярных тем":
я бы в robots.txt не писал. Наоборот с этой страницы масса ссылок на популярные и последние темы. Перелинковка здоровская!
зы. Раньше уже писал, нужно ссылки на последние сообщения форумов и подфорумов привести в "божеский" вид, т.е. они вот такие ваш.сайт/forum/topic.php?forum=ХХ&topic=Н&v=l#12345678 и, в соответствии с robots.txt, просто запрещены к индексации. Для тех, кто хочет это сделать самостоятельно, инструкиция под спойлером ниже.
CODE:
Disallow: /forums.php?forum=*&p=1$
Disallow: /tools.php?action=members&s=&order=ASC&p=1$
Disallow: /topic.php?forum=*&topic=*&p=1$
Disallow: /tools.php?action=members&s=&order=ASC&p=1$
Disallow: /topic.php?forum=*&topic=*&p=1$
По логике - они верны, т.е. "отсекаются" дубли страниц, которые искалки серьезные (аля Гугл) не приветствуют. Т.е., к примеру,адреса мой.сайт/forums.php?forum=1&p=1 и мой.сайт/forums.php?forum=1 идентичны. И это плохо.
Но! Яндекс же не всегда поддаётся логике, поэтому, дальше страницы 1, т.е. с &p=1 он почему-то не идет, хотя на другие страницы явно есть ссылки (даже с той же первой страницы без &p=1). И эти страницы с параметром тоже в индекс не добавляет, т.к. они запрещены в robots-е. Почему так себя ведет Яндекс - понять нельзя.
Немного оффтоп. Юра, есть смысл вообще на уровне движка избавится от дублей таких страниц, т.е. сразу при генерации на странице ссылок очень хорошо бы отбрасывать этот параметр (&p=1) за ненадобностью. Леголегс об этом писАл раньше.
Еще нужно добавить в robots.txt вот такую строку:
CODE:
Disallow: /forum/printfile.php?action=attach*
Яндекс на вложениях тоже иногда такую "дурь" выкидывает, страх.
А вот строку со ссылкой на "Рейтинг популярных тем":
CODE:
Disallow: /tools.php?action=threadstop
я бы в robots.txt не писал. Наоборот с этой страницы масса ссылок на популярные и последние темы. Перелинковка здоровская!
зы. Раньше уже писал, нужно ссылки на последние сообщения форумов и подфорумов привести в "божеский" вид, т.е. они вот такие ваш.сайт/forum/topic.php?forum=ХХ&topic=Н&v=l#12345678 и, в соответствии с robots.txt, просто запрещены к индексации. Для тех, кто хочет это сделать самостоятельно, инструкиция под спойлером ниже.
Инструкция (Отобразить)
7. Zeg - 1 апреля 2010 — 23:05 - перейти к сообщению
Хочу немного добавить. В посте выше была строка:
Если есть в robots.txt разделение по ботам (искалкам), то эту строку можно вписать только для Яндекса. Другие боты у меня ни разу туда не забредали и не пытались индексировать содержимое аттачей, ужатых архиватором (!!!).
CODE:
Disallow: /forum/printfile.php?action=attach*
Если есть в robots.txt разделение по ботам (искалкам), то эту строку можно вписать только для Яндекса. Другие боты у меня ни разу туда не забредали и не пытались индексировать содержимое аттачей, ужатых архиватором (!!!).
8. Zeg - 13 апреля 2010 — 11:36 - перейти к сообщению
Продолжил эксперименты с robots.txt на "не популярных" у Яндекса форумах, описанные выше (разрешил Яндексу индексировать печатную версию форума, страницы с &p=1 и убрал все ссылки с &v=l.
Итогом более чем доволен. Более 3-х месяцев Яндекс в упор не хотел индексировать форум (несколько десятков страниц, да и те, то попадут в индекс, то исчезнут) со старым, а тут при первом же апе индекса всего ночь в индексе оказалось около 4500 страниц! Вернее робот ходил нормально, но в индекс не попадали страницы (ниже об этом). Параллельно собирал статистику по роботам. Яндекс как и ранее, топтался по подопытнм форумам (и сайтам) весьма активно, но не более и не менее чем обычно.
Остальные роботы вели все это время себя вполне адекватно и подобных Яндексу "коников" не отмачивали.
Так же были изменены meta-теги и title страниц в хедере, дабы отображать реальные данные (это где-то тоже было описано на этом форуме).
Для пытливых умов - никаких фильтров и санкций к подопытным форумам со стороны Яндекса применено не было (которые якобы могли сейчас снять). По крайней мере так отвечтил саппорт в лице Платона .
Также в robots добавил строку:
Ибо роботам, ИМХО, там делать нечего.
зы. Тесты продолжаются.
Итогом более чем доволен. Более 3-х месяцев Яндекс в упор не хотел индексировать форум (несколько десятков страниц, да и те, то попадут в индекс, то исчезнут) со старым, а тут при первом же апе индекса всего ночь в индексе оказалось около 4500 страниц! Вернее робот ходил нормально, но в индекс не попадали страницы (ниже об этом). Параллельно собирал статистику по роботам. Яндекс как и ранее, топтался по подопытнм форумам (и сайтам) весьма активно, но не более и не менее чем обычно.
Остальные роботы вели все это время себя вполне адекватно и подобных Яндексу "коников" не отмачивали.
Так же были изменены meta-теги и title страниц в хедере, дабы отображать реальные данные (это где-то тоже было описано на этом форуме).
Для пытливых умов - никаких фильтров и санкций к подопытным форумам со стороны Яндекса применено не было (которые якобы могли сейчас снять). По крайней мере так отвечтил саппорт в лице Платона .
Также в robots добавил строку:
CODE:
Disallow: /forum/tools.php?action=reputation
Ибо роботам, ИМХО, там делать нечего.
зы. Тесты продолжаются.
9. ildar - 13 апреля 2010 — 12:18 - перейти к сообщению
10. Zeg - 13 апреля 2010 — 14:04 - перейти к сообщению
ildar, мой вариант:
Это - если установлен мод проигрывания видео-файлов (Яндекс неадекватно такие вещи воспринимает):
А это, если установлен мод "Редирект внешних ссылок":
robots.txt (Отобразить)
Это - если установлен мод проигрывания видео-файлов (Яндекс неадекватно такие вещи воспринимает):
CODE:
Disallow: /images/*.swf*.flv
А это, если установлен мод "Редирект внешних ссылок":
CODE:
Disallow: /forum/rd.php
11. ildar - 13 апреля 2010 — 14:33 - перейти к сообщению
Zeg
Спасибо
P.S. Оставил пока свой robots.txt, так как в нем побольше исключений.
Спасибо
P.S. Оставил пока свой robots.txt, так как в нем побольше исключений.
12. nikk - 11 сентября 2010 — 19:55 - перейти к сообщению
Zeg
А почему на Вашем форуме сейчас нет robots.txt?
Решили отказаться или что-то другое?
А почему на Вашем форуме сейчас нет robots.txt?
Решили отказаться или что-то другое?
13. Zeg - 12 сентября 2010 — 23:37 - перейти к сообщению
nikk, файл в корне сайта лежит, т.е. общий и для сайта и для форума.
Вот.
Вот.
14. nikk - 23 сентября 2010 — 17:44 - перейти к сообщению
у меня Яндекс по-прежнему находит две главные страницы, http://militaryforum.ru и http://militaryforum.ru/index.php...
как же правильно закрыть index.ph, подскажите плиз!
Вот мой роботс:
как же правильно закрыть index.ph, подскажите плиз!
Вот мой роботс:
robots (Отобразить)
15. kirillbe - 8 февраля 2011 — 11:49 - перейти к сообщению
Вот мой robots
Посмотрите правильно ли я все сделал? Может надо чего небудь еще внести?
Спойлер (Отобразить)
Посмотрите правильно ли я все сделал? Может надо чего небудь еще внести?