ExBB Community ExBB Community
 Сайт проекта ExBB Общение объединяет!
Войдите на форум при помощиВойти через loginza
 Чат на форуме      Помощь      Поиск      Пользователи     BanList BanList


 Страниц (6): [1] 2 3 4 5 6 »   

> Описание: как написать
wfedin
Отправлено: 15 января 2010 — 18:05
Post Id


Пользователь
Newbie


Покинул форум
Сообщений всего: 4
Дата рег-ции: Дек. 2009  
Репутация: 0

[+][+]


Сильно не пинать, набирал в поске robots.txt без результата. Мог бы кто обьяснить как его правильно написать для форума, а лучше выложить уже написанный и прилепить его FAQ
 
 
wfedin
Отправлено: 16 января 2010 — 17:21
Post Id


Пользователь
Newbie


Покинул форум
Сообщений всего: 4
Дата рег-ции: Дек. 2009  
Репутация: 0

[+][+]


vipraskrutka пишет:
http://exbb.org/robots.txt Улыбка
смотреть то, что относится к папке community


Спасибо!
 
 
Леголегс
Отправлено: 13 марта 2010 — 19:16
Post Id


Пользователь
Junior Member


Покинул форум
Сообщений всего: 87
Дата рег-ции: Март 2010  
Репутация: 12




Апнем тему.
Я тут решил составить "идеальный" robots.txt раз и навсегда. Получилось вот такое:
CODE:
User-agent: *
Disallow: /admincenter.php
Disallow: /forums.php?action=markall
Disallow: /index.php?c=
Disallow: /loginout.php
Disallow: /messenger.php
Disallow: /postings.php
Disallow: /post.php
Disallow: /printpage.php
Disallow: /profile.php?action=lostpassword
Disallow: /register.php
Disallow: /search.php
Disallow: /set*.php
Disallow: /tools.php?action=chat
Disallow: /tools.php?action=mail
Disallow: /tools.php?action=online
Disallow: /tools.php?action=preport
Disallow: /tools.php?action=smiles
Disallow: /tools.php?action=threadstop
Disallow: /index.php$
Disallow: /forums.php?forum=*&p=1$
Disallow: /tools.php?action=members&s=&order=ASC&p=1$
Disallow: /topic.php?forum=*&topic=*&p=1$
Disallow: /topic.php?forum=*&topic=*&postid=
Disallow: /topic.php?forum=*&topic=*&v=l

Делалось для форума на своём домене. Если ваш форум в поддиректории forum - везде исправьте /messenger.php на /forum/messenger.php и т.д.
Задачи, решаемые этим robots.txt: минимизация никому не интересных вещей в выдаче (например, отлупы незареганым), минимизация слишком динамических вещей, минимизация дублирования инфы. Задача продвижения в результатах не стояла.
Какие-то вопросы/коменты/исправления?

Заранее скажу: / и /index.php - одинаковые, так что одну надо выкинуть. Тоже самое касается
/forums.php?forum=*&p=1$ и /forums.php?forum=*$
/tools.php?action=members&s=&order=ASC&p=1$ и
/tools.php?action=members$
/topic.php?forum=*&topic=*&p=1$ и /topic.php?forum=*&topic=*$
Отдельно надо упомянуть /topic.php?forum=*&topic=*&postid= и /topic.php?forum=*&topic=*&v=l - они страшно замусоривают выдачу.

Правила форума на подопечном ресурсе свои, так что они не исключены из выдачи. Если кому надо -
CODE:
Disallow: /tools.php?action=rules

(Отредактировано автором: 13 марта 2010 — 19:20)

 
 
nikk
Отправлено: 13 марта 2010 — 21:54
Post Id



Пользователь
Super Member


Покинул форум
Сообщений всего: 1122
Дата рег-ции: Нояб. 2009  
Репутация: 25




Леголегс пишет:
Disallow: /index.php$

Зачем закрывать главную страницу? Растерялся
 
 
alexx
Отправлено: 13 марта 2010 — 21:56
Post Id


Пользователь
Advanced Member


Покинул форум
Сообщений всего: 495
Дата рег-ции: Февр. 2010  
Откуда: Россия
Репутация: 12




Думаю, нужно оставить, то что относится к контекту форума.
Остальное нафиг с пляжа.
(Добавление)
Вот попались рекомендации для другого движка
Цитата:
В случае с форумом PhpBB рекомендуется закрыть от индексации поисковиков всё кроме /viewforum.php и /viewtopic.php.



Создайте файл robots.txt и сохраните в нём следующий код.

User-agent: *
Disallow: /admin/
Disallow: /cache/
Disallow: /db/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /templates/
Disallow: /extension.php
Disallow: /news.php
Disallow: /common.php
Disallow: /config.php
Disallow: /faq.php
Disallow: /friend.php
Disallow: /groupcp.php
Disallow: /login.php
Disallow: /memberlist.php
Disallow: /modcp.php
Disallow: /posting.php
Disallow: /privmsg.php
Disallow: /profile.php
Disallow: /search.php
Disallow: /viewonline.php
Disallow: /watched.php
Disallow: /index.php?c=


Думаю, что надо и по нашему движку написать "идеальный" вариант.
 
 
Леголегс
Отправлено: 13 марта 2010 — 22:23
Post Id


Пользователь
Junior Member


Покинул форум
Сообщений всего: 87
Дата рег-ции: Март 2010  
Репутация: 12




nikk пишет:
Зачем закрывать главную страницу?
Главная - это /
vipraskrutka пишет:
User-agent: * лучше сделать попроще
А. Ты имеешь ввиду, что спецсимволы * и $ нестандартны? Да, наверно надо отделить.
alexx пишет:
Думаю, нужно оставить, то что относится к контекту форума.
Остальное нафиг с пляжа.
Ты противоречишь сам себе. То предлагаешь "остальное" убрать, то приводишь вариант с закрытыми /cache/ и т.д. Я, кстати, служебные директории (например, templates) не вносил в список. Там и так пустые страницы видны. А можно даже чмоднуть их поособому, чтоб php их читать мог, а httpd напрямую - нет. Но это не на всех хостах получится.
 
 
Леголегс
Отправлено: 13 марта 2010 — 22:52
Post Id


Пользователь
Junior Member


Покинул форум
Сообщений всего: 87
Дата рег-ции: Март 2010  
Репутация: 12




vipraskrutka пишет:
что все было так просто, я закрывал index.php - в яндексе вылетала морда /
Не понял. Вылетала - в смысле показывалась или наоборот, исчезала?

vipraskrutka пишет:
ага, смотреть нужно спецификацию конкретных ботов
Ясно. Я писал под яндекс, думал различия не сильно велики.

Вот что я в вебдеве ненавижу - так это ситуацию с всевозможными стандартами. Куда ни плюнь - либо стандарта нет вообще, либо его все нарушают, либо в стандарте три строчки и все лепят расширения. Хорошо, что мой доход от этой помойки не зависит.

(Отредактировано автором: 13 марта 2010 — 22:56)

 
 
Zeg
Отправлено: 13 марта 2010 — 22:53
Post Id



Пользователь
Super Member


Покинул форум
Сообщений всего: 891
Дата рег-ции: Март 2009  
Откуда: Беларусь
Репутация: 89




CODE:
Disallow: /tools.php?action*

ИМХО, так лучше сделать, а не описывать все варианты. В другой ветке также приводил пример, что от Яндекса нужно спрятать аттачи к сообшениям и редирект, если мод соответствующий установлен.
 
 
Леголегс
Отправлено: 13 марта 2010 — 22:58
Post Id


Пользователь
Junior Member


Покинул форум
Сообщений всего: 87
Дата рег-ции: Март 2010  
Репутация: 12




Zeg пишет:
Disallow: /tools.php?action*
В тулсах есть ценная инфа - хелпа, рулесы и список мемберов.
 
 
Zeg
Отправлено: 13 марта 2010 — 23:13
Post Id



Пользователь
Super Member


Покинул форум
Сообщений всего: 891
Дата рег-ции: Март 2009  
Откуда: Беларусь
Репутация: 89




Леголегс, хелп и рулесы не такая уж ценная инфа, особенно учитывая, что она у 98% форумов одинаковая (типовая), что не есть гуд для искалок. А список юзеров и вовсе лучше закрыть от посторонних (незарегистрированных) глаз.

Еще вот так предлагаю:
CODE:
Disallow: index.php?action=resetall
 
 
Леголегс
Отправлено: 13 марта 2010 — 23:22
Post Id


Пользователь
Junior Member


Покинул форум
Сообщений всего: 87
Дата рег-ции: Март 2010  
Репутация: 12




Zeg пишет:
хелп и рулесы не такая уж ценная инфа, особенно учитывая, что она у 98% форумов одинаковая (типовая), что не есть гуд для искалок.
Ну я ж говорю, SEO не было целью. А на серьёзных форумах правила часто правятся. Но, в принципе наверно можно заблочить правила в роботс, а в коментах файла правил оставить пометку: если меняете этот файл, возможно, стоит разрешить его индексацию.
Zeg пишет:
А список юзеров и вовсе лучше закрыть от посторонних (незарегистрированных) глаз.
Почему? Вообще не понимаю этот геноцид незарегистрированных в рунете. Ссылки скрывают, картинки скрывают. Если в поиске мне попадается такой сайт - ctrl-w и всё. Регистрироваться ещё я должен, обойдутся.

Zeg пишет:
Disallow: index.php?action=resetall
Ага, спасибо.

(Отредактировано автором: 13 марта 2010 — 23:25)

 
 
Zeg
Отправлено: 14 марта 2010 — 00:48
Post Id



Пользователь
Super Member


Покинул форум
Сообщений всего: 891
Дата рег-ции: Март 2009  
Откуда: Беларусь
Репутация: 89




Еще гугл страшно тупит, попав на страницу topic.php без параметров. И ошибка не выдается в хедер (точнее выдается, что всё ок - 200) и редирект назад не сработает (Пожалуйста, только корректным способом входите в скрипт!).

ИМХО, надо и это заткнуть:

CODE:
Disallow: /topic.php$
 
 
Леголегс
Отправлено: 14 марта 2010 — 00:53
Post Id


Пользователь
Junior Member


Покинул форум
Сообщений всего: 87
Дата рег-ции: Март 2010  
Репутация: 12




А как гугл туда попадает? Имхо, все возможные неправильные комбинации параметров предусмотреть невозможно и не нужно.
Кроме того, тут уже упоминалось, что с символом $ надо осторожнее.
 
 
Zeg
Отправлено: 14 марта 2010 — 01:21
Post Id



Пользователь
Super Member


Покинул форум
Сообщений всего: 891
Дата рег-ции: Март 2009  
Откуда: Беларусь
Репутация: 89




Леголегс пишет:
Кроме того, тут уже упоминалось, что с символом $ надо осторожнее.

Специально полистал доки, проблем с * и $ ни у Яндекса, ни у Гугла быть не должно, т.к. эти символы и там, и там описаны, как рекомендованные к применению. До остальных искалок как-то дела нет, но думаю дела там не хуже обстоят.

Как гугл попадает - хез, но попадает же...
(Добавление)
С Гугла:

Цитата:
Чтобы задать соответствие конечных символов URL-адреса, используйте символ $. Например, чтобы заблокировать доступ к URL, оканчивающемуся на .xls, используйте следующие строки:
CODE:
User-agent: Googlebot
Disallow: /*.xls$


С Яндекса:

Цитата:
Использование спецсимволов "*" и "$".

При указании путей директив Allow-Disallow можно использовать спецсимволы '*' и '$', задавая, таким образом, определенные регулярные выражения. Спецсимвол '*' означает любую (в том числе пустую) последовательность символов. Примеры:
CODE:
User-agent: Yandex
Disallow: /cgi-bin/*.aspx # запрещает '/cgi-bin/example.aspx'
# и '/cgi-bin/private/test.aspx'
Disallow: /*private # запрещает не только '/private',
# но и '/cgi-bin/private'


Спецсимвол '$'.

По умолчанию к концу каждого правила, описанного в robots.txt, приписывается '*', например:
CODE:
User-agent: Yandex
Disallow: /cgi-bin* # блокирует доступ к страницам
# начинающимся с '/cgi-bin'
Disallow: /cgi-bin # то же самое


чтобы отменить '*' на конце правила, можно использовать спецсимвол '$', например:
CODE:
User-agent: Yandex
Disallow: /example$ # запрещает '/example',
# но не запрещает '/example.html'

CODE:
User-agent: Yandex
Disallow: /example # запрещает и '/example',
# и '/example.html'

CODE:
User-agent: Yandex
Disallow: /example$ # запрещает только '/example'
Disallow: /example*$ # так же, как 'Disallow: /example'
#запрещает и /example.html и /example
 
 
Zeg
Отправлено: 31 марта 2010 — 21:58
Post Id



Пользователь
Super Member


Покинул форум
Сообщений всего: 891
Дата рег-ции: Март 2009  
Откуда: Беларусь
Репутация: 89




Проанализировал статистику по 5 разным форумам и их индексации в Яндексе. На тех форумах, которые Яндекс не любит особо часто посещать и вдаваться в дебри вот эти строки не рекомендованы:

CODE:
Disallow: /forums.php?forum=*&p=1$
Disallow: /tools.php?action=members&s=&order=ASC&p=1$
Disallow: /topic.php?forum=*&topic=*&p=1$


По логике - они верны, т.е. "отсекаются" дубли страниц, которые искалки серьезные (аля Гугл) не приветствуют. Т.е., к примеру,адреса мой.сайт/forums.php?forum=1&p=1 и мой.сайт/forums.php?forum=1 идентичны. И это плохо.

Но! Яндекс же не всегда поддаётся логике, поэтому, дальше страницы 1, т.е. с &p=1 он почему-то не идет, хотя на другие страницы явно есть ссылки (даже с той же первой страницы без &p=1). И эти страницы с параметром тоже в индекс не добавляет, т.к. они запрещены в robots-е. Почему так себя ведет Яндекс - понять нельзя.


Немного оффтоп. Юра, есть смысл вообще на уровне движка избавится от дублей таких страниц, т.е. сразу при генерации на странице ссылок очень хорошо бы отбрасывать этот параметр (&p=1) за ненадобностью. Леголегс об этом писАл раньше.


Еще нужно добавить в robots.txt вот такую строку:
CODE:
Disallow: /forum/printfile.php?action=attach*


Яндекс на вложениях тоже иногда такую "дурь" выкидывает, страх.

А вот строку со ссылкой на "Рейтинг популярных тем":

CODE:
Disallow: /tools.php?action=threadstop


я бы в robots.txt не писал. Наоборот с этой страницы масса ссылок на популярные и последние темы. Перелинковка здоровская!

зы. Раньше уже писал, нужно ссылки на последние сообщения форумов и подфорумов привести в "божеский" вид, т.е. они вот такие ваш.сайт/forum/topic.php?forum=ХХ&topic=Н&v=l#12345678 и, в соответствии с robots.txt, просто запрещены к индексации. Для тех, кто хочет это сделать самостоятельно, инструкиция под спойлером ниже.

Инструкция (Отобразить)

(Отредактировано автором: 31 марта 2010 — 23:52)

 
 
Страниц (6): [1] 2 3 4 5 6 »
Сейчас эту тему просматривают: 1 (гостей: 1, зарегистрированных: 0)
« Установка и обновление »

> Похожие темы: robots.txt
Темы Форум Информация о теме Обновление
Clean-param и postid
Нужно ли добавлять в robots.txt?
Обсуждение Ответов: 1
Автор темы: alexvod
17 декабря 2010 — 22:43
Автор: nikk
Личные сообщения PHP
помогите написать скрипт ЛС
Обсуждение Ответов: 0
Автор темы: alexssses
2 февраля 2013 — 13:49
Автор: alexssses
Личные сообщения PHP
помогите написать скрипт ЛС
MySQL Ответов: 2
Автор темы: alexssses
3 февраля 2013 — 03:12
Автор: 1Bot
Вопросы по robots.txt
Общие вопросы Ответов: 3
Автор темы: Chiv_Chelios
13 апреля 2011 — 18:40
Автор: Zeg
Предложение по файлу robots.txt
Обсуждаем Ответов: 25
Автор темы: gudman
27 февраля 2011 — 21:33
Автор: lisiycat
 



Все гости форума могут просматривать этот раздел.
Только администраторы и модераторы могут создавать новые темы в этом разделе.
Только администраторы и модераторы могут отвечать на сообщения в этом разделе.
 




Яндекс.Метрика   

Powered by ExBB
ExBB FM 1.0 RC1 by TvoyWeb.ru
InvisionExBB Style converted by Markus®

[Script Execution time: 0.0886]     [ ]