Нашел сайт с которого очень многие парсят информацию, а точнее ТВ программу.
http://www.vida.ru/tvgrid/base.asp
Хотел бы тоже реализовать на сайте, но знаний с пхп не хватает, чтобы написать парсер. Может кто поможет, если это не слишком сложно
1. Defenderyk - 7 марта 2009 — 23:46 - перейти к сообщению
2. Furax - 8 марта 2009 — 04:26 - перейти к сообщению
Вообще, на этом конкретно сайте свой код достаточно неплохой: картинки цепляются по абсолютным адресам. В этой ситуации самое простое, что можно сделать, - это посмотреть, между какими характерными наборами тегов встречается сама таблица с программой, и выхватывать её целиком, вставляя на свою страницу в виде того же исходного кода. А стили поменять всегда можно через CSS. Это если возиться особо неохота.
Если же нужно именно выдернуть саму программу, то это гораздо труднее. Начать, опять же, можно с выдирания таблицы целиком, а затем уже начать эту таблицу разбирать, выдирая то имя канала, то программы.
И, разумеется, не стоит забывать о кэшировании, а то могут просто забанить.
Если же нужно именно выдернуть саму программу, то это гораздо труднее. Начать, опять же, можно с выдирания таблицы целиком, а затем уже начать эту таблицу разбирать, выдирая то имя канала, то программы.
И, разумеется, не стоит забывать о кэшировании, а то могут просто забанить.
3. Defenderyk - 8 марта 2009 — 09:50 - перейти к сообщению
Furax пишет:
И, разумеется, не стоит забывать о кэшировании, а то могут просто забанить.
вот вот. сделать бы, чтобы например кэшировать в файл или базу данных один раз в сутки в час ночи и было бы хорошо.
но как это делается я пока мало представляю.
4. Furax - 8 марта 2009 — 13:43 - перейти к сообщению
Defenderyk
Для начала давай определимся, что Ты хочешь получить: просто HTML-код таблицы с той страницы или же разобранные по каналам и времени телепередачи? И есть ли база данных?
Для начала давай определимся, что Ты хочешь получить: просто HTML-код таблицы с той страницы или же разобранные по каналам и времени телепередачи? И есть ли база данных?
5. Defenderyk - 8 марта 2009 — 15:32 - перейти к сообщению
Да, БД есть, но если через БД сложнее, то можно делать запись в файл.
Если на странице будут выводится все каналы, (или по крайней мере можно было бы задать какие выводить, а какие нет, т.к у нас в городе не все каналы, которые там показывают) то иожно и так. А если возможно, чтобы еще сделать выборку по каналам, нажав на ссылку, чтобы не загромождать одну страницу, то лучше наверно так.
Но чтобы инфо парсилось в БД или файл не чаще одного раза в сутки
Furax пишет:
просто HTML-код таблицы с той страницы или же разобранные по каналам и времени телепередачи
Если на странице будут выводится все каналы, (или по крайней мере можно было бы задать какие выводить, а какие нет, т.к у нас в городе не все каналы, которые там показывают) то иожно и так. А если возможно, чтобы еще сделать выборку по каналам, нажав на ссылку, чтобы не загромождать одну страницу, то лучше наверно так.
Но чтобы инфо парсилось в БД или файл не чаще одного раза в сутки
6. Furax - 10 марта 2009 — 03:43 - перейти к сообщению
С БД как раз проще. Я бы предложил завести пару таблиц: в одной хранить названия (можно отдельно те, что на Vida.ru и те, что надо выводить - не суть) и даты обновления программ интересующих нас каналов. Во второй - программы: канал (id из первой таблицы), дата, время, название программы.
Когда происходит обращение к странице, запрашиваем даты обновления тех каналов, которые хотим вывести. Если они совпадают с сегодняшней - просто запрашиваем из базы программу на нужный день и выводим. Если не совпадают - начинаем хитрить.
Во-первых, удаляем из базы вчерашние (и позавчерашние, и т. д.) программы; во-вторых, грузим ту же Vidу.Ru (возможно, не одну страницу) и начинаем парсить. С этим, вроде бы, тоже особых проблем нет.
В цикле парсим канал за каналом. Для этого находим, к примеру, очередную строку
Разумеется, если на сайте сменится дизайн, парсер придётся переписать.
Сортировать записи при выводе надо не по времени, а по очерёдности добавления в базу (id), потому что телевизионщики имеют обыкновение относить то, что до шести утра, как правило, к вчерашнему дню.
Когда происходит обращение к странице, запрашиваем даты обновления тех каналов, которые хотим вывести. Если они совпадают с сегодняшней - просто запрашиваем из базы программу на нужный день и выводим. Если не совпадают - начинаем хитрить.
Во-первых, удаляем из базы вчерашние (и позавчерашние, и т. д.) программы; во-вторых, грузим ту же Vidу.Ru (возможно, не одну страницу) и начинаем парсить. С этим, вроде бы, тоже особых проблем нет.
В цикле парсим канал за каналом. Для этого находим, к примеру, очередную строку
CODE:
Эта строка, вроде бы, встречается только в начале программы каждого из каналов. После этого выдёргиваем имя канала - между http://www.vida.ru/blob/Channel/logo/
CODE:
Иalt="
CODE:
Если это имя отсутствует в базе - этот канал нас не интересует, переходим к следующему. Затем парсим записи программы - они будут между"
CODE:
И<table
CODE:
Время находится между</table
CODE:
И<b>
CODE:
Название передачи - между</b>
CODE:
И концом строки. С тем, чтобы добавить записи в базу, проблем быть не должно.style="color:black; text-decoration: underline">
Разумеется, если на сайте сменится дизайн, парсер придётся переписать.
Сортировать записи при выводе надо не по времени, а по очерёдности добавления в базу (id), потому что телевизионщики имеют обыкновение относить то, что до шести утра, как правило, к вчерашнему дню.
7. Defenderyk - 10 марта 2009 — 06:19 - перейти к сообщению
Вобщем саму логику я знал почему-то с логикой проблем у меня нет, а вот с самим написанием есть
8. Furax - 10 марта 2009 — 08:00 - перейти к сообщению
Код? Код парсера можно написать, например, так:
Код не отлаживал, возможны ошибки, но суть, я думаю, понятна.
CODE:
Предполагается, что $date и $text уже заданы и в них уже лежат, соответственно, дата, программа за которую парсится (в том виде, в котором она должна быть отправлена в базу данных), и непосредственно возвращённый Vidой HTML-код.for ($channel = strpos($text, 'http://www.vida.ru/blob/Channel/logo/'); $channel !== FALSE; $channel = strpos($text, 'http://www.vida.ru/blob/Channel/logo/', $channel+1))
{
$nameStart = strpos($text, 'alt="', $channel)+5;
$name = addSlashes(substr($text, $nameStart, strpos($text, '"', $nameStart)-$nameStart));
$result = mysql_query("SELECT `id` FROM `channels` WHERE `name`= '$name' LIMIT 1");
if (mysql_num_rows($result) == 0)
continue;
else
$id = mysql_result($result, 0);
$programBegin = strpos($text, '<table', $channe+1);
$programEnd = strpos($text, '</table', $programBegin);
for ($timeBegin = strpos($text, '<b>', $programBegin); $timeBegin && $timeBegin < $programEnd; $timeBegin = strpos($text, '<b>', $timeBegin+1))
{
$timeEnd = strpos($text, '</b>', $timeBegin);
$time = addSlashes(substr($text, $timeBegin+3, $timeEnd-$timeBegin-3));
$entryBegin = strpos($text, 'underline">', $timeEnd)+11;
$entry = addSlashes(substr($text, $entryBegin, strpos($text, '\n', $entryBegin)-$entryBegin));
mysql_query("INSERT INTO `programs` (`id`, `channel`, `date`, `time`, `name`) VALUES (NULL, $id, $date, '$time', '$entry')");
}
}
{
$nameStart = strpos($text, 'alt="', $channel)+5;
$name = addSlashes(substr($text, $nameStart, strpos($text, '"', $nameStart)-$nameStart));
$result = mysql_query("SELECT `id` FROM `channels` WHERE `name`= '$name' LIMIT 1");
if (mysql_num_rows($result) == 0)
continue;
else
$id = mysql_result($result, 0);
$programBegin = strpos($text, '<table', $channe+1);
$programEnd = strpos($text, '</table', $programBegin);
for ($timeBegin = strpos($text, '<b>', $programBegin); $timeBegin && $timeBegin < $programEnd; $timeBegin = strpos($text, '<b>', $timeBegin+1))
{
$timeEnd = strpos($text, '</b>', $timeBegin);
$time = addSlashes(substr($text, $timeBegin+3, $timeEnd-$timeBegin-3));
$entryBegin = strpos($text, 'underline">', $timeEnd)+11;
$entry = addSlashes(substr($text, $entryBegin, strpos($text, '\n', $entryBegin)-$entryBegin));
mysql_query("INSERT INTO `programs` (`id`, `channel`, `date`, `time`, `name`) VALUES (NULL, $id, $date, '$time', '$entry')");
}
}
Код не отлаживал, возможны ошибки, но суть, я думаю, понятна.