Furax |
Отправлено: 8 марта 2009 — 04:26
|
Newbie
Покинул форум
Сообщений всего: 49
Дата рег-ции: Февр. 2009
Репутация: 8
|
Вообще, на этом конкретно сайте свой код достаточно неплохой: картинки цепляются по абсолютным адресам. В этой ситуации самое простое, что можно сделать, - это посмотреть, между какими характерными наборами тегов встречается сама таблица с программой, и выхватывать её целиком, вставляя на свою страницу в виде того же исходного кода. А стили поменять всегда можно через CSS. Это если возиться особо неохота.
Если же нужно именно выдернуть саму программу, то это гораздо труднее. Начать, опять же, можно с выдирания таблицы целиком, а затем уже начать эту таблицу разбирать, выдирая то имя канала, то программы.
И, разумеется, не стоит забывать о кэшировании, а то могут просто забанить. |
|
|
Defenderyk |
Отправлено: 8 марта 2009 — 15:32
|
Super Member
Покинул форум
Сообщений всего: 1027
Дата рег-ции: Февр. 2009
Репутация: 31
|
Да, БД есть, но если через БД сложнее, то можно делать запись в файл.
Furax пишет:просто HTML-код таблицы с той страницы или же разобранные по каналам и времени телепередачи
Если на странице будут выводится все каналы, (или по крайней мере можно было бы задать какие выводить, а какие нет, т.к у нас в городе не все каналы, которые там показывают) то иожно и так. А если возможно, чтобы еще сделать выборку по каналам, нажав на ссылку, чтобы не загромождать одну страницу, то лучше наверно так.
Но чтобы инфо парсилось в БД или файл не чаще одного раза в сутки |
|
|
Furax |
Отправлено: 10 марта 2009 — 03:43
|
Newbie
Покинул форум
Сообщений всего: 49
Дата рег-ции: Февр. 2009
Репутация: 8
|
С БД как раз проще. Я бы предложил завести пару таблиц: в одной хранить названия (можно отдельно те, что на Vida.ru и те, что надо выводить - не суть) и даты обновления программ интересующих нас каналов. Во второй - программы: канал (id из первой таблицы), дата, время, название программы.
Когда происходит обращение к странице, запрашиваем даты обновления тех каналов, которые хотим вывести. Если они совпадают с сегодняшней - просто запрашиваем из базы программу на нужный день и выводим. Если не совпадают - начинаем хитрить.
Во-первых, удаляем из базы вчерашние (и позавчерашние, и т. д.) программы; во-вторых, грузим ту же Vidу.Ru (возможно, не одну страницу) и начинаем парсить. С этим, вроде бы, тоже особых проблем нет.
В цикле парсим канал за каналом. Для этого находим, к примеру, очередную строку CODE:http://www.vida.ru/blob/Channel/logo/ Эта строка, вроде бы, встречается только в начале программы каждого из каналов. После этого выдёргиваем имя канала - между ИЕсли это имя отсутствует в базе - этот канал нас не интересует, переходим к следующему. Затем парсим записи программы - они будут междуИВремя находится междуИНазвание передачи - междуCODE:style="color:black; text-decoration: underline"> И концом строки. С тем, чтобы добавить записи в базу, проблем быть не должно.
Разумеется, если на сайте сменится дизайн, парсер придётся переписать.
Сортировать записи при выводе надо не по времени, а по очерёдности добавления в базу (id), потому что телевизионщики имеют обыкновение относить то, что до шести утра, как правило, к вчерашнему дню. |
|
|
Furax |
Отправлено: 10 марта 2009 — 08:00
|
Newbie
Покинул форум
Сообщений всего: 49
Дата рег-ции: Февр. 2009
Репутация: 8
|
Код? Код парсера можно написать, например, так:CODE:for ($channel = strpos($text, 'http://www.vida.ru/blob/Channel/logo/'); $channel !== FALSE; $channel = strpos($text, 'http://www.vida.ru/blob/Channel/logo/', $channel+1))
{
$nameStart = strpos($text, 'alt="', $channel)+5;
$name = addSlashes(substr($text, $nameStart, strpos($text, '"', $nameStart)-$nameStart));
$result = mysql_query("SELECT `id` FROM `channels` WHERE `name`= '$name' LIMIT 1");
if (mysql_num_rows($result) == 0)
continue;
else
$id = mysql_result($result, 0);
$programBegin = strpos($text, '<table', $channe+1);
$programEnd = strpos($text, '</table', $programBegin);
for ($timeBegin = strpos($text, '<b>', $programBegin); $timeBegin && $timeBegin < $programEnd; $timeBegin = strpos($text, '<b>', $timeBegin+1))
{
$timeEnd = strpos($text, '</b>', $timeBegin);
$time = addSlashes(substr($text, $timeBegin+3, $timeEnd-$timeBegin-3));
$entryBegin = strpos($text, 'underline">', $timeEnd)+11;
$entry = addSlashes(substr($text, $entryBegin, strpos($text, '\n', $entryBegin)-$entryBegin));
mysql_query("INSERT INTO `programs` (`id`, `channel`, `date`, `time`, `name`) VALUES (NULL, $id, $date, '$time', '$entry')");
}
} Предполагается, что $date и $text уже заданы и в них уже лежат, соответственно, дата, программа за которую парсится (в том виде, в котором она должна быть отправлена в базу данных), и непосредственно возвращённый Vidой HTML-код.
Код не отлаживал, возможны ошибки, но суть, я думаю, понятна. |
|
|
|