27 апр. 2009 г.

Идей море...

...вот например, сегодня набросал заготовки для такой системки для парсинга разных сайтов.
Допустим надо парсить новости или другие материалы с какого либо сайта. Как правило, присутствует страничка со списком новостей (кратко) и линками на "подробнее".
- Создается так называемый "источник". Указывается стартовый URL, маска для выявления линков "подробнее", маска для страницы подробнее, чтобы оттуда извлечь заголовок, полный текст и, может быть, еще какие-то параметры.
Маска может выглядеть например так:


(если покопавшись в коде страницы, оказывается, например. что все линки имеют класс news)
После добавления источника начинает работать так называемый "тупой" парсер, задача которого: время от времени проверять стартовую страницу на наличие новых линков и грабить контент с новых страниц.
Сграбленное (после базовой проверки) помещается во временную таблицу, из которой уже данные берут "умные" парсеры, задача которых - превратить сырую дату, например в новость. Далее уже умный парсер наполняет соответствующую таблицу в базе. Награбленное можно допустим потом как-то аппрувить.
Таким образом можно грабить: RSS, новости, статьи, объявления, вакансии с сайтов.
Позже есть идея дописать детектор картинок в тексте и чтобы они автоматически перекачивались на сайт. вот это будет тема :D

все это, конечно, если руки дойдут .)

Комментариев нет: