Складчина MassArticleParser - массовый парсинг статей

Тема в разделе "Скрипты и Программы", создана пользователем Crimean, 27 мар 2018.

Этап:
Набор участников
Цена:
2500.00 RUR
Участников:
3 из 25
Организатор:
Отсутствует
12%
Расчетный взнос:
100 RUR
  • Участники покупки:
    1. Петр2012, 2. evafox, 3. (аноним);
    Резервный список:
    1. (аноним);


  1. Crimean
    ТопикCтартер

    Crimean

    Сообщ:
    4
    Лайк:
    22
    Баллов:
    3
    3 ноя 2014
    Доработал свой новый парсер, который анонсировал ранее.
    Парсер MassArticleParser автоматически парсит все статьи с указанных сайтов. Просто укажите в файле sites.txt список сайтов, с которых нужно спарсить статьи, и нажмите START. Никаких настроек не требуется! Начало и конец статьи определяются автоматически, удаляется не относящийся к статье контент. Сохраняются теги strong, i, u, h1-h4, img, ролики youtube. Для каждой статьи есть title и url. Статьёй считается определённый как основной контент текст с любой страницы.
    [​IMG]

    Алгоритм полностью новый, основывается на анализе разметки. Очень хорошо парсит, со всеми тегами, таблицами, роликами и т.д. И при этом очень чисто, без всего лишнего.
    Сделал 3 режима: all, text, images.
    Например, чтобы сохранять только картинки, нужно в файле настроек указать режим так:
    *mode=images
    Так теги картинок будут сохраняться целиком, в том виде, в котором они стоят на странице.
    Можно указать свой формат:
    *mode=images{<img src="[SRC]" alt="[ALT]">}
    Кроме [SRC] и [ALT] ещё есть [KEY] и [ALTKEY]. [KEY] - выводит название статьи, а [ALTKEY] выводит alt или название статьи, если alt-а нет.
    Чтобы сохранялся только текст, нужно указать режим так:
    *mode=text

    Цитата:
    - Было бы офиено, если бы парсер тянул статьи только с определенного раздела!
    Сделал такую возможность. Например, чтобы статьи брались только из разделов decor/ и furniture/, надо указать сайт так:
    sitename.ru*decor/*furniture/
    При обходе страниц программа будет брать только статьи, в урлах которых есть указанные части.
    Можно включать-выключать парсинг роликов youtube, твитов, инстаграмма и прочих элементов.

    Кроме ру тестил также на немецких и испанских сайтах. Получилось прямо то, что я давно хотел!

     

Поделиться этой страницей

--