Складчина Программа парсинга контента из ВебАрхива [ZennoPoster]

Тема в разделе "Авторские складчины", создана пользователем footashes, 13 окт 2017.

Если Вы желаете стать организатором складчины, ознакомлены с правилами проведения, и материал выкуплен у вас (либо планируется к покупке) - пишите администрации seoxa или Justin, с пометкой "Утверждение на роль организатора", ссылкой на складчину, ссылкой на продажник, и продукт (облако), если материал уже выкуплен!
Этап:
Сбор средств
Цена:
3000.00 RUR
Участников:
9 из 6
Организатор:
footashes
83%
Расчетный взнос:
500 RUR


  1. footashes
    ТопикCтартер

    footashes

    Сообщ:
    0
    Лайк:
    0
    Баллов:
    0
    27 июн 2015
    Webarch.jpg

    WebArchiveMaster - программа парсинга контента из ВебАрхива. Программа полностью автоматизирована и позволяет разгрузить своё время на 90%. Программа работает в связке с PHP скриптом, который можно поставить на любой хостинг или использовать Open Server (рекомендуется).

    Принцип работы очень прост - нужно только вставить домены в текстовый файл и запустить программу - все остальное она сделает сама. Никаких настроек нет, так-как все настроено на максимальную производительность.
     

    Вложения:

  2. Пост от администрации
    Justin

    Justin

    Сообщ:
    2.051
    Лайк:
    8.249
    Баллов:
    120
    1 дек 2013
  3. footashes
    ТопикCтартер

    footashes

    Сообщ:
    0
    Лайк:
    0
    Баллов:
    0
    27 июн 2015
    Хорошо.
     
  4. footashes
    ТопикCтартер

    footashes

    Сообщ:
    0
    Лайк:
    0
    Баллов:
    0
    27 июн 2015
    Spider.jpg
    Спайдер сбора ссылок комментариев для создания своей тематической базы дропов под названием Black Widow Spider. Сбор своей базы дропов по своей тематике. Существует обмен комментариями сайтов по своей тематике, например, на сайте с рецептами комментируют люди, имеющие близкую тематику и оставляют ссылку, ведущую на сайт, это практически сообщество, довольно узкий круг, без залетных.

    Для чего это нужно?

    Многие сайты уходят в небытие - люди забрасывают сайты, переезжают, меняют работы - и это, как правило, очень хорошие сайты с авторскими текстами - я работаю именно так, только отбираю вручную, отдаю программе и работаю с этими забытыми доменами, руки не доходят автоматизировать, позже приведу пример, если не ясно. А просто скаченный список доменов по ключевым словам - это 80% мусора, который программа перелопачивает, прежде чем наткнутся на что-то стоящее.

    Что он делает?

    Паук ходит по тематическим сайтам (например, строительной, женской или сайтам другой тематики) и собирает ссылки, находящиеся в никах пользователей, ведущей на их сайт.

    Как работает?

    1. БОТ берет ссылки с любых сайтов на любой платформе и на любых языках
    2. БОТ самообучается - во время поиска ссылок пишет данные всех сайтов, на которые заходил. Если он зашел на Фейсбук или Твиттер и ему там не понравилось, при следующем случайном заходе он сравнит список и на них не пойдет.
    3. Примерный принцип работы БОТА (алгоритм очень сложный) - Бот берет данные из файла (начальные URL, которые вы ему скормите, смотрите видео), создает карту сайта из данного урл и начинает ходить по страницам в поисках ссылок, берет ссылки из комментариев и начинает их проверять на ответ сервера, если ответа нет, бот идет в Вебархив и проверяет, есть ли там сайт. Если ответ положительный, смотрит количество ссылок, и если считает, что сайт перспективный, заносит его в список дропов.

    Эта программа идет в связке с WebArchiveMasters - спайдер собирает тематические дропы, а парсер берет с них текста. Теперь не нужны списки доменов, программа найдет всё сама.
     
  5. footashes
    ТопикCтартер

    footashes

    Сообщ:
    0
    Лайк:
    0
    Баллов:
    0
    27 июн 2015
    Примеры текстов, которые парсит программа и подготавливает к проверке на уникальность:
    https://yadi.sk/d/km-L6O0t3NkPdW
     
  6. footashes
    ТопикCтартер

    footashes

    Сообщ:
    0
    Лайк:
    0
    Баллов:
    0
    27 июн 2015
    Могу подсказать, как можно зарабатывать на Вебархиве, с моим комплексом 800-1000 рублей в день можно легко делать.
     
  7. footashes
    ТопикCтартер

    footashes

    Сообщ:
    0
    Лайк:
    0
    Баллов:
    0
    27 июн 2015
  8. targetplay

    targetplay

    Сообщ:
    6
    Лайк:
    5
    Баллов:
    3
    16 дек 2014
    Для работы с прогой нужен только хостинг? Или еще что-то нужно?
    Тема довольно интересная с архивами.
     
  9. footashes
    ТопикCтартер

    footashes

    Сообщ:
    0
    Лайк:
    0
    Баллов:
    0
    27 июн 2015
    Хостинг не нужен. Нужен Зеннопостер.
     
  10. footashes
    ТопикCтартер

    footashes

    Сообщ:
    0
    Лайк:
    0
    Баллов:
    0
    27 июн 2015
    WebArchiveMaster - парсер Вебархива

    1. Устранена проблема с Config.сfg - теперь задаваемое количество минимальных символов отрабатывает корректно.
    2. Добавлен новый файл конфигурации - Kategory.сfg, который отвечает за исключение анонсов статей. Как правило, работает только со стандартными CMS и отсекает около 60% ненужных коротких анонсов. Но за счет чистки ненужных данных снижена скорость. По умолчанию в Kategory.сfg стоит цифра "1", что означает включение, вы можете отключить чистку категорий и ускорить парсинг, поставив "0". Можно при работающем проекте менять значения.
    3. Теперь все данные сохраняются в одну папку, без "www"
    4. Отрегулирован PHP скрипт, но мусор все равно будет цеплять - если текст небольшой, а данных на странице много (комментарии, рекламные слоганы, которые бывают больше текста), то неизбежно бесшаблонный парсер захватит их. Если текст чистый более-менее, то всё ненужное отсечётся.
    5. Новый файл конфигурации - Zapros.сfg. Он отвечает за проверку доменов на работоспособность - если домен работает, то он не проверяется, а берется следующий из списка. По умолчанию стоит цифра "1", если вы считаете, что теряется слишком много доменов, которые отвечают на запрос, что работают, а в действительности отключены и припаркованы (сервер не отдаёт ошибки), то можете поставить "0" и домены проверяться не будут. Но возрастает вероятность парсинга заведомо неуникальных текстов.

    Black Widow Spider

    Новая версия Black Widow Spider для сбора тематических дропов. Нужен мощный компьютер, так-как программе нужно обработать десятки тысяч ссылок только одного сайта и правильные сайты для поиска дропов - сайты нужны старые, с комментариями не менее 3-4 лет, тогда вероятность нахождения очень сильно повышается.

    Программа ускорена в 3-4 раза
    Изменена логика и убрано лишнее
    Двухсуточное тестирование не выявило падений Зеннопостер
    Множественные запросы к base приводили к её разрастанию до 1,5 ГБ, что приводило к замедлению работы и последующему падению Зеннопостер с выеданием всех ресурсов компьютера\сервера. Теперь base использует максимум 150 Мб, с последующей итерацией инстанс автоматически перезагружается и очищает память компьютера.
    Каждую копию запускать в одном потоке.

    В следующей версии планируется ввести блок для редактирования пользователем, работающим по признакам на пару с главным алгоритмом. Это позволит выцеплять нестандартные домены, которые не может взять никакая программа. Программа будет постоянно дорабатываться.

    Антиплагиат

    Проверка текста через text.ru, используя прокси.

    Примерный алгоритм:
    Программа всё делает автоматически, вмешательство не требуется.
    1. Парсинг русских прокси.
    2. Проверка этих прокси на работоспособность (чекинг).
    3. Берем прокси и переходим на проверку текста (берем текст из папки "База статей").
    4. После проверки переносим файл из папки "База статей" в папки "Уникальные" или "Копипаст" (в зависимости от проверки).
    5. Перед каждым файлом пишется процент уникальности - например, Уникальность 0_13% - ваш текст.txt или Уникальность 83_04% - ваш текст.txt
    Скорость проверки текста зависит от прокси и загруженности сервиса. В моем случае это составляет примерно 50 текстов в час.
    Для кого это? Это пригодится копирайтерам, так-как текст.ру самый вменяемый проверяльщик, по моему мнению - я ориентируюсь в своей работе только на него. Новичкам, которые хотят узнать, как зайти на сайт с помощью прокси и где их взять. Также это пригодится тем, кто хочет использовать прокси в своей работе - шаблон позволяет модернизировать логику и сделать на этой базе что угодно, что требует использования прокси - спамер Мой Мир, регистрация почтовых ящиков и т.д.

    Также шаблон пригодится как дополнение к парсеру вебархива, так-как для проверки уникальности не требуется капча, а многие стопорятся именно на проверке уникальности.

    Мануал

    Хотел написать многостраничный мануал и сделать видео на 20 - 25 минут, но передумал. Одному, чтобы понять смысл, хватит полуслова, для другого нужно создовать форум, а у меня нет столько времени. Весь мануал напишу здесь и видео сделаю минут на пять. Но, правда, чтобы понять смысл, нужен опыт работы с Вебархивом. Возможно, я не открою Америку, но это мой личный опыт, который показал жизнеспособность этой темы. Прежде чем передавать на аутсорс, хочу сказать, что я пробовал это делать неоднократно, но люди очень быстро исчезали вместе с темой, я их понимаю, это очень муторно - тут нужна своя команда, самому это делать - жизни не хватит. Работа хуже, чем у копирайтера, хотя куда ещё может быть хуже.

    Смысл такой: ищем дроп с максимальным количеством комментариев, проверяем каждый сайт на неработоспособность и получаем уник. Комментирует, как правило, узкий круг: строительный сайт - комментируют люди с близкими тематиками, кулинарный сайт - то же самое и т.д. Это не то же самое, что скачать список дропов, за которымы охотятся ещё тысячи таких же. Здесь работа гораздо тоньше.

    На первый взгляд, схема покажется примитивной, но она проста. Проста, как и всё гениальное, а потому будет работать вечно. В видео постарался раскрыть основу и ключевые моменты - далее каждый модернизирует для себя. Возможно, я что-то упустил, а вы увидите. Если что-то непонятно, пишите на почту, постараюсь ответить быстро.

    Уроки и помощь:
     
    Последнее редактирование модератором: 2 ноя 2017
  11. xoxol4uk

    xoxol4uk

    Сообщ:
    7
    Лайк:
    13
    Баллов:
    3
    9 сен 2014
    Жаль автора сия шаблона... Столько сделано практически впустую... В Вебархиве действительно тонны информации, но это 99,999% никому не нужное г-но... Для СДЛ не пойдет – давно известно, что тексты на ровне с копипастом (трафик не дают в индекс нормально не идут). Норм тексты, которые там бывают крайне редко, растянут быстро. Для доров по этой же причине тоже не пойдет, можно их на копипасте наклепать с таким же успехом и с лучшим качеством текстов.
    Остается:
    1. Сайты для ссылок (убогие с низким качеством). Но дешевле и проще пойти на биржу с контентом из Вебархива и выбрать по теме за копейки.
    2. Продавать этот мусор на биржах статей, с чем тоже много проблем (низкие цены и высокие риски, что уник потиряется)
     
  12. footashes
    ТопикCтартер

    footashes

    Сообщ:
    0
    Лайк:
    0
    Баллов:
    0
    27 июн 2015
    Вы видимо не знаете, сколько людей покупают тексты из Вебархива... А на биржах текста продают эти текста под видом копирайтинга. И люди покупают их десятками и сотнями тысяч в день. Дело в том, что копирайт, написанные "настоящими копирайтерами", тянет на размножку или плохой рерайт. Надеюсь, не будете это отрицать. Найти хорошего копирайтера, в то время, как рынок перенасыщен миллиардами плохих текстов, непростая задача и хорошие деньги. А текста нужны здесь и сейчас. Приходится выкручиваться и покупать за копейки - и берут. Не у всех есть деньги, а конкуренция среди статейников сейчас огромная, так-как их сейчас миллионы, если не миллиарды.
     
  13. footashes
    ТопикCтартер

    footashes

    Сообщ:
    0
    Лайк:
    0
    Баллов:
    0
    27 июн 2015
    Вы видимо не знаете, сколько людей покупают тексты из Вебархива... А на биржах текста продают эти текста под видом копирайтинга. И люди покупают их десятками и сотнями тысяч в день. Дело в том, что копирайт, написанные "настоящими копирайтерами", тянет на размножку или плохой рерайт. Надеюсь, не будете это отрицать. Найти хорошего копирайтера, в то время, как рынок перенасыщен миллиардами плохих текстов, непростая задача и хорошие деньги. А текста нужны здесь и сейчас. Приходится выкручиваться и покупать за копейки - и берут. Не у всех есть деньги, а конкуренция среди статейников сейчас огромная, так-как их сейчас миллионы, если не миллиарды.
    Да, и в индекс они лезут прекрасно, все дело в ключах. Под доры использовать нерационально, слишком много трудозатрат.
     
  14. xoxol4uk

    xoxol4uk

    Сообщ:
    7
    Лайк:
    13
    Баллов:
    3
    9 сен 2014
    Ну не знаю... Не буду углубляться, чтобы мое субъективное мнение не мешало продажам.
    Но все равно жаль труда Вашего... Если брать само потраченное время и силы, не учитывая другие ценообразующие факторы, то это не сопоставимо с ценником в 500 руб. Ведь вряд ли возьмут десятки копий, так как шаблон пойдет в паблик((
    С такими умениями и знаниями можно что-то крутое мутить))
     
  15. speaktime

    speaktime

    Сообщ:
    84
    Лайк:
    16
    Баллов:
    8
    23 сен 2014
    С текстами из вебархива поисковики уже были знакомы и при повторном использовании только процентов 50 нормально войдут в индекс. Все это уже лет 6-7 назад проходили. Так же многие обожглись при покупке с бирж контента. Когда покупаешь статью, а она ну ни как не идет в индекс.
    Да и еще. Тексты с архива уже не те что нужны сейчас. Еще год-полтора назад тексты писались заточенными под ключи, заказчики просили кучу ключей впихнуть в невпихуемое. Сейчас уже все по другому, тексты оптимизированны для людей. По Этому то что сейчас в архиве, не несет ни какой полезной нагрузки, а это как минимум фильтры.
    По писанию продукт конечно отличный, но я так думаю что нужно с ним через пол года - год выйти, когда в вебархиве появятся нормальные человеческие тексты. А так если для сателитов, то пойдет.
     
  16. xam55

    xam55

    Сообщ:
    0
    Лайк:
    0
    Баллов:
    0
    22 окт 2015
    А когда раздача будет?
     
  17. Blockchain

    Blockchain

    Сообщ:
    2
    Лайк:
    0
    Баллов:
    1
    25 янв 2014
  18. Godun21

    Godun21

    Сообщ:
    2
    Лайк:
    6
    Баллов:
    3
    3 сен 2015
  19. footashes
    ТопикCтартер

    footashes

    Сообщ:
    0
    Лайк:
    0
    Баллов:
    0
    27 июн 2015
    На следующей неделе.
     
  20. fenixv

    fenixv

    Свой+
    Сообщ:
    5
    Лайк:
    1
    Баллов:
    3
    27 май 2014
    оплатил. Отметьте, пожалуйста
     
  21. Booker

    Booker

    Сообщ:
    0
    Лайк:
    3
    Баллов:
    2
    3 сен 2015
    С демо-версией зенопостера , работать будет ?
     
  22. Well68

    Well68

    Сообщ:
    0
    Лайк:
    7
    Баллов:
    2
    24 сен 2016
    Проверка была? Складчина жива? Раздача будет? Чёт смотрю на многих ресурсах автор не спешит радовать ( Кидок?
     
  23. RSee

    RSee

    Сообщ:
    0
    Лайк:
    0
    Баллов:
    0
    4 окт 2016
  24. hool

    hool

    Сообщ:
    16
    Лайк:
    45
    Баллов:
    18
    27 сен 2015
    Будешь раздавать, тогда впишусь и оплачу.
     
  25. Varvara

    Varvara

    Сообщ:
    18
    Лайк:
    10
    Баллов:
    3
    7 мар 2015
    В ноябре 2017 обещана доставка, а сейчас уже февраль 2018 заканчивается, раздачи так и нет.
     

Поделиться этой страницей

--