BG Development


  Reply to this topicStart new topicStart Poll

> Втора питанка за crawler
CPPlus
Публикувано на: 10-03-2018, 12:54
Quote Post



Име: Людмил Григоров
Група: Потребител
Ранг: Почетен член

Мнения: 1097
Регистриран на: 22.06.11



Здравейте!

Правя crawler, но се сблъсках с това, че някои сайтове слагат защити и ми ограничават скоростта на сваляне. Доколкото прочетох вариантите за bypass на защитите са следните:
- Използване на няколко сървъра/проксита заради ip-то
- Случайно генериране на информация в header-ите
- Случайни delays и actions, за да се имитира човек
- Да не се натискат заложени скрити линкове

Има ли нещо основно, което изпускам, или се правят изброените горе?

По принцип става въпрос И за конкретен сайт, така че освен мнение за общия случай биха ми били полезни и съвети за bypass-ване на конкретна защита (например всеки няколко заявки ми се връщат с delay такъв, че сървъра да не отговаря на повече от една заявка на всеки 400-500ms)

Това мнение е било редактирано от CPPlus на 10-03-2018, 13:08


--------------------
Нищо не е свършило, докато не е свършило! Не се предавай и ще постигнеш целта си!
PMEmail Poster
Top
Golden Gega
Публикувано на: 10-03-2018, 13:06
Quote Post



Име:
Група: Потребител
Ранг: Старо куче

Мнения: 829
Регистриран на: 04.06.10



Темата е дълга, но в общи линии:
1) Удачен подбор на прокси сървъри и поддържане на адекватна статистика кои да ползваш, и кои - не. Пример - за даден сайт е удачно да се ползват проксита базирани в България, за друг - в Бразилия. Няма как да го знаеш предварително, т.е. сам трябва да набираш статистика, и да я ползваш. Ако някой ти каже че има алгоритъм - лъже. Защитите не са автоматични, а се генерират от хора, на всеки принципите са различни. Тези принципи се и сменят, така че статистиката и реакцията по нея трябва да са гъвкави. Не може да се направи лесно, и ако някой ти каже че може - лъже.
2) Симулация на човешко поведени - дълъг е списъка с врътки които може да се поставят за да проверят кой им гледа сайта. От скрити линкове, скрито съдържание - т.е. виждаш едно а в html-а е друго, до съдържание генерирано с javascript - обикновено кроулерите не изпълняват js върху сваленото съдържание както го правят браузерите. Цяла плеяда са пък хватките с бисквитки, хедъри, пост и гет параметри и каквото се сетиш. Таймаутове и прочее. Единствения отговор е че няма отговор - всеки сайт се парсва поотделно и се залага едно време за постоянен контрол и адаптация - т.е. като цъфне следваща защита да реагираш и да я преодолееш - ако можеш.
Има едно желязно правило - не си най-умния и винаги гониш. Т.е. трябва да свикнеш че няма да можеш да взимаш всичко каквото ти кефне, и винаги ще имаш процент на загубени данни/време.
Успех!
PMEmail Poster
Top
CPPlus
Публикувано на: 11-03-2018, 00:00
Quote Post



Име: Людмил Григоров
Група: Потребител
Ранг: Почетен член

Мнения: 1097
Регистриран на: 22.06.11



Не се бях замислял по някои от съветите ти.

Благодаря ти за изчерпателния отговор!



--------------------
Нищо не е свършило, докато не е свършило! Не се предавай и ще постигнеш целта си!
PMEmail Poster
Top
purjola
Публикувано на: 11-03-2018, 09:31
Quote Post



Име:
Група: Потребител
Ранг: Почетен член

Мнения: 1834
Регистриран на: 18.10.11



QUOTE (Golden Gega @ 10-03-2018, 14:06)
Темата е дълга, но в общи линии:
1) Удачен подбор на прокси сървъри и поддържане на адекватна статистика кои да ползваш, и кои - не. Пример - за даден сайт е удачно да се ползват проксита базирани в България, за друг - в Бразилия. Няма как да го знаеш предварително, т.е. сам трябва да набираш статистика, и да я ползваш. Ако някой ти каже че има алгоритъм - лъже. Защитите не са автоматични, а се генерират от хора, на всеки принципите са различни. Тези принципи се и сменят, така че статистиката и реакцията по нея трябва да са гъвкави. Не може да се направи лесно, и ако някой ти каже че може - лъже.
2) Симулация на човешко поведени - дълъг е списъка с врътки които може да се поставят за да проверят кой им гледа сайта. От скрити линкове, скрито съдържание - т.е. виждаш едно а в html-а е друго, до съдържание генерирано с javascript - обикновено кроулерите не изпълняват js върху сваленото съдържание както го правят браузерите. Цяла плеяда са пък хватките с бисквитки, хедъри, пост и гет параметри и каквото се сетиш. Таймаутове и прочее. Единствения отговор е че няма отговор - всеки сайт се парсва поотделно и се залага едно време за постоянен контрол и адаптация - т.е. като цъфне следваща защита да реагираш и да я преодолееш - ако можеш.
Има едно желязно правило - не си най-умния и винаги гониш. Т.е. трябва да свикнеш че няма да можеш да взимаш всичко каквото ти кефне, и винаги ще имаш процент на загубени данни/време.
Успех!

По принцип защитата, която обхваща засичане дали е човек или бот, е автоматизирана. На базата анализ на определен брой уникални влизания би трябвало да се обновяват правилата, по които се прави защитата срещу сваляне на съдържание
PMEmail Poster
Top
Golden Gega
Публикувано на: 11-03-2018, 13:39
Quote Post



Име:
Група: Потребител
Ранг: Старо куче

Мнения: 829
Регистриран на: 04.06.10



QUOTE (purjola @ 11-03-2018, 09:31)
QUOTE (Golden Gega @ 10-03-2018, 14:06)
Темата е дълга, но в общи линии:
1) Удачен подбор на прокси сървъри и поддържане на адекватна статистика кои да ползваш, и кои - не. Пример - за даден сайт е удачно да се ползват проксита базирани в България, за друг - в Бразилия. Няма как да го знаеш предварително, т.е. сам трябва да набираш статистика, и да я ползваш. Ако някой ти каже че има алгоритъм - лъже. Защитите не са автоматични, а се генерират от хора, на всеки принципите са различни. Тези принципи се и сменят, така че статистиката и реакцията по нея трябва да са гъвкави. Не може да се направи лесно, и ако някой ти каже че може - лъже.
2) Симулация на човешко поведени - дълъг е списъка с врътки които може да се поставят за да проверят кой им гледа сайта. От скрити линкове, скрито съдържание - т.е. виждаш едно а в html-а е друго, до съдържание генерирано с javascript - обикновено кроулерите не изпълняват js върху сваленото съдържание както го правят браузерите. Цяла плеяда са пък хватките с бисквитки, хедъри, пост и гет параметри и каквото се сетиш. Таймаутове и прочее. Единствения отговор е че няма отговор - всеки сайт се парсва поотделно и се залага едно време за постоянен контрол и адаптация - т.е. като цъфне следваща защита да реагираш и да я преодолееш - ако можеш.
Има едно желязно правило - не си най-умния и винаги гониш. Т.е. трябва да свикнеш че няма да можеш да взимаш всичко каквото ти кефне, и винаги ще имаш процент на загубени данни/време.
Успех!

По принцип защитата, която обхваща засичане дали е човек или бот, е автоматизирана. На базата анализ на определен брой уникални влизания би трябвало да се обновяват правилата, по които се прави защитата срещу сваляне на съдържание

По принцип може, ама на практика не е.
PMEmail Poster
Top
ici
Публикувано на: 11-03-2018, 13:57
Quote Post


Group Icon
Име: Ивайло Илчев ики
Група: VIP
Ранг: Почетен член

Мнения: 15411
Регистриран на: 06.06.04



Може да разгледаш сорса на https://bad-behavior.ioerror.us/ - тама има списъци с блеклистнати проксита, усер агенти, хедери и пр. Трябва това което правиш да може да минава през такава блокировка иначе нямаш шанс. icon_idea.gif


--------------------
Както и при християнската религия, така и при социализмът, най-лошата реклама за идеята са нейните последователи. - Джордж Оруел
PMEmail PosterUsers Website
Top
1 потребители преглеждат тази тема в момента (1 гости, 0 анонимни потребители)
Потребители, преглеждащи темата в момента:

Topic Options Reply to this topicStart new topicStart Poll

 


Copyright © 2003-2018 | BG Development | All Rights Reserved
RSS 2.0