Եթե ձեր վեբ քերիչը շարունակում է արգելափակվել, դա կարող է լինել ձեր TLS մատնահետքի պատճառով: Նույնիսկ երբ դուք տեղադրում եք ձեր HTTP վերնագրերը զննարկչի նման, հակաբոտային համակարգերը կարող են նկատել ավտոմատացված հարցումները՝ վերլուծելով ձեր TLS մատնահետքը ձեռքսեղմման ժամանակ: Գործիքները, ինչպիսին է cURL Impersonate-ը, որը նմանակում է դիտարկիչի TLS կազմաձևերը, կարող են օգնել շրջանցել այս բլոկները: Քերման ամբողջական ազատության համար օգտագործեք այնպիսի լուծումներ, ինչպիսիք են Bright Data's Scraping Browser API-ն:
Ձեր վեբ քերիչը նորից արգելափակվե՞լ է: Ուֆ, հիմա ինչ? Դուք գամեցիք այդ HTTP վերնագրերը և այն դարձրեցիք զննարկչի տեսք, բայց կայքը դեռ պարզեց, որ ձեր հարցումները ավտոմատացված են: Ինչպե՞ս է դա նույնիսկ հնարավոր: Պարզ. դա ձեր TLS մատնահետքն է: 😲
Սուզվեք TLS մատնահետքերի նենգ աշխարհը, բացահայտեք, թե ինչու է այն լուռ մարդասպանը շատ բլոկների հետևում և սովորեք, թե ինչպես շրջանցել այն:
Anti-Bot-ը Ձեզ նորից արգելափակե՞լ է: Ժամանակն է իմանալ, թե ինչու:
Ենթադրենք, դուք գործ ունեք քերելու բնորոշ սցենարի հետ: Դուք ավտոմատացված հարցում եք կատարում՝ օգտագործելով HTTP հաճախորդը, օրինակ՝ Python-ում կամ JavaScript-ում՝ վեբ էջի HTML-ը ստանալու համար՝ դրանից որոշ տվյալներ քաղելու համար:
Ինչպես դուք հավանաբար արդեն գիտեք, կայքերի մեծամասնությունը ունի: Հետաքրքրու՞մ եք քերելու դեմ լավագույն տեխնոլոգիայով: Ստուգեք մեր ուղեցույցը լավագույն հակաքերիչ լուծումների վերաբերյալ: 🔐
Այս գործիքները վերահսկում են մուտքային հարցումները՝ զտելով կասկածելիները:
Եթե ձեր խնդրանքը կարծես թե սովորական մարդուց է, ապա կարող եք գնալ: Հակառակ դեպքում. Այն պատրաստվում է քարկոծվել: 🧱
Բրաուզերի հարցումներ ընդդեմ բոտի հարցումների
Հիմա, ինչպիսի՞ն է սովորական օգտատիրոջ խնդրանքը: Հեշտ! Պարզապես գործարկեք ձեր բրաուզերի DevTools-ը, անցեք «Ցանց» ներդիր և համոզվեք ինքներդ.
Եթե դուք պատճենեք այդ հարցումը cURL-ին՝ ընտրելով տարբերակը աջ սեղմման ընտրացանկից, դուք կստանաք այսպիսի բան.
Եթե այս շարահյուսությունը ձեզ նման է չինարենին, մի անհանգստացեք. ստուգեք cURL-ի մեր ներածությունը : 📖
Հիմնականում «մարդկային» հարցումը պարզապես սովորական HTTP հարցում է՝ որոշ լրացուցիչ վերնագրերով ( -H դրոշներ): Հակաբոտային համակարգերը ստուգում են այդ վերնագրերը՝ պարզելու համար, թե արդյոք հարցումը գալիս է բոտից, թե օրինական օգտագործողից բրաուզերում:
Նրանց ամենամեծ կարմիր դրոշներից մեկը: վերնագիր: Բացահայտեք մեր գրառումը վեբ քերիչ օգտագործողների լավագույն գործակալների վերաբերյալ: Այդ վերնագիրն ավտոմատ կերպով սահմանվում է HTTP հաճախորդների կողմից, բայց երբեք չի համապատասխանում իրական բրաուզերների կողմից օգտագործվողներին:
Անհամապատասխանությո՞ւնն է այդ վերնագրերում: Դա մեռած նվեր է բոտերի համար: 💀
Լրացուցիչ տեղեկությունների համար սուզվեք մեր ուղեցույցում :
HTTP վերնագրերի կարգավորումը միշտ չէ, որ լուծում է
Այժմ դուք կարող եք մտածել. «Հեշտ ուղղում, ես պարզապես ավտոմատացված հարցումներ կկատարեմ այդ վերնագրերով»: Բայց մի վայրկյան… 🚨
Շարունակեք և գործարկեք այն cURL հարցումը, որը պատճենել եք DevTools-ից.
Անակնկալ. Սերվերը պատասխանում է ձեզ Cloudflare-ից «403 Access Denied» էջով: Այո, նույնիսկ զննարկիչի նման վերնագրերի դեպքում դուք դեռ կարող եք արգելափակվել:
Բայց սպասիր, ինչպե՞ս։ Արդյո՞ք դա ճիշտ նույն խնդրանքը չէ, որը բրաուզերը կկատարի: 🤔 Դե, ոչ այնքան…
Բանալին գտնվում է OSI մոդելում
OSI մոդելի կիրառման մակարդակում զննարկիչը և cURL հարցումները նույնն են: Այնուամենայնիվ, կան բոլոր հիմքում ընկած շերտերը, որոնք դուք կարող եք անտեսել: 🫠
Այս շերտերից մի քանիսը հաճախ մեղավոր են այդ տհաճ բլոկների հետևում, և այնտեղ փոխանցվող տեղեկատվությունը հենց այն է, ինչի վրա կենտրոնանում են առաջադեմ հակաքերիչ տեխնոլոգիաները: Խորամանկ նենգ գազաններ! 👹
Anti-bot համակարգերը նաև մեծ ուշադրություն են դարձնում մատնահետքին անվտանգ հաղորդակցման ալիքից, որը հաստատվել է ձեր սցենարի և թիրախային վեբ սերվերի միջև Տրանսպորտային շերտում:
Հենց այստեղ է, որ ամեն ինչ տարբերվում է դիտարկիչի և ավտոմատացված HTTP հարցումների միջև: Թույն, չէ՞: Բայց հիմա դուք պետք է մտածեք, թե դա ինչ է ենթադրում… 🔍
Ի՞նչ է TLS մատնահետքը:
եզակի նույնացուցիչ է, որը ստեղծում են հակաբոտային լուծումները, երբ ձեր զննարկիչը կամ HTTP հաճախորդը անվտանգ կապ է ստեղծում վեբկայքի հետ:
Դա նման է թվային ստորագրության, որը ձեր մեքենան թողնում է ժամանակ՝ հաճախորդի և վեբ սերվերի սկզբնական «զրույցը»՝ որոշելու, թե ինչպես են նրանք ծածկագրելու և պաշտպանելու տվյալները Տրանսպորտի շերտում: 🤝
Երբ դուք HTTP հարցում եք կատարում կայքին, ձեր բրաուզերի կամ HTTP հաճախորդի հիմքում ընկած TLS գրադարանը սկսում է ձեռքսեղմման ընթացակարգը: Երկու կողմերը՝ հաճախորդը և սերվերը, սկսում են միմյանց հարցնել, օրինակ՝ «Ի՞նչ գաղտնագրման արձանագրություններ եք աջակցում»: և «Ո՞ր ծածկագրերը պետք է օգտագործենք»: ❓
Ելնելով ձեր պատասխաններից՝ սերվերը կարող է իմանալ՝ դուք սովորական օգտատեր եք զննարկիչում, թե ավտոմատացված սկրիպտ՝ օգտագործելով HTTP հաճախորդ: Այլ կերպ ասած, եթե ձեր պատասխանները չեն համապատասխանում սովորական բրաուզերների պատասխաններին, դուք կարող եք արգելափակվել:
Պատկերացրեք այս ձեռքսեղմումը, ինչպես երկու մարդ հանդիպում են.
Մարդկային տարբերակ .
Սերվեր. «Ի՞նչ լեզվով ես խոսում»:
Զննարկիչ. «Անգլերեն, ֆրանսերեն, չինարեն և իսպաներեն»
Սերվեր. «Հիանալի է, եկեք զրուցենք»
Բոտի տարբերակ .
Սերվեր. «Ի՞նչ լեզվով ես խոսում»:
Բոտ. «Մաու! 🐈»
Սերվեր. «Կներեք, բայց դուք մարդ չեք թվում: Արգելափակված!"
TLS մատնահետքը գործում է OSI մոդելի Application շերտի տակ: Դա նշանակում է, որ դուք չեք կարող պարզապես կսմթել ձեր TLS մատնահետքը մի քանի տող կոդով: 🚫 💻 🚫
TLS մատնահետքերը կեղծելու համար դուք պետք է փոխեք ձեր HTTP հաճախորդի TLS կազմաձևերը իրական բրաուզերի հետ: Բռնե՞լը։ Ոչ բոլոր HTTP հաճախորդներն են թույլ տալիս դա անել:
Հենց այստեղ են գործում այնպիսի գործիքներ, ինչպիսիք են : cURL-ի այս հատուկ կառուցվածքը նախատեսված է զննարկիչի TLS կարգավորումները նմանակելու համար՝ օգնելով ձեզ նմանակել զննարկիչը հրամանի տողից:
Ինչու անգլուխ զննարկիչը նույնպես լուծում չի կարող լինել
Հիմա, դուք կարող եք մտածել. «Դե, եթե HTTP հաճախորդները տալիս են «բոտի նման» TLS մատնահետքեր, ինչու՞ չօգտագործել զննարկիչը քերելու համար»:
Գաղափարն այն է, որ օգտագործվի գործիք՝ առանց գլխի բրաուզերի վեբ էջի վրա կոնկրետ առաջադրանքներ գործարկելու համար:
Անկախ նրանից, թե զննարկիչը աշխատում է գլխով կամ առանց գլխի ռեժիմով, այն դեռ օգտագործում է նույն հիմքում ընկած TLS գրադարանները: Դա լավ նորություն է, քանի որ դա նշանակում է, որ անգլուխ բրաուզերները ստեղծում են «մարդկանման» TLS մատնահետք: 🎉
Սա է լուծումը, չէ՞: Իրականում ոչ… 🫤
Ահա թե որն է հարվածը. անգլուխ բրաուզերները գալիս են այլ կոնֆիգուրացիաներով, որոնք գոռում են. «Ես բոտ եմ»: 🤖
Իհարկե, դուք կարող եք փորձել թաքցնել դա Puppeteer Extra-ում գաղտագողի պլագինի միջոցով, սակայն առաջադեմ հակաբոտային համակարգերը դեռևս կարող են հոտոտել անգլուխ բրաուզերները JavaScript-ի մարտահրավերների և բրաուզերի մատնահետքերի միջոցով:
Այսպիսով, այո, անգլուխ բրաուզերները ձեր անխոհեմ փախուստը չեն նաև հակաբոտերին: 😬
Ինչպես իսկապես շրջանցել TLS մատնահետքը
TLS մատնահետքի ստուգումը բոտերի պաշտպանության առաջադեմ մարտավարություններից միայն մեկն է, որն իրականացնում են բարդ քերծող լուծումները: 🛡️
TLS մատնահետքի և այլ անհանգստացնող բլոկների գլխացավերը իսկապես թողնելու համար ձեզ հարկավոր է հաջորդ մակարդակի քերման լուծում, որն ապահովում է.
Հուսալի TLS մատնահետքեր
Անսահմանափակ մասշտաբայնություն
CAPTCHA-լուծող գերտերություններ
Ներկառուցված IP ռոտացիա 72 միլիոն IP պրոքսի ցանցի միջոցով
Ավտոմատ կրկնվող փորձեր
JavaScript-ի մատուցման հնարավորություններ
Սրանք մի քանի առանձնահատկություններ են, որոնք առաջարկվում են Bright Data's ի կողմից՝ ամպային դիտարկիչի ամբողջական լուծում՝ վեբն արդյունավետ և արդյունավետ կերպով քերելու համար:
Այս արտադրանքը անխափան կերպով ինտեգրվում է ձեր սիրած զննարկիչի ավտոմատացման գործիքներին, ներառյալ դրամատուրգը, սելենը և տիկնիկը: ✨
Պարզապես կարգավորեք ավտոմատացման տրամաբանությունը, գործարկեք ձեր սցենարը և թույլ տվեք, որ Scraping Browser API-ն կարգավորի կեղտոտ աշխատանքը: Մոռացեք բլոկների մասին և վերադարձեք այն, ինչ կարևոր է՝ քերել ամբողջ արագությամբ: ⚡️
Պետք չէ՞ շփվել էջի հետ: Փորձեք Bright Data's :
Վերջնական մտքեր
Այժմ դուք վերջապես գիտեք, թե ինչու հավելվածի մակարդակով աշխատելը բավարար չէ բոլոր բլոկներից խուսափելու համար: Ձեր HTTP հաճախորդի կողմից օգտագործվող TLS գրադարանը նույնպես մեծ դեր է խաղում: TLS մատնահետք? Այլևս առեղծված չէ, դուք կոտրել եք այն և գիտեք, թե ինչպես հաղթահարել այն:
Փնտրու՞մ եք միջոց քերել առանց բլոկների հարվածելու: Մի նայեք ի գործիքների փաթեթին: Միացե՛ք ինտերնետը բոլորին հասանելի դարձնելու առաքելությանը, նույնիսկ ավտոմատացված HTTP հարցումների միջոցով: 🌐
Մինչև հաջորդ անգամ, շարունակեք ազատորեն շրջել համացանցում: