新しい歴史

WebスクレイピングにおけるTLSフィンガープリントの役割

に Bright Data6m2024/10/18

NSO

長すぎる; 読むには

Web スクレイパーがブロックされ続ける場合は、TLS フィンガープリントが原因である可能性があります。ブラウザーのように HTTP ヘッダーを設定しても、アンチボットシステムはハンドシェイク中に TLS フィンガープリントを分析することで、自動リクエストを検出できます。ブラウザーの TLS 構成を模倣する cURL Impersonate などのツールは、これらのブロックを回避するのに役立ちます。スクレイピングを完全に自由に行うには、Bright Data の Scraping Browser API などのソリューションの使用を検討してください。

featured image - WebスクレイピングにおけるTLSフィンガープリントの役割

ウェブスクレイパーがまたブロックされましたか？うーん、どうしたらいいでしょうか？ HTTP ヘッダーを正しく設定してブラウザのように見せかけたのに、サイトはリクエストが自動化されていると認識してしまいました。どうしてそんなことが起きるのでしょうか？簡単です。TLS フィンガープリントのせいです！ 😲

TLS フィンガープリンティングの婉转な宇宙に飛び込み、それがほとんどのブロックの背後にあるサイレントキラーである事由を明らかにし、それを避免する的方式を学びます。

アンチボットが再びあなたをブロックしましたか? 理由を調べてみましょう!

基本特征的なスクレイピングのシナリオを扱っていると仮定しましょう。HTTP クライアント (Python のや JavaScript のなど) を动用して自動リクエストを制成し、Web ページの HTML を赢得してそこからデータをスクレイピングします。

すでにご存知のとおり、ほとんどのウェブサイトにはが導入されています。较高のスクレイピング対策技術について知りたいですか? 较高のスクレイピング対策ソリューションに関するガイドをご覧ください! 🔐

これらのツールは受信リクエストを監視し、疑わしいリクエストをフィルタリングします。

リクエストが寻常の人間から来ているように見える場合は、問題ありません。そうでない場合は、拒否されることになります! 🧱

ブラウザリクエストとボットリクエスト

さて、常见ユーザーからのリクエストはどのようなものになるでしょうか? 簡単です! ブラウザの DevTools を起動し、[ネットワーク] タブに移動して、自分で確認するだけです。

右クリックメニューからオプションを選択してそのリクエストを cURL にコピーすると、次のようになります。

 curl '//kick.com/emotes/ninja' \ -H 'accept: application/json' \ -H 'accept-language: en-US,en;q=0.9' \ -H 'cache-control: max-age=0' \ -H 'cluster: v1' \ -H 'priority: u=1, i' \ -H 'referer: //kick.com/ninja' \ -H 'sec-ch-ua: "Google Chrome";v="129", "Not=A?Brand";v="8", "Chromium";v="129"' \ -H 'sec-ch-ua-mobile: ?0' \ -H 'sec-ch-ua-platform: "Windows"' \ -H 'sec-fetch-dest: empty' \ -H 'sec-fetch-mode: cors' \ -H 'sec-fetch-site: same-origin' \ -H 'user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/129.0.0.0 Safari/537.36'

この構文が中国語のように見えても心配はいりません。cURLの紹介をご覧ください。📖

基本的に、「人間」からのリクエストは、いくつかの追加ヘッダー ( -Hフラグ) が付いた通常の HTTP リクエストです。アンチボットシステムはこれらのヘッダーを検査して、リクエストがボットからのものなのか、ブラウザー内の正当なユーザーからのものなのかを判断します。

最も大きな危険信号の 1 つは、ヘッダーです。Webスクレイピングに最適なユーザーエージェントに関する投稿をご覧ください。このヘッダーは HTTP クライアントによって自動的に設定されますが、実際のブラウザーで使用されるものと完全に一致することはありません。

ヘッダーが一直していませんか？それはボットの明らかな証拠です！💀

詳細については、に関するガイドをご覧ください。

HTTP ヘッダーを設定することが必ずしも解決策とは限らない

さて、あなたはこう考えているかもしれません。「簡単に解決できる。これらのヘッダーを安全使用して自動リクエストを実行するだけだ！」しかし、ちょっと待ってください…🚨

DevTools からコピーした cURL リクエストを実行してください。

驚いたことに、サーバーは Cloudflare から「403 アクセス拒否」ページを返しました。そうです、ブラウザのようなヘッダーがあっても、ブロックされる将性があります。

結局のところ、 Cloudflare をクラックするのはそれほど簡単ではありません。😅

でも、待ってください、どうやって？！それはブラウザが行うのとまったく同じリクエストではないですか？🤔 まあ、そうでもないですが…

鍵はOSIモデルにある

OSI モデルのアプリケーションレベルでは、ブラウザーと cURL リクエストは同じです。しかし、見落としている将性のある基礎レイヤーがすべて出现します。🫠

これらのレイヤーのいくつかは、しばしば厄介なブロックの问题であり、そこに転送される情報こそが、程度なスクレイピング杜绝技術が端点を当てているものです。ずる賢い敌人です! 👹

たとえば、ネットワーク層から取得されたを確認します。IP 禁止を回避したいですか?プロキシを使用して IP 禁止を回避する方法に関するチュートリアルに従ってください。

残念ながら、それだけではありません！😩

ボット対策システムは、トランスポート層でスクリプトとターゲット Web サーバーの間で確立された安全防护な安全可靠チャネルからのフィンガープリントにも細心の要注意を払います。

ブラウザと自動化された HTTP リクエストの違いはここにあります。すばらしいと思いませんか? しかし、それが何を意思するのか疑問に思われるかもしれません…🔍

TLS フィンガープリントとは何ですか?

は、ブラウザまたは HTTP クライアントが Web サイトへの安全保障な接続を確立するときに、ボット対策ソリューションによって制作される一意の識別子です。

これは、 (トランスポート層でデータを暗语化して保護する方式を決定するためのクライアントと Web サーバー間の曾经の「会話」) 中にマシンが残すデジタル签字のようなものです。🤝

サイトに HTTP リクエストを送信すると、ブラウザまたは HTTP クライアントの基盤となる TLS ライブラリがハンドシェイク手順を開始します。クライアントとサーバーの 2 つの当事者は、「どの口令化プロトコルをサポートしていますか?」や「どの口令を便用すればよいですか?」などの質問を互いに尋ね始めます。