Jan 01, 1970
requests HTTP ライブラリは、Web サイトへのリンクを使用して HTML ファイルをダウンロードするためのものです。
.get()
関数。 # app.py import requests response = requests.get( '//news.ycombinator.com/news' ) yc_web_page = response.text print(yc_web_page)
requests
モジュール .get()
機能は、提供された Web サイトのリンクから HTML ファイルをダウンロードします。.text
コマンド python でこのコードを実行すると
app.py
出力はありません。これは、インポートされた 2 つのモジュールをインストールする必要があることを意味します。次のコマンドを実行して、モジュールをインストールします。 pip3 install requests pip install beautifulsoup4
次は更新してみましょう
app.py
美しいスープを使用して残りのコードを含むファイル: # main.py import requests from bs4 import BeautifulSoup # add this
response = requests.get( '//news.ycombinator.com/news' ) yc_web_page = response.text # add this
soup = BeautifulSoup(yc_web_page, 'html.parser' ) article_tag = soup.find(name= "a" , class_= 'titlelink' ) article_title = article_tag.get_text() article_link = article_tag.get( 'href' ) article_upvote = soup.find(name= "span" , class_= "score" ).get_text() result = { "title" : article_title, "link" : article_link, "point" : article_upvote } print(result)
yc_web_page
BeautifulSoup 関数を使用し、 html.parser
HTMLファイルを取得するにはコードの残りの部分に進む前に、次のリンクを使用して Web ブラウザーを開きましょう。
.get()
次に、ページを右クリックし、検査をクリックして、 YCombinatorニュース ページの要素タブを表示します。
Web ページは次のようになります。 find()
要素の名前、タグ、およびclass_
アンダースコア付き。これは、Web ページ上の要素のクラスが上書きされるのを防ぐために行われます。 article_tag
を使用して.get_text()
関数article_tag
属性の使用href
とともに.get()
関数article_upvote
変数、タグ名、 <span>
、およびクラス名は、各記事リンクのポイントを抽出するために使用されます