Python プログラミング

Python:seleniumとBeautifulSoup適材適所

最初に結論

自分の結論としては

動的サイト(javascriptで表示内容が動的に変更されるサイト)のクローリングのみ:seleniumu

静的サイトのクローリング

HTML解析して、適切なデータ(pandasなど)に落とし込む。スクレイピング処理はBeautifulSoup

だと思う。

思考の経緯(失敗談。苦労したところ)

元々のきっかけとして、seleniumu と BeautifulSoup は、どちらか片方をマスターすれば、どんなサイトをスクレイピングするのも

事足りると考えていた。

seleniumu側は、それはYesかもしれない。

自分の場合は、BeautifulSoupを選んだ。

ある程度、BeautifulSoupを使いこなせた頃に壁が

ChromeのDevTools で確かに見れているタグなのに、BeautifulSoupのfindメソッドでヒットしない

という事象に苦しむことになったのだ。

結論としては、JavaScriptで動的に描写している内容は、DevToolsで見えていてもBeautifulSoupでは取得できない。

これを判定するには、ブラウザを開いて、名前をつけて保存したhtmlで当該タグが見つからなければ動的サイト対応が必要となる。

-Python, プログラミング
-