スクレイピングに使うパッケージ類を入れる
lxmlについて
lxmlとは、Python で xml や html を扱うためのライブラリ。
libxml2 と libxslt を使ったC拡張ライブラリで、とにかく早いらしい。
lxmlを使うには下記パッケージを入れておく必要がある。
libxml2-dev, libxslt-dev, libpython3-dev, zlib1g-dev
sudo apt-get install libxml2-dev libxslt-dev libpython3-dev zlib1g-dev pip install lxml python -c 'import lxml'
BeautifulSoup4について
覚えやすいシンプルなAPIが特徴のスクレイプングライブラリ。
目的に合わせて内部のパーサーを選択できる。
・html.parser: 標準ライブラリのhtml.parser: 追加のライブラリ不要
・lxml: lxmlのHTMLパーサー: 高速に処理できる
・lxml-xml: lxmlのXMLパーサー: 唯一XMLに対応していて高速に処理できる
・html5lib: html5lib: HTML5の仕様通りにパースできる
pip install beautifulsoup4 python -c 'import BeautifulSoup
その他のスクレイピングライブラリ
CSSセレクターを扱うならcssselectを入れる。
もし使うなら、pyqueryも入れてみる。jQueryみたいに使えるらしい。
pip install cssselect # pip install pyquery # python -c 'import PyQuery'
コメント