lxml cssselect beautifulsoup4 インスコ

スクレイピングに使うパッケージ類を入れる

lxmlについて

lxmlとは、Python で xml や html を扱うためのライブラリ。
libxml2 と libxslt を使ったC拡張ライブラリで、とにかく早いらしい。

lxmlを使うには下記パッケージを入れておく必要がある。
libxml2-dev, libxslt-dev, libpython3-dev, zlib1g-dev
 

sudo apt-get install libxml2-dev libxslt-dev libpython3-dev zlib1g-dev

pip install lxml
python -c 'import lxml'

 

BeautifulSoup4について

覚えやすいシンプルなAPIが特徴のスクレイプングライブラリ。
目的に合わせて内部のパーサーを選択できる。
・html.parser: 標準ライブラリのhtml.parser: 追加のライブラリ不要
・lxml: lxmlのHTMLパーサー: 高速に処理できる
・lxml-xml: lxmlのXMLパーサー: 唯一XMLに対応していて高速に処理できる
・html5lib: html5lib: HTML5の仕様通りにパースできる

pip install beautifulsoup4
python -c 'import BeautifulSoup

 

その他のスクレイピングライブラリ

CSSセレクターを扱うならcssselectを入れる。
もし使うなら、pyqueryも入れてみる。jQueryみたいに使えるらしい。

pip install cssselect

# pip install pyquery
# python -c 'import PyQuery'

コメント

タイトルとURLをコピーしました