memo

技術

lxmlを使ってみる

とりあえず動かしてみる >>> html = lxml.html.fromstring(""" ... <html> ... <head><title>ていちゅらのテストページ&l...
技術

urllib サンプル

Forbiddenに対応させたかった HTTPステータスコードが 403:Forbidden:閲覧禁止だった場合、 ユーザーエージェントを偽装してアクセスするサンプル #!/usr/bin/env python # encodin...
技術

memo-2018_1209_1646

memo-2018_1209_1646 # リダイレクトしたいコマンドをシェルの引数として渡す # 000-default.conf のコメント行以外をリダイレクトしている sudo bash -c "cat /etc/apache2...
技術

memo-2018_1208_2236

memo-2018_1208_2236 cat /etc/apache2/sites-available/000-default.conf | grep -Ev -e '^\s*#' -e '^\s*$' <VirtualHost...
技術

memo-2018_1127_0003

memo-2018_1127_0003 cat index.html | head <!DOCTYPE html> <html xmlns="" xmlns:og="" xmlns:fb="" xml:lang="j...
技術

lxml cssselect beautifulsoup4 インスコ

スクレイピングに使うパッケージ類を入れる lxmlについて lxmlとは、Python で xml や html を扱うためのライブラリ。 libxml2 と libxslt を使ったC拡張ライブラリで、とにかく早いらしい。 l...
技術

memo-2018_1125_1611

memo-2018_1125_1611 """ 複数のページをクロールするならSessionオブジェクトを使う。 r'にリクエストを送る場合TCPコネクション確率時に処理される、 暗号化(TLS/SSLハンドシェイク)の負荷を軽減し...
技術

memo-2018_1124_1150

memo-2018_1124_1150 """ print(*objects, sep, end, file, flush) objects: 出力対象のオブジェクト。 sep: 区切り文字(セパレータ)。デフォルトで半角空白。 ...
技術

memo-2018_1123_1841

memo-2018_1123_1841 cat dp.html | grep 'paging-number' <li class="paging-number">1</li> ...
技術

memo-2018_1120_0109

memo-2018_1120_0109 # を起点として再帰的にクローリング wget -r -np -w 1 -l 1 --restrict-file-names=nocontrol sudo apt-get install ...
タイトルとURLをコピーしました