end0tknr's kipple - web写経開発

太宰府天満宮の狛犬って、妙にカワイイ

cookieチケットを要するサイトに対しての wget による crawl

STEP 1 - cookie file の準備

wgetの --save-cookies オプション により、以下のようなタブ区切りファイルで cookieが保存されますが、同様の書式で cookies.txt を準備します。

# HTTP Cookie File
# Generated by Wget on 2021-07-29 13:22:10.
# Edit at your own risk.

.sexy.co.jp FALSE   /   FALSE   1830124283  neoxmileauthticket3766  hogehogeticket
.sexy.co.jp FALSE   /   FALSE   1830124283  neoxmilesearchinittype  user

STEP 2 - wgetの実行

以下の通りで、 cygwin に付属する wget でも同様に動作します。

$ wget
  --mirror \
  --keep-session-cookies \
  --load-cookies=cookies.txt \
  --secure-protocol tlsv1 \
  --no-check-certificate \
  --random-wait \
  --tries=5 \
  --timestamping \
  --convert-links \
  --convert-file-only \
  --page-requisites \
  --reject=pdf,zip,xls,xlsx,xlsm,ppt,pptx,doc,docx,mp3,mp4,wmv,wav,mov,mpg,tif,exe \
  --user-agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:78.0) Gecko/20100101 Firefox/78.0" \
  http://www.jbnk.sexy.co.jp/jb/index_a.html