end0tknr's kipple - web写経開発

太宰府天満宮の狛犬って、妙にカワイイ

wget for linux でサイトをクローリング(スクレイピング?)する際の自分流オプション

おおよそ、次のようなオプションでdownloadすることで、 localにサイトのクローンを作成できてきます。

最近の世の中には、サイトクロールを行う高機能?なツールも存在すると思いますが、 wgetも十分すぎる程、高機能で、以下の他にも大量のoptionがあります

$ wget --version
  GNU Wget 1.19.5 built on linux-gnu.
$ nohup \
    wget
      --mirror                   \ = --recursive & --level inf & -–timestamping 
      --page-requisites          \ pageが使用する画像,css,jsもdownload
      --no-clobber               \ download済fileを上書きせず、別名で保存
      --restrict-file-names=unix \ 日本語file名の文字化け防止 [unix|windows]
      --convert-links            \ localのfileでも閲覧できるよう相対path化
      --adjust-extension         \ .htmlがない場合の拡張子付与や?パラメータ削除
      --random-wait              \
      --no-parent                \
      --no-host-directories      \
      --quiet --show-progress    \ tail -f で進捗を眺める際、適度な情報量
      --execute robots=off       \ 
      www.ないしょ.com &

「--adjust-extension」を使用する場合、wgetの処理完了までの間、 file名が「RGPINH~2」のようなrandomな名称になっている気がします。