ブログやHPを丸々HDDに保存できるフリーソフト、「WeBoX」の紹介です。

WeBoX
▲WeBoX

一昔前、常時接続やブロードバンドが普及する前はこういうサイト一括保存できるフリーソフトが(閲覧の際の回線代節約のために)大いにもてはやされましたが、現在ではブログの引っ越しの際に重宝するフリーソフトになりました。

電車通勤・通学の間のWeb閲覧に利用する方も多いようです。

このブログ「ぼくんちのTV別館」も、LivedoorBlogからの移転の際に、このWeBoXを使用しました。

WeBoXのダウンロード

WeBoXは、以下のサイトからダウンロードできます。
WeBoX (ダウンロードページ

WeBoXの特徴

  1. 各種サイトを、丸々HDDに保存可能(ディレクトリ指定)
  2. 1ページごとの保存も可能。
  3. IE等、通常のブラウザから右クリック一発での保存も出来る。
  4. 普通のブラウザとしても使用可能。
  5. エディタとしても使用可能。
  6. RSSリーダーにもなる。
  7. Vista/Windows7でも利用可能。
    しかし64bit版Windowsでは、右クリックメニューが作動しない

WeBoXのメイン機能はWebサイトの保存になりますが、通常のブラウザとして使用する事も可能です。

まだまだ開発途中という事もあり、メインブラウザとして使用するにはやや物足りない部分もありますが、通常のブラウザより便利な機能も色々備えており、サイト保存用として使用するのはチョット勿体ないくらい高機能なフリーソフトです。

スポンサー リンク

WeBoXのインストール

ここではLZH版のインストールを紹介します。
上記サイトで最新版(現時点でwebox0.99M.lzh)をダウンロードし、任意の場所で解凍します。
WeBoX解凍
▲解凍するとこのようなファイルが展開されます。

このまま「WeBoX.exe」をダブルクリックしてもWeBoXは起動しますが、最初の起動でIEのレジストリを変更したり、Webサイト取り込みの設定を行ったりしますので、各自の扱い易いフォルダに移動させます。

フォルダ移動
▲Dドライブ直下に移動してみました。

ここでWeBoX.exeを初めて起動します。
すると、以下なダイアログボックスが表示されますので、順次設定していきます。

設定ダイアログ1
▲Emacsって何?な人はWindows風にチェック。

設定ダイアログ2
▲IEの右クリックで表示されるコンテキストメニューに、WeBoXのメニューを追加します。
通常「このページを取り込む」「サイトを取り込む」の二つを登録すれば十分な気がします。
(このメニュー登録が64bit版Windowsでは作動しません)

設定ダイアログ3
▲何やらショートカットメニューがバッティングしてしまいました。
気になる人のみ直しましょう。

WeBoX
これでWeBoXが起動しました。

IEの右クリックメニューからWeBoXを使いたい人は、ここでIE、WeBoX共再起動して使用します。

WeBoXの使い方

ここでは、無料ブログ(主にLivedoorブログ)を保存する際の使い方を説明します。

WeBoX起動
▲WeBoX、IE(インターネットエクスプローラー)どちらからでも構いませんので、保存したいサイト(ブログ)を表示させます。(例としてこのブログの旧URLを表示しています)

右クリで保存
▲サイト上の任意の場所で右クリック。コンテキストメニューを表示させます。
「WeBoXでこのサイトを取り込む」を選択すると、以下の保存設定ダイアログが開きます。

WeBoXで保存する際の重要なポイント

保存設定
▲「WeBoXでこのサイトを取り込む」を選択した後のダイアログ。

リンクを辿る際の部分URL

「リンクを辿る際の部分URL」に指定したドメイン、ディレクトリ以下に保存されているHTML文書が保存される事になります。上記の場合、http://blog.livedoor.jp/tv_bok/ より深い階層のリンクのみ保存されます。

LivedoorBlogの場合、画像ファイルはhttp://image.blog.livedoor.jp/tv_bok/ と別ドメインに保存されていますので、HTML内に埋め込んだ画像は保存してくれますが、リンクを貼った画像は保存してくれません。別途保存の必要が出てきます。

「リンクを辿る際の部分URL」を空欄にすると、WeBoXは全てのリンク先を保存しようとします。保存先が自ブログから外部に漏れた場合、保存容量、保存時間共に天文学的に増えていきますので、絶対空欄にしてはいけません。

リンクを辿る回数

リンクを辿る回数は、その名の通り、保存を開始するページから何クリック分先まで保存するか決定します。ブログの場合、カテゴリや月別ページに100個記事があって、1ページに5つずつ記事表示している場合には100÷5=20ページ先までリンクを辿る必要が出てきます。

取り込みサイズ制限

通常ゼロでOKです。あまりに巨大な画像や動画ファイルがサイト内にあり、既にHDD内にバックアップを持っている場合など、サイズ制限を行うと良いでしょう。

取り込みスタート

以上の設定を終え「OK」ボタンを押すと、保存が開始されます。
回線速度、込み具合等もありますが、約450件の個別記事があるウチのブログの場合、3時間半かかりました。

結構時間がかかりますので、余裕のある時に行いましょう。

WeBoXの保存先
▲ダウンロードしたファイルの保存場所。

WeBoXフォルダ内のDataフォルダにドメイン単位でフォルダが生成され、各種ドキュメントが保存されています。私のブログの場合、「blog.livedoor.jp」フォルダ内に「tv_bok」フォルダが生成され、その中にHTML文書が保存され、「image.blog.livedoor.jp」フォルダ内に画像が保存されています。

WeBoxでブログの画像が取り込めない

前述しましたが、WeBoXは指定したドメインまたはディレクトリ以下に存在するリンクを辿って保存を行いますので、LivedoorBlog、SeeSaaBlog、FC2ブログなど画像を別ドメインで管理しているブログでは、全ての画像を一発で取り込む事はできません。

自分のブログを保存する場合は管理画面に入って、そこから画像を保存していくと良いでしょう。

ファイルの管理・お絵描き
▲Livedoorの場合、管理画面から「ファイルの管理・お絵描き」を選択。なるべく画像を沢山表示させて「WeBioxでこのページを取り込む」を行い順次画像を保存していくと、楽に全画像の保存が行えます。

ほとんどのブログサービスでこのような仕様になっていますので、自分のブログはともかく、他の人のブログを完全保存するのはWeBoXでは難しいと思います。別のソフトを探したほうが早いかもしれません。

 

以上でブログを取り込む事を前提にしたWeBoXの使い方の解説を終わります。
後日、私がLivedoorBlogから引っ越した際のその他の小技の紹介も行いたいと思います。

その他

WeBoXの保存先設定
▲ツールバーの「設定」≫「取り込み設定」で、詳細な取り込みの設定を行う事が出来ます。

正規表現を正しく理解していれば、ここから「取り込み拒否」、「自動クローズ」の設定を行う事で、目的のサイトが複数ドメインを利用していても一発で取り込めます。
しかし設定に失敗するとWeBoXは天文学的に外部サイトを蹂躙して行きますので注意しましょう

【重要】WeBox利用時のマナー

光回線やADSLを利用している場合は、それなりに大きなサイトやWordPressをはじめ動的にWebページを生成しているサイトを保存するのは注意が必要です。

例えば当サイト「ぼくんちのTV 別館」も併設して携帯用にCGI動的な生成ページが設置してあり、WeBoxをそのまま利用するとあっという間にサーバーエラーが発生します。
またCGIページを巡回しないように設定しても、このサイトはページ内の一部をPHPで生成していますので、高速にページを取得していくとサーバーに大きな負荷がかかります。

ウチのサイトに限らず、大規模なサイトやCGIサイト・動的なサイトをダウンロードしたい場合は、必ず以下の設定を行ってください。

WeBoxの設定
▲クリックで拡大
ツールバーから「設定」≫「取り込み設定」≫「ネットワーク」≫「負荷軽減用の設定」で、
「サイトダウンロードにおけるディレイ」を、3000~5000位の数値で利用して下さい。
(時間はかかりますが、大きな数字にした方が確実にダウンロード出来ます
 ウチのサイトをダウンロードする場合は、
 cgiページを含めるなら5000以上、
 cgiページを除外するなら3000以上にして下さい。)

また、「同時チェック数」の数値も「1」のまま使用して下さい。

「高速にダウンロードしたい」と考え、これらの項目で無理な設定を行うと、サイト管理者からアクセス禁止やダウンロード不可の処分を受ける事になります。

と言う事でお願い

光回線やADSLなど高速回線から、「1秒間に3~4ページのペース」で「2~3時間ぶっ通しでダウンロード」されると、DoS攻撃受けてるのと変わりません。

「読んで頂けるのだから」という思いで我慢していますが、サーバーの方は結構ギリギリです。

WeBoxを初期設定のまま利用すると、1秒間に2ページの割合でWebページを取得していきます。
この「ぼくんちのTV 別館」は、サイト表示は高速な部類ですが、やはり連続アクセスを長時間行うとサーバーエラーが発生します。

特に携帯用URL(※公開終了:高速接続を想定していません)までダウンロードし始めると、速攻でサーバーに繋がらなくなりますので、注意してください。

WeBoxやGetHTMLなどのWebページ取得ソフトであまりにえげつないダウンロードをされると、サーバー側で何らかの禁止設定を行なう必要が出てきます(結果、閲覧しているユーザーさんが不便になります)

この手のソフトは注意して、マナー良く使ってください。