GetHTMLWは、ブログやHPを丸ごと保存して、後からオフラインで閲覧できるフリーソフトです。
▲Webページの取得に特化したフリーソフトで、ローカル閲覧はIE、Firefoxなど一般のブラウザをプロキシ変更して行います。
利用できる状況
- 表示が非常に遅いサイトをバックグラウンドでダウンロードして、後から快適に閲覧
- サイト引越しなどに。
- ネットが出来ない環境や、電車通勤・通学中での閲覧に。
GetHTMLW 概要
ダウンロード :GetHTMLW(Vector)
(コマンドライン版のGetHTMLもあります)
作者:YutakaEndo(作者ブログ)
ライセンス:フリーソフト
Windows7/Vistaでの作動 :やや難アリ
GetHTMLWを起動すると、Windowsフォルダに「gethtmlw.ini」「proxycfg.pac」という設定ファイルが生成されますが、7/Vistaでは管理者権限で起動しなければこのファイルの生成・変更が出来ません。
※最新バージョンは、生成される設定ファイルの名前が異なるようです。
設定ファイルが無くても問題なく作動しますが、環境設定を色々変更したい方はUACをOFFにするか、管理者権限で起動させるようにしましょう。
GetHTMLWを使う前にお願い
使い方の解説の前に、サイト管理者としてお願いです。
当サイトもよくGetHTMLWやWeBoxなどを利用してのダウンロードをして頂いてますが、初期設定のままで12時~25時頃に使用されると、サーバーへの負荷が結構大きいです。管理人として泣きたい位の時もあります。
必ず以下の様な設定を行うようお願いします。
- GetHTMLWフォルダに「gethtml.txt」というファイル作成
▲GetHTMLW.exeと同じ階層に作成します。 - メモ帳などで開いて
上記2行をコピー&ペーストし、保存します。.(cgi|pl) -5000 .(html?|php) -2000
※拡張子と数字の間のスペースがタブになっている事を確認して下さい - ファイル名(拡張子)を「gethtml.mcf」に変更。
上記はあくまでもウチのサイトでの目安ですが、htmlファイル、phpファイルは2秒に1回、cgiページは5秒に1回のペースでダウンロードする設定です。これ位のペースならば、このサイトは大丈夫な筈です。(ちなみに初期設定は1秒)
ページ数の多いサイト、アクセス数の多いサイト、cgiやphpで作動しているサイトなどは、上記の様な「ゆるやかな設定」でダウンロードを行うように心がけましょう。(表示の遅いサイトでは、htmlファイルも5秒くらいのウェイトを入れましょう)
ダウンロードソフトによりサーバーへの負荷が増大すると、サーバーの管理者が何らかの制限や禁止設定を設ける場合があります。
時々1秒間に2~5ページずつ取得していく方がいらっしゃいますが、サーバーに負荷が掛かっている間は他の閲覧は通常の半分以下の表示速度で閲覧することになります。他の人の事も考えて、迷惑にならないような設定を心がけましょう。
gethtml.mcfの指定どおりにダウンロード出来ない場合のチェックポイント
以下の点に注意して下さい。
・ダウンロードしたいWebサイトに、robots.txtが置いてある場合は、ダウンロード間隔は
robots.txtの指定に従います。
(例えば、現在このサイトでgethtmlを利用すると、1秒間隔でダウンロードされます)
(例えば、wikipediaなどはgethtmlでダウンロードできません)
・gethtml.mcfで指定していない拡張子のファイルは1秒間隔でダウンロードされます。
・別ドメインに保存されたファイルは、秒数のカウントが別扱いになります。
(1秒に複数のファイルをダウンロードしているように見える場合があります)
GetHTMLW の簡単な使い方
まずは簡単に、単にWebページを取得する方法。
▲ツールバーより、「取得」>「WebPage取得」
▲ダウンロードしたいページの先頭URLを入力(またはブラウザからコピペ)
▲指定回数分リンクを辿りながらWebページとそこに含まれる画像がダウンロードされます。
保存するだけなら、とても簡単に行えます。
LivedoorブログやFC2ブログなどの画像を取得する方法
LivedoorブログやFC2ブログなど、多くの無料ブログサービスでは、サムネイル画像のリンク先の画像が、htmlと異なるサーバーに置いてあります。
初期設定のままでは、これら(異なるサーバーやドメイン)の画像は取得されません。
▲ツールバーより「設定」>「取得条件設定」
▲「許容URL設定」に画像サーバーを追加して行きます。
(FC2は画像サーバーが沢山あって面倒。。。自分のブログならば管理画面の画像管理から1ページずつの保存の方が良いかも)
ダウンロードの例外設定
▲「設定」>「取得条件設定」から「フィルタ編集」を選択し、編集。
ダウンロードする必要のないファイル(拡張子)を "|" 記号で挟みながら追加して行きます。
(#はコメントアウト)
Webページにあまりに重いデータや、閲覧に関係ないデータが多い場合は、禁止設定を行う事によってダウンロードの時間節約、HDDの容量節約になります。
ウチのサイトをダウンロードする場合は、2行目に「cgi」を入れて頂けると嬉しいです。
携帯用ページがcgiで用意してありますが、高速ダウンロードを全く想定していない上に、5000ページ以上あり、一部URLはループ気味になっているので、何時まで経ってもダウンロードは終わりません。(しかも中身はPC用サイトと同じです。)
保存したサイトの閲覧・ブラウザのプロキシ設定
実は、上記の方法でダウンロードしたWebページをローカル(ネットから切り離して)閲覧するには、少々コツが必要です。ブラウザにプロキシ設定を行わなければいけません。
- proxycfg.pacファイルの確認
Windowsフォルダにproxycfg.pacというファイルが生成されているか確認。
生成されていなければ1回GetHTMLWを終了・再起動させる。
(Vista/7は管理者権限で起動・終了させないと生成されない。)
それでも作成されない場合は、GetHTMLWのプロキシ設定を適当に弄ってみる。
▲するとこんなメッセージが出て、proxycfg.pacが生成されるはず。
この後プロキシ設定を元に戻し、GetHTMLWを再起動。 - ブラウザのプロキシ設定
以下、Firefoxを例に
▲「自動プロキシ設定スクリプト」の項目に「file://C:\Windows/proxycfg.pac」と入力する。
(上記はWindowsがCドライブ直下のWindowsフォルダにインストールされていて、そこにproxycfg.pacがある場合) - GetHTMLWのプロキシ設定
▲通常はGetHTMLWのプロキシ設定は、空欄のままでOKです。
これでダメなら、ReadMeをよく読んで見ること - ブラウザとGetHTMLWを再起動する
- タスクトレイアイコンから接続方法の選択
▲タスクトレイからGetHTMLWのアイコンを右クリックし、Local Modeを選択すると、ローカルに保存されたWebページを閲覧できるようになっている筈。
普段の閲覧(オンライン時)は「Stop Server」や「Proxy Mode2」などで利用するわけですが、その辺りは使いながら慣れて下さい。
ダウンロードしたファイルが閲覧できない
GetHTMLWフォルダ内にダウンロードファイルのフォルダが生成されていれば、ダウンロードは成功しています。ローカル閲覧出来ないのはプロキシ設定が上手く行っていない場合が殆どです。
何度も繰り返しダウンロードするのは控えましょう。
プロキシの設定さえ正しく行えば、一度ダウンロードしたファイルは必ず閲覧できるようになります。
GetHTMLWのアンインストール
- ダウンロード・解凍したGETHTMLWフォルダの全削除
- Windowsフォルダ内のgethtmlw.iniファイル、proxycfg.pacファイルの削除
- ブラウザのプロキシ設定を元に戻す
以上でアンインストールは完了です。
これでもよく解らないよ!って方へ
GetHTMLWは結構扱いが難しいツールです。
しかし添付のReadMeに、かなり詳しい解説が載っています。頑張って意味が分かるまで全部読んで見ましょう。
同系統のツールと比較
同じようなWebサイト保存ツールに、WeBoxというフリーソフトがあります。
- PC操作に慣れない人は、WeBoxの方が直感的で分かり易いと思います。
WeBoxは初期設定で相対アドレスに変換してくれるので、Webサイト引越しに向いています。 - GetHTMLWは相対アドレスへの変換はありません。サイト引越しの場合などは、Speeeeedなどの文字列変換ツールでURL変換を行う必要があります。
- オフライン閲覧の場合は、慣れて来るとGetHTMLWの方が簡単に操作できると思います。
あとがき
夏休みや冬休み終了間際になると、このサイトを丸ごと保存して行こうという方が結構増えます。
「ダウンロードしてまとめて読みたい」「このサイトは是非保存したい」って方がいらっしゃるのは嬉しいことですが、、、、何を失敗しているのか、何度も同じ方がダウンロードをトライしている時は泣きたくなります(^_^;
今の所ダウンロードソフトは容認していますが、
あまりに酷い場合はIP指定やUA指定のアク禁を考えなければいけません。。。
正しい使い方を理解して欲しいとの願いでこのページは書いてあります。
みなさんマナーを守って使ってね。