このページについて

GPUがハングしているように見えて、通信関連でエラーが発生していました。PCがハングする要因を、複数抱えていたため発見と対策に手間取った、というのが正直な所です。

 プライバシーポリシー / 免責事項
注意

以下、このページの本文です。

2015.03.08: リンク切れの修正。

後日追記情報(2014.06.24):
このページに書いている障害は「USB3.0ポートに2.4Ghz無線LAN子機を直刺ししていた」事が最大の原因かもしれません。
新記事→ USB3.0機器から発生するノイズは、2.4Ghz無線LANに悪影響を与えるらしい。
トラブル発生当時は、上記の情報を全く知りませんでした。。。

追記終わり。



5月11日から発生していたKP41エラー、克服できました。
 ・原因の絞り込みを実行
 ・3日間の安定作動を確認
 ・KP41エラー発症の再現性を確認
 ・そこから再び3日間の安定作動を確認

という流れを取ったので、今回のKP41病は克服できたと見て間違いないと感じています。

KP41病、克服
▲クリックで拡大。
5月14日に原因特定。3日間の安定作動を確認した後、17日に再現性テストを行い、問題の特定を完了。
その後、5/18~5/21まで安定作動中。特定した箇所に間違いは無いと思われます。

スポンサー リンク

暗号通貨マイナーの方々へ

今回の症状は、仮想通貨「採掘」時に発生するトラブルでした。
「GPU の暴走に見えて、実は通信関連にトラブルが発生していた」事例になりますので、「海外の中規模Pool」を転々と渡りながらマイニングをしている仮想通貨愛好家さんは以下の情報を覚えておいても損はないかと思います。

暗号通貨マイナー以外の方へ

Windows8.1 Update1以降(または5/2のIE脆弱性修正パッチ以降)では、クラウドアプリやクライアントツールなど、ネットと同期を取るツールで意外と不具合が出やすい状況になっている、と予想しています。

 

今回の件をざっくりまとめると

  • 一般的なKP41病と呼ばれている症状とは異なる原因が含まれていました。
  • GPUがハングしているように見えていて、実はネットワーク関連でエラーが発生していました。
  • PCがハングする要因を複数抱えていたため、発見と対策に手間取りました

今回の原因

  1. 5月11日のWindows Update (もしくは最初のPCハング)で、USBドライバもしくは無線LAN子機のドライバが壊れた。
  2. 我が家のPCとWindows Updateサーバーへの接続に、何らかの不具合が発生した。
  3. 「一部WebサイトのDDoSプロテクト」と「問題のPC&通信ツール」との相性が悪くなった

この3点が原因でした。「3.」に気が付くのに非常に時間がかかりました(^_^;
このページでは「3.」について紹介します。
(「1.」と「2.」については、次回更新で紹介する予定です。)

今回のKP41病の「分かりにくかった原因」

最大の原因は以下でした。
 ・海外の暗号通貨Pool「d g b p o o l . c o m」利用
 ・ワーカーを3つ以上同時に走らせる
 ・採掘ツールに sph-sgminerを利用
 ・Windows8.1 (5/2のIE脆弱性アップデート 適用マシン)
※(もう一ヶ所ハング発生するプールがあったのだけど、ブックマークしなかった)

非常に特殊な例なので、普通のPC環境では発生しないかもしれません(^_^;

  • 同じプログラムを実行している Windows7 マシンでは、何も問題は発生しません。
  • 該当プールを利用した場合でも、ワーカー数が2個以下の場合はPCハングしません。
  • 他のプールを利用した場合も、ワーカーを3つ同時に起動させても、PCハングは発生しません。
  • 5月11日 (5/2リリースのIE脆弱性修正 Windows Update 適用前)までは、このツールと特定プールの組み合わせで、何の問題も発生しませんでした。
    (Badgercoin採掘で4/27~5/8に利用していた時は何の問題も出なかった)
  • USB機器、無線LAN子機、Windows updateサーバへの接続不調を修復しても、この症状は発生します

なので、上記のプールは何か特殊なDDoSプロテクトを行っており、ある一定数以上の通信を行った場合、マイニングツールを停止させる(もしくは通信速度を落とす)ような仕組みを採っているのだと思われます。

そして、このプロテクト方法が、5月11日(5月2日)のWindows update以降のWindows8.1 (またはGPU2枚挿し状態の sph-sgminer)と相性が悪いのだろう、と予測し、PCハングの再現性を検証、確認できました。

おことわり

  • 「中華プールなので目を付けられると怖い」という理由でURLにはスペースを挟んでいます(^_^;
  • 上で示したプールは、bitcointalkの新コイン ローンチアナウンスで何の問題も無くオフィシャルプール扱いで掲載されています。
    • 「PCがハングする」というような苦情は、どのフォーラムでも発生していません。
    • 恐らく、プールやプロテクト方法には何も問題はありません。
    • 私のPoolへの接続方法が非常識なのかもしれないです。
    • ガチなマイナーは無線LAN接続していないのかもしれないです。
    • Windows+無線LANで採掘するような半端モノが足を踏み入れてはいけない領域かもしれません( ̄▽ ̄;)
    • と言いつつも、「IEの脆弱性対策パッチ適用と同時に不具合連発する」ってのは、なんだか怖いですねえ('Α`)

解決のヒント

これは盲点でした。

windows8.1 update1(KB 2919355)導入のPCでicloudなどを使用する際の注意点 - 自作PCの道楽
▲このページでwindows8.1 update1の導入で、クラウドアプリの同期が取れなくなる・・・という症状を発見し、「暗号通貨クライアントの同期や採掘ソフトとプールの接続を疑ってみよう」と思った次第です。

効果の無かった対策

最初はGPU側の問題を疑ったけれど、今回の場合、以下は全く効果がありませんでした。

  • ビデオカードドライバの入れなおし
    • Driver Fusionを使い、古いドライバを完全削除しても効果は無かった
  • GPU電圧を昇圧してみる
    • GPU電圧を1.105Vまで昇圧した。効果は無かった
       ※3ヶ月間1.031~1.055Vで安定作動していた。
       ※デフォルト電圧は1.200~1.150V
       ※ネット上の情報では1.070Vまで降圧させても正常作動する

と言う事で

海外の色々なプールを利用し、不意にPCやGPUの調子が悪くなった際は、
 ・「あれ?PCの調子が悪くなったかな?」
 ・「GPUか電源ボックスの寿命が来たかな?」
というような場合でも、プールを変更する(もしくはワーカー数を減らす)だけで症状が改善する場合がありますよ。。。

というお話でした。

KP41エラー解決のための教訓

2年前今回、2度のKP41病を克服しましたが、そのどちらも
「ある意味定番のトラブル」と「思いもよらないトラブル」が同時に発生していて、対処方法に頭を悩ませてしまう・・・・という感じの結末になっています。

「KP41病が発生した」という場合は、
往々にしてPCに複数の問題が同時に発生していて、その問題の切り分けが難しくなっているだけなのかもしれません。

 

このページの本文終わり。

おまけ(海外プールでのマイニングについて)

海外プールは、どこもDDoS対策が厳しいです。
今回の事例とは関係ないのですが、suchpool(既に閉鎖)というプールの場合は、「sgminerのセッティングを調整するために1分ほど稼動テスト、切断して--thread-concurrencyの値を調整し、再接続・・・」なんて事を3~4回繰り返すと2~3時間のアクセスブロックを喰らいます。

海外のそこそこ大きなプールは、どこも何かしらのDDoS対策を行っており、無茶な接続をしているとあっという間に規制を喰らっちゃいます。

国内の暗号通貨Poolはどこも優しいですねえ。海外のガチプールの厳しさを痛感する日々を過ごしています(^_^;