Core i7 3930KマシンのOC設定がようやく煮詰まってきて、4.3Ghz HT onで常用する事に決めました。ということで、HT 有効/無効での処理能力の違いや、旧マシン(Core i7 920 @3.5GHz HT off)との処理速度比較を行った際のメモをアップしておきます。
結果から書くと、3930K@4.3Ghz は920@3.5Ghzの2~4倍の処理能力がありました。3DCGツールのレンダリング能力はおそらく3~4倍ほど高速。
動画エンコをメインで考えた場合も、1.5~2.5倍の性能を持ってました。
また、2500K~2700Kと比較してもコアの数が1.5倍ある分の処理能力も持ってますねえ。発熱の問題でOCしにくい&1.5倍お値段的に微妙なトコですが(^_^;
以下本文
3930K(4.3GHz) vs 920(3.5GHz) 比較まとめ
まずは先に結果から記載。
Core i7 920(3.5Ghz)比どれくらい速くなったか?
マルチコア/HT/メモリアクセスなどが効きやすいアプリでは3~4倍高速になる。
x264は約2.1倍くらいに処理速度が上がる感じ
AviSynthのフィルタを使うと、処理速度は1.9~1.5倍程度に落ちる。
ただし、フィルタによっては2.4~2.5倍速と処理速度が上がる。この「処理速度が上がるフィルタ」が凄く意外なフィルタでした。。。
HT 有効/無効どっちが良いのか?
通常はHT有効の方が10~15%処理能力が上がる。相性の良いツールは15~17%上がる。
ツールによってはHT無効の方が良さそうな場合も多少はあるが、その差は僅か。
Core i7 920 + Windows XP の頃はCPUのアンコア部分が未成熟、OSやアプリもマルチコアHTが想定外ってな感じでHT有効にするメリットは少なかったのですが、今ではHT無効にする意味は少なそうですね。(時々逆の結果が出ますが)概ねHT有効の場合が有利です。
テスト前の予想
事前の予想としては
(4.3/3.5Ghz) X (6/4core) = 1.8 倍の処理能力
さらにHT有効で利用するので10%ほど処理能力が向上すると考えると、
最低でも2倍の処理速度があるだろうと予測。
さらにメモリ速度が
(1600/1066) X (4ch/3ch) = 2 こちらも2倍の処理能力。
AVXという256bit長の拡張命令が追加された事もあり、アプリやデータによっては3~4倍位の処理能力が手に入らないかなあ、と淡い期待を抱いてテスト開始です。
以下テストの詳細
Core i7 920 と 3930Kの比較(3DCGソフト:Vue)
動画エンコ系ツールは話が長くなるので後回しにして、まずは3DCGソフトのレンダリング結果から紹介(この「テストの詳細は[本館ブログに記載。)だいたい予想通り、920比 3倍前後の処理速度出ました。
Vueのレンダリング速度比較(Core i7 920/3930K) / カッコ内は920比何倍になったかCPU | Vue | 周波数 (GHz) | HT | ToyTrain | Sponza | |||
640x480 final | 640x480 2x2x30% | 1600x1200 final | 448x336 final | 800x600 Vue10 Sample Default | ||||
920 | 6 | 3.5 | 無 | 37sec | 17sec | 56sec | ||
920 | 8 | 3.5 | 無 | 30sec | 15sec | 47sec | ||
920 | 10 | 3.5 | 無 | 23sec | 12sec | 118sec | 32sec | 258sec |
3930K | 10 | 4.3 | 無 | 7sec(3.3倍) | 3sec(4.0倍) | 39sec(3.0倍) | 11sec(2.9) | 99sec(2.6) |
3930K | 10 | 4.3 | 有 | 6sec(3.8倍) | 3sec(4.0倍) | 34sec(3.5倍) | 10sec(3.2) | 106sec |
処理も最終1タイルが足を引っ張るので、↑の数値は正確なモノにならない。)
- 手持ちアプリの中でマルチCPU、HTの有無、メモリアクセスなどの効果が一番現れやすいツールを選んでテストを行ったのでこれは当然の結果かもしれない。
- HTに関しては、有効にすると無効時と比較して13~17%ほど処理能力が向上する感じ。
- ただし、表中の赤字のように1タイルのみ処理が終了しないようなデータをレンダリングした場合は、それが足枷となって逆にスコアを落とす場合もあり。
余談
ちなみに何故こんな数秒~数十秒で終わるようなテストをしたかと云うと、このテストは北森 Celeron 2.5GHzマシンを使っている頃から同じ条件でテストしているため。
当時はToyTrain(640x480-final)のレンダリングに30分、Sponza(448x336-final)のレンダリングに50~60 分かかっていました。それが今や両者ともに10秒以下でレンダリング出来る事に時代を感じてしまいます。
Core i7 920 と 3930Kの比較(動画エンコ:AviSynth + x264)
次に私が良く行う [地デジ録画素材をx264形式に変換する] 処理のテスト。
AviSynth + x264での処理です。
- AviSynth
こいつが「基本シングルスレッド処理」なツールで、ハイパースレッディングはおろかマルチコアCPUへの対応もかなり苦手な部類。 - x264
こちらはHT、マルチコアCPU、どちらにも対応していてスレッド数が増えた分しっかり仕事をしてくれる。
x264エンコ: Core i7 920 と3930Kの比較 / カッコ内は920比何倍になったか
CPU (電圧) | 周波数 | HT | AviSynth のMT数 | 1280x720 | 1280x720 IT(24fps) | 960x540 | 960x540 IT(24fps) | リサイズ なし | 消費電力 |
920 | 3.5Ghz | X | 4 | 44.6 | 24.0 | 71.2 | 33.5 | 29.0 | 190 |
3930K (offset) | 3.8Ghz | O | 6 | 77.5(1.74) | 51.7(2.15) | 100.3(1.41) | 59.1(1.76) | 55.9(1.92) | 260 |
3930K 1.160v | 3.8Ghz | O | 6 | 同上 | 同上 | 同上 | 同上 | 同上 | 220 |
3930K 1.296v | 4.3Ghz | O | 6 | 85.8(1.92) | 57.8(2.41) | 112.9(1.58) | 65.5(1.96) | 62.5(2.15) | 250 |
3930K 1.236 | 4.3Ghz | X | 6 | 83.2(1.86) | 59.9(2.49) | 116.1(1.63) | 67.3(2.01) | 56.0(1.93) | 230 |
3930K 1.480v | 4.7Ghz | O | 6 | 93.0(2.08) | 62.2(2.59) | 119.2(1.67) | 70.5(2.10) | 67.6(2.33) | 335 |
3930K 1.376v | 4.7Ghz | X | 6 | 88.6(1.98) | 64.1(2.67) | 122.7(1.72) | 72.2(2.15) | 60.6(2.09) | 285 |
消費電力は1280x720サイズで動画変換した時に測定したもの。
4.3Ghz HT onのグリーンのラインが私の環境での常用設定。
自分用覚え書き:テスト素材は2009年に録画したMrインクレディブルの約8000フレーム切り出しファイル
(素材が変わると変換速度はかなり変わる)
- リサイズなし(2.15倍)と1280x720にリサイズした場合(1.92倍)はほぼ予想通りの結果。
- 960x540サイズにリサイズした場合、1.58倍と予想を遥かに下回る結果となった。
Sandy Bridge-Eでは リサイズがかなり律速になるのか。。。
- この辺が原因か?→(古い記事だけどLINPACK BenchmarkがHT有効で処理能力半分になるお話)物理コアのみを想定し、HTの存在を念頭に入れていない設計の場合、こういう事が起きる。
- IT (逆テレシネプラグイン)を利用した場合、2.41倍と想像以上に速くなった。
このプラグインはマルチスレッド化出来ないので一番の律速になると思っていたのに、意外だ。 - HT有効/無効の差が920時代に比べて微妙。IT利用する/しないで結果が逆転
(後述の項目で書いているけど、リサイズ後の大きさでも逆転が起きる) - ワットパフォーマンスで考えると、4.3Ghz HT offで作動させるのも悪くない気がする。・・・迷ってきたw
比較テストに利用した設定は以下
サンプル素材は2009年に地デジ録画したMrインクレディブルの約8000フレーム切り出しファイル。ちなみに、約8000フレーム程度のサンプルでは処理速度に1~2%の誤差が発生する。なので3~5回テストを行い、その平均値を取っています。
また素材が変わると変換速度はかなり変わるので、ここで上げている数値は参考程度にとどめて下さい。
テストに利用したAviSynthスクリプト
#IT(fps = 24, ref = "TOP", blend = false)
#IT プラグインはMT化すると誤作動する事が多いので、今回のテストでは
#MT 化は行わなかった。
mt("BicubicResize(1280,last.height,0,0.75)",6,2)
mt("BicubicResize(last.width,720,0,0.75)",6,2,splitvertical=true)
#テストで利用したリサイズフィルタはBicubicResize。
#表中の[MT]の項目は上記赤字部分。AviSynth MTプラグインのMT数
return last
テストに用いたエンコーダー
▲クリックで拡大
Simple x264 Launcher Built:2011-10-25を利用。
CRF: 21.00 / Preset: Medium / Profile: High で利用。
うっかりBlu-ray用パラメータをくっつけたままテストを開始してしまったので、最後までその設定のままテストを続行させた。
※Blu-ray用パラメータ
--weightp 0 --bframes 3 --nal-hrd vbr --vbv-maxrate 20000 --vbv-bufsize 30000 --level 4.1 --keyint 24 --b-pyramid strict --slices 4 --aud --colorprim "bt709" --transfer "bt709" --colormatrix "bt709" --sar 1:1
AviSynthのMTの数について
6Core12threadある場合は、AviSynthのMT数はどれくらいにすれば適切なの?
って部分に疑問を感じでテスト。
CPU周波数 | MT数 | 1280x720 | 960x540 | 640x360 |
4.3GHz | なし | 79.2sec | 99.5sec | 122.4sec |
4.3GHz | 3 | 85.3 | 109.5 | 131.4 |
4.3GHz | 6 | 85.8 | 111.1 | 132.2 |
4.3GHz | 12 | 83.1 | 107.7 | 136.8 |
4.3GHz | 18 | 79.0 | 112.9 | 133.7 |
リサイズの大きさによって、最速になるMT数が違う・・・こりゃ多分素材が違う場合でも最適なMT数は異なってくるな・・・あまり深く考えるのはヤメにしておこう('Α`)
次にHT offの場合CPU周波数 | HT | MT数 | 1280x720 | 960x540 | 640x360 |
4.3GHz | 有 | なし | 79.2sec | 99.5sec | 122.4sec |
4.3GHz | 有 | 6 | 85.8 | 112.9 | 132.2 |
4.3GHz | 無 | なし | 85.2 | 122.9 | 142.3 |
4.3GHz | 無 | 3 | 82.9 | 117.2 | 142.3 |
4.3GHz | 無 | 6 | 83.2 | 116.1 | 141.6 |
4.7Ghz | 有 | なし | 82.3 | 114.5 | 140.7 |
4.7Ghz | 有 | 6 | 93.0 | 119.2 | 149.0 |
4.7Ghz | 無 | なし | 83.8 | 128.0 | 145.4 |
4.7Ghz | 無 | 3 | 88.6 | 123.0 | 149.9 |
4.7Ghz | 無 | 6 | 88.6 | 122.7 | 149.6 |
HT無効の場合、MT数の違いでは大きな変化は見られない感じ。
しかしそれ以外の部分はどう考えたら説明がつくんだ?(^_^;
多くのセッティングでHT無効にした場合の方が少しだけ高速化しているけど、何か説明の付かない速度変化が起きてる(^_^; 多分素材によってこの[速い/遅い]は変わってくる気がする。
赤字の960x540サイズのみ、MTプラグインを利用しない方が10%近く高速化するのも謎。
計算処理の内容がL1~L3キャッシュ内にバシっと噛み合う様な場合のみ、爆速化しているんかなあ・・・?
何にせよ、AviSynth(軽いフィルターのみ) + x264 では、素材が変わる度に[最適な設定]は変わりそうなので、HTの有無やMT数に頭を悩ましても意味は無さそう。
TDPの壁(Long Duration Power Limit)未設定の場合
この項目はどうでも良い情報。
TDPの壁を取り払わずにオーバークロックを行ってみましたが、やっぱり意味無いですねえ(^_^;
CPU速度に関係なく処理能力が頭打ちになっている感じです。
HT | MT | 1280x720 | 1280x720-IT | 960x540 | 960x540-IT | |
x43 | O | 6 | 79.4 | 50.2 | 107.2 | 63.4 |
同上 | O | X | 111.8 | |||
同上 | X | 6 | 73.0 | 52.4 | 107.2 | 63.4 |
同上 | X | X | 115.3 | |||
x44 | X | 6 | 77.8 | 60.4 | 117.1 | 65.6 |
x45 | X | 6 | 79.1 | 60.2 | 116.4 | 68.0 |
同上 | X | X | 119.4 | |||
x46 | X | 6 | 80.5 | 52.4 | 117.5 | 70.2 |
同上 | X | X | 123.7 | |||
x46 | X | 3 | 80.5 | 52.6 | 115.7 | 70.3 |
x43 (130x33) | O | 6 | 75.3 |
また、変換速度もここまで紹介したどの表と比較してもやや低目の数値が出ています。やっぱOCする場合はTDPの壁を取り払らわないと意味無いですねえ。
HT ON/OFFとVcoreについて
HT ON/OFFについて
Core i7 920 時代はHT有効にするとガツンとCPU電圧を盛る必要があったり、制御できないほど発熱したり、HTを有効に使ってくれるアプリが少なかったり、920購入当時のOS(XP)はHT有効活用できなかったり・・・と色々な意味でHTを無効にして利用していましたが、その辺はもう気にする必要は無さそうです。
- Sandy Bridge-Eの場合は
- HT 有効にしてても 割とサクっとOCできる
- 必要電圧/消費電力/発熱量・・・HT on/offでそれなりに変わる
テストした感じでは HT Offの方がワットパフォーマンス良さそう。
・・・いや、4.3Ghz(CPU電圧1.25~1.30V付近)では微妙なところ。
- HT ON/OFFよりもCPU電圧1.25~1.30V付近で利用出来る設定を探す事が一番良いバランスを得る事が出来そう。
- AviSynthフィルタなどのHTが苦手なモノは、HT無効にする事で処理が安定する。しかし一定条件を満たせば HTを有効にした場合の方が少しだけ速くなる(これが微妙なところ)
- 4.4~4.5Ghzあたりから Cステートやアイドル時の制御が難しくなる場合があるので、結局4.3GHz HT onあたりの設定に落ち着く(^_^;
- Windows7を利用している場合は
- XP、VistaはHTを有効にしてもOSが上手く処理してくれなかったが、Windows7はHTの使い方がかなり上手い
- XP、VistaはHTを有効にしてもOSが上手く処理してくれなかったが、Windows7はHTの使い方がかなり上手い
利用するツールによっては微妙な結果になりますが、Windows7を利用しているならばHT有効にしておいた方がメリット多い感じです。
あとがき
Sandy Bridge以降、というかWindows7が普及して以降、「HT 無効にして使う人がガクンと減っているなあ」と感じていましたが実際に自分の環境で確認して納得しました。
非常に微妙なラインですが、HT有効にした方がCPUを有効利用出来そうです。
また、動画エンコをメインで考えた場合も、Core i7 920 時代に一番の律速になっていたITプラグインが予想以上に高速化されていたので良しとしておきます。
ひょっとすると2600K~2700Kあたりを高クロックでぶん回した方が、逆テレシネ処理は更に高速化できたんじゃないかなあ・・・なんて事も今更の様に考えちゃいますが、それ以外の用途なら私の場合はSandyBridge-Eの圧勝な結果になるので、これで良かったかな、てな感じです。
- その1: 3930K でオーバークロック(購入直後)
- その2:Load line Calibrationがわかって来た
- その3: メモリ回りの調整
- その4: BCLK変更にチャレンジ、4.68GHz達成・・・・?
- その5: ケースFANって奥が深いんだな・・・
- その6: ワットモニターで消費電力を計測してみた
- その7: UnCore電圧チョイ盛りでベンチマークが7%上昇(4.3GHz→4.6GHz相当)
- その8: 3930K オーバークロック電圧設定表
- その9: (我流だけど)オーバークロック手順まとめ
おまけ:他参考リンク
3820も発売され、Ivyの足音が聞こえて来るようになってきましたが(^_^;2700K/3820/3930Kあたりでドレ選ぼうか悶々としている人用
- 【特集】完全攻略!! 「Sandy Bridge-E」ベンチマーク - Core i7-3960Xで試す新世代6コアの実力 (17) TMPGEnc Video Mastering Works 5 V5.1.1.52
- 【特集】完全攻略!! 「Sandy Bridge-E」ベンチマーク - Core i7-3960Xで試す新世代6コアの実力 (18) MainConcept Reference 2.20+H.264/AVC Pro
- x264でのエンコを考えている場合は
(海外サイト)Core i7-3960X Extreme Edition and Core i7-3930K processors for LGA 2011 Platform. Page 10
既に3930Kを購入した私からすると「6コア万歳」なのですが、上記リンクを見る限り6コアである3930K/3960Xのアドバンテージはそれなりにあるのかな?微妙だな?って感じがします。
6コアSandy Bridge-Eは、
1. 使ってみるまでは(その能力が)解らない
2. 相当ヘビーな用途で利用する人以外には手に余るシロモノ。
なのかもしれません。