Computer Programing

　プログラミングコンテスト第１回「素数発見」競技の記録の伸びは飛躍的で、コンテスト創設時に示した管理人の参考記録から１００００倍の速度にまで達している。同じコンピュータでありながらプログラムを変えただけで、これだけの性能アップが実現された秘密はどこにあるのだろうか。この秘密について詳しく調べてみよう。　アルゴリズムの解説だから、プログラミング言語にはとらわれないつもりだが、一部にプログラミングの話が出てくることは避けられないのでお許しを得たい。

「倍数除去」アルゴリズムの限界は、表に必要なメモリー領域の大きさ

　「倍数除去」アルゴリズムでの素数発見プログラムでは、割り算、掛け算などの時間がかかる計算をいっさい使わない。足し算だけで素数発見プログラムの中では計算らしい部分が無いのだ。当然、処理速度そのものが非常に速くなる。全てが上手く行くように感じられるが、そこに落とし穴が控えていた。それは、表そのものが持つ問題である。表に書く数１つに変数を１つ割り当てていることだった。このことがその重要な問題点として浮かび上がる。
　コンピュータが取り扱える変数は、コンピュータに装備されたメモリーという記憶場所に確保されている。この記憶場所は、ＯＳ（Windows本体）が動くための領域として、また、起動されるプログラムを格納するための場所として、プログラムが使う変数が使う場所としてなど、いろいろなものの共用領域である。しかし、そのメモリー領域には、ハードウエア上の限界がある。例えば、パソコンに装備されたメモリーが２５６メガバイトであるとしよう。１メガバイトとは、１００万バイトのことであり非常に多いようにも思える。しかし、ＯＳが大半を使用してしまい、各プログラムで利用できるメモリー領域は想像するよりはるかに少ない。
　具体的に使われるメモリー領域の大きさを計算してみよう。１つの変数でメモリーがどれくらい使うのかは、プログラミング言語や、変数の種類によって違ってくる。普通の場合、文字型変数では１文字で１バイト、整数変数では１６ビット系では２バイト（３２ビット系では４バイト）、実数変数では４～６バイト（８バイト）必要になる（倍精度変数ではそれぞれの２倍のサイズになる）。したがって、使える全てのメモリー領域２５６メガバイトを変数に与えたとしても、メモリーの総数の限界は１億個より小さいところになる。したがって、表を使うアルゴリズムである「倍数除去」方式では、表の仕組みに特別の工夫を取らない限り、１０００万未満を越えるあたりから、メモリーに関する障害が出てくる。仮想記憶方式が取られるため、メモリー不足でプログラムが停止することはないが、ハードディスク領域をメモリーとして利用し始める。ハードディスクをメモリー領域として利用し始めるとプログラムの実行速度が１０００分の１以下まで大きく低下してしまう。この現象を「ページング」または、「スワッピング」が始まったという言葉で表現する。
　上に示したように、素数の上限値が１０００までのプログラムでは特別の工夫をしなくてもスムーズにアルゴリズム通りの動きが実現できる。しかし、素数の最大値がある値に達したとき、突然プログラムが動かなくなってしまう現象に遭遇する。ここで行き詰まって、記録が伸びなくなってしまった経験を持つプログラマは多くいる。しかし、これに対する解決策を見出すことはなかなか難しい。アルゴリズムのチューニングで記録を僅かに改善できても、このメモリーサイズによるトラブルの解決にはならない。　この壁を乗り越えるためは新しいアルゴリズムの導入が必要になる。表の利用効率を高めるアルゴリズムの導入である。

「ページング」（「スワッピング」）を防ぐために取られる対策は？

　表を表すメモリーの取り方に無駄はないのか？　これについて見直してみるとその解決策はすぐに見つかる。前述で例を示した１から１０００までの場合、表を表す変数を１０００個必要としている。１変数を３２ビットで表す場合、１変数が４バイトになる。表に書く変数の数が１０００個だから、表を表すのに４０００バイトを使ってしまう。この程度なら支障はまったく発生しない。しかし、「１億未満」の素数発見の場合では、４億バイトになる。ＣＤ１枚分に近い、４００メガバイトの巨大なメモリー領域が、表のためだけに必要となってしまう。これでは、プログラムが事実上動きづらくなってしまう（ページング、スワッピングの発生によるため）。
　ページング、スワッピングはメモリーを使いすぎるために発生するのだから、メモリー使用量を減らせばよい。だれにでもわかる解決法だが、それを実現するアイデアはある。

表に使われるメモリー領域を節約する手法は　～素数か非素数かは１ビットで表現可能～

　その変数に記録される情報は、素数であるか（値が１）、素数でないか（値が０）のどちらかという簡単な情報だけだ。素数・非素数を表すには１ビットで十分だから、文字変数が８ビットだから８つ分を１つの変数に入れることができる。整数変数が１６ビットから３２ビットだから１６から３２個分を１つの変数に入れることができるのだ。これで、メモリースワッピングの限界を約１０倍に伸ばすことができる。したがって、この表の表し方を「ビット単位」にする工夫により使用するメモリーが１０分の１程度になり、プログラム実行速度の低下を防ぐことが出来るようになる。コンテストで言えば１０００万未満までの記録は簡単なプログラムで記述できるが、１億未満の部門になるとこのビット処理が無ければ「倍数除去」アルゴリズムでは難しくなる。

変数１つに８つの状態を１まとめで表す　～ビット処理のアルゴリズムは２進数の知識～

　２進数と１０進数の変換が出来るなら、ビット処理のアルゴリズムは簡単に実現できる。たとえば、１から１０までの数が素数であるか無いかを表す表を考えてみよう。素数は２、３、５、７だから、仮に素数を１、非素数を０と表し、右端から順番に１、２，３,..、１０とすると、「０００１０１０１１０」と表すことが出来る。表の状態から変数値に直すには、２進数表示を１０進数に変換すると、２＋４＋１６＋６４＝８６になり、１つの変数に８６を覚えさせて置けばよいことになる。逆に、変数の値から表の状態に戻すには、２で割った余りを順に並べればよい。１回目の割り算では、商が４３余りが０、２回目の割り算では商が２１余りが１、３回目の割り算では、商が１０余りが１、４回目の割り算では商が５余りが０、５回目の割り算では、商が２余りが１、６回目の割り算では商が１余りが０、７回目の割り算では、商が０余りが１、８回目の割り算では商が０１余りが０、９回目の割り算では、商が０余りが０、１０回目の割り算では、商が０余りが０である。よって、順に右から並べると、「０００１０１０１１０」と元の表の状態を表現できるのだ。

ビット処理に必要なものは、任意のビットの「セット」と「クリア」と「チェック」の３つ

　変数の一部をどのように使い分けるか、プログラムでは、サブプログラム（Ｃでは関数、Ｐａｓｃａｌでは手続、関数という）を使えばよい。サブプログラムさえ出来れば、アルゴリズムの上ではビットの意識をせずにビット処理が行われる。
　まず、表を表すメモリー領域を確保する。説明にはＰａｓｃａｌ言語を利用して考える（Ｃ言語でもほとんど同じである）。表の領域を１億個の数表とすると、１００００万ビットだから、３２ビット変数であれば、１００００万÷３２個の配列となる。


{ 表と、ビット操作の手続と関数の例    Ｐａｓｃａｌ言語（Ｄｅｌｐｈｉ）での記述 }

const
  TABLE_SIZE = 3125000;   { = 100000000/32  }   １億までの表を表す領域の定義（１３メガバイト弱）

var
 t: array[1..TABLE_SIZE] of lontword;   １億の数が書き込める表を表す変数領域
 Dm: array[0..31] of longword;          ビットをセットするときに使うマスク配列
 Dmx: array[0..31] of longword;         ビットをクリアするときに使うマスク配列

{==========================================}
{    ビット操作のためのビットマスク作成    }
{==========================================}
procedure MakeBitMask;   {フラグ操作用のビットマスク生成}
var
  i: integer;
begin
  Dmx[0]:=1; Dm[0]:=(not Dmx[0]);   １ビット目の操作マスク作成
  for i:=1 to 31 do
  begin                             Dmx[0] shl 1 はDmx[0] を１ビット左にずらす操作
    Dmx[i]:=(Dmx[i-1] shl 1);       ２から３２ビット目のビットセットマスク作成
    Dm[i]:=(not Dmx[i]);            ２から３２ビット目のビットクリアマスク作成
  end;
end;


{==========================================}
{  素数フラグ領域のビット操作手続・関数群  }
{==========================================}
procedure BitSet(n: longword);  {フラグ・セット手続}   数ｎを表に書き込むことに相当
var
  n0,n1: longword;
begin
  n0:=n and $0000001f; n1:=n shr 5;   下５ビットと上２７ビットに分離
  Dp^[n1]:=Dp^[n1] or Dmx[n0];        下５ビットが変数内のビット位置を表し
end;                                  上２７ビットが配列内の位置を表す

procedure BitClr(n: longword);  {フラグ・リセット手続}   数ｎを表から消すことに相当
var
  n0,n1: longword;
begin
  n0:=n and $0000001f; n1:=n shr 5;
  Dp^[n1]:=Dp^[n1] and Dm[n0];
end;

function BitChk(n: longword): boolean;  {フラグチェック関数}   数ｎが表にあるかどうかを調べることに相当
var
  n0,n1: longword;
begin
  n0:=n and $0000001f; n1:=n shr 5;
  BitChk:=(Dp^[n1] and Dmx[n0])<>0;
end;

　プログラムの内容が、２進数の操作になるので、数学に弱い人には理解することが難しいかもしれない。数学の教科書を見て、２進数と１０進数の表現の違いについて書かれているところをよく勉強しておいて欲しい。この手続きと関数さえあれば、アルゴリズムの主体であるプログラム本体には、今までと同じようにプログラムを記述することが出来る。プログラム本体の部分と階層化して、ビット操作を見えなくする（マスクする）ように、プログラムを階層化して、何段階かに分離することで、上位のプログラムに分かり難いビット操作を隠してしまう手法は常用される「階層化技術」という。特に、オブジェクト指向プログラミング（ＯＯＰ）で多用される手法である（オブジェクト内にビット操作を閉じ込め、外のプログラムからは見ずに済むようにしてしまえる）。
　これで、５億未満から１０億未満程度までの挑戦が可能になる。

「倍数除去」アルゴリズムでも、「チューニング」作業は大きく記録に影響する

　「倍数除去」アルゴリズムでの処理速度改善では「メモリースワップを興さないこと」が一番大きい。次に、「無駄な処理を見つけて取り除くこと」が続く。記録を狙うには、上記のようなメモリー節約の対策を第一に考え、次に、「逐次余りチェック」アルゴリズムと同様の無駄を見つける地味なチューニングに努めればよい。
　「倍数除去」アルゴリズムのプロトタイプ・プログラムにもたくさんの無駄がまだ含まれている。チューニング作業だけで、２から３倍の速度改善はすぐに可能であるのが普通である。アルゴリズムの改良はチューニングと異なり、１０倍速のように桁違いに速くすることに成功する場合が多い。

「影武者」さんはどのようにして、１０億の壁を突破できたのか

　表の変数をビット単位で扱う技を使って１億の壁は突破できた。これで、１０倍程度限界を伸ばすことが出来ることになった（正確には限界値が８倍伸びた）。しかし、その次の壁となる「１０億未満」の壁の突破はビット処理では実現できない。表の使い方の新たなアルゴリズムの創造が必要である。
　「影武者」さんは、最新バージョン６で「１００億未満」まで記録を伸ばした。このときに使われたプログラムの全ソースリストを公開し、表の使い方の「新しい技」の解説をする予定です。

　「第12回「素数発見」アルゴリズムの進化を解説する ④」を見る。

コンピュータ・プログラマー養成講座（入門編）

第１２回　「素数発見」アルゴリズムの進化を解説する　③
～高速アルゴリズム「倍数除去」の限界に挑戦～

「倍数除去」アルゴリズムの限界は、表に必要なメモリー領域の大きさ

「ページング」（「スワッピング」）を防ぐために取られる対策は？

表に使われるメモリー領域を節約する手法は　～素数か非素数かは１ビットで表現可能～

変数１つに８つの状態を１まとめで表す　～ビット処理のアルゴリズムは２進数の知識～

ビット処理に必要なものは、任意のビットの「セット」と「クリア」と「チェック」の３つ

「倍数除去」アルゴリズムでも、「チューニング」作業は大きく記録に影響する

「影武者」さんはどのようにして、１０億の壁を突破できたのか

コンピュータ・プログラマー養成講座（入門編）

第１２回 「素数発見」アルゴリズムの進化を解説する ③ ～高速アルゴリズム「倍数除去」の限界に挑戦～

「倍数除去」 アルゴリズムの限界は、表に必要なメモリー領域の大きさ

「ページング」（「スワッピング」）を防ぐために取られる対策は？

表に使われるメモリー領域を節約する手法は ～素数か非素数かは１ビットで表現可能～

変数１つに８つの状態を１まとめで表す ～ビット処理のアルゴリズムは２進数の知識～

ビット処理に必要なものは、任意のビットの「セット」と「クリア」と「チェック」の３つ

「倍数除去」 アルゴリズムでも、「チューニング」 作業は大きく記録に影響する

「影武者」さんはどのようにして、１０億の壁を突破できたのか

第１２回　「素数発見」アルゴリズムの進化を解説する　③
～高速アルゴリズム「倍数除去」の限界に挑戦～

「倍数除去」アルゴリズムの限界は、表に必要なメモリー領域の大きさ

表に使われるメモリー領域を節約する手法は　～素数か非素数かは１ビットで表現可能～

変数１つに８つの状態を１まとめで表す　～ビット処理のアルゴリズムは２進数の知識～

「倍数除去」アルゴリズムでも、「チューニング」作業は大きく記録に影響する