Java の Long.bitCount(long) が POPCNT にコンパイルされるとのことで、速度を簡易的に計ってみた。
比較対象は次の3つ。
- Long.bitCount(long)
- Long.bitCount(long) のソースをコピーして作った関数
- it.unimi.dsi.bits.Fast.count(long)
Oracle Java 7u6 での速度比(小さいほど速い)は、
- 278
- 2269
- 1636
になった。
Long.bitCount(long) の呼び出しが BIOS コールのエミュレーションのように POPCNT に変換されているのかな?
ついでに dsiutils-2.0.7.jar の it.unimi.dsi.bits.Fast.count(long) も計測したんだけど、意外にも速かった。「broadword algorithm」というのは、Java ライブラリの実装アルゴリズムよりも速いんだろうか?
Broadword implementation of rank/select queries
http://vigna.dsi.unimi.it/papers.php#VigBIRSQ
ざくっと計ったので、参考まで。