2015年4月22日水曜日

[kdb] Performance (1) distinct / join key

Performanceメモ (1) distinct / join key

重複を排除するために使用するdistinctのPerformance

・数値のリストのリスト
floatのdistinctは非常に遅いので避けるべき。
通常floatをdistinctするケースは無いが、0.1刻みのデータや意図せずfloatになってしまっているケースもあるので注意

q) L: `float$ 10000000?10000i
q) \t distinct L
305

q) L: 10000000?10000i
q) \t distinct L
29

リストのリストをdistinctするときにより影響が大きい
q)L: til 5
q)LL: do[5; L cross L]
q)LL
0 0 0 0 0 0
0 0 0 0 0 1
0 0 0 0 0 2
...
q)count LL
15625

q)LLf: 0.5*10000?LL   / floatのListを作成
q)LLf
0.5 0   0   1   0   1  
0   1.5 0.5 2   1.5 1  
1.5 1   2   1   1   1.5

q)\t distinct LLf   / 要素が10000で1sもかかる
965
q)count  distinct LLf
7448

q)\t 0.5* distinct `int$2*LLf   / castの時間を加えても100倍早い
8
q)count  distinct `int$2*LLf
7448


・Join key
上記と同様に、valueとしてfloatのリストが入っているテーブル同士をjoinする場合、
floatのリストをkeyにしてjoinをすると非常に遅い。
q) meta t   / listをkeyにして結合したい
c   | t f a
----| -----
list| F     
... |      
q) count t   / 
47293j
q) t
list              ..
------------------..
1 2 3 4 5 6   7   ..
1 2 3 4 5 6.5 6.5 ..

q) \t (t同士をlistをkeyに自己結合)
200230j

q) \t (t同士をintに変換したlistをkeyに自己結合)
135j




2015年4月19日日曜日

[kdb] Loop: ループと関数

ループ処理に関するメモ
※ループ処理は基本的に遅いので、できるだけループ処理は行わないようにするのがよい


・ループ処理
kdbのループ処理は while, do, 関数(each) で行う。
do[count;exp1;...;expn]
while[test;exp1;...;expn]
function[] each xxx


・for文のループ
for文は存在しないので、for文に相当する処理を行うためには、以下の2通りの方法で行う。
(1) index 付き while or do
(2) 関数をeachで呼ぶ

(1) index 付き while or do
q) i:0; x:1;
q) do[5; x*:2; i+:1]   / do
q) x
32

q) i:0; x:1;
q) while[i<5;  x*:2; i+:1]   / while
q) x
32
(2) 関数をeachで呼ぶ 処理部分を関数化すればeachで呼ぶことができる。peachを使うことで並列実行可能
q) L: -10#til 110
q) x:()
q) i:0
q) do[10; x,:L@i; i+:1]
q) x
100 101 102 103 104 105 106 107 108 109

q) {x@y}[L;] each til 10
100 101 102 103 104 105 106 107 108 109

2015年4月14日火曜日

[kdb] rand: 乱数

乱数に関するメモ

・アルゴリズム
kdbの擬似乱数生成アルゴリズムはキャリー付き乗算らしい

https://groups.google.com/forum/#!searchin/personal-kdbplus/Mersenne/personal-kdbplus/_8HIuv6AV-4/UmjaxVrfanoJ

> simon 2008/09/05
>
> this is the one currently used
> http://en.wikipedia.org/wiki/Multiply-with-carry
> no bitwise operations at the moment
>

・使用方法

kwxiki - rand

各atomの0を引数に入れると、そのatomの乱数が生成される
q)rand 0i
-2074077848i
q)rand each 10#0b
0111000011b
q)rand `float$0    / 当然ですがfloatはダメ
0f

0以外の数字を入れると、[0,X)の値が生成される。Xが含まれないのがポイント
q)rand each 5#100
20 77 5 64 49
q)rand each 5#1.0
0.2149847 0.1007832 0.4520411 0.0196153 0.1262957

q)rand each 100#1b   / trueが含まれないので全部false
00000000000000000000000000000000000000000000000000000000000000000000000000000..

引数がリストの場合は、リストの要素からランダムに抽出
q)rand `A`B`C
`B
q)rand each 5#enlist `A`B`C
`A`A`C`B`B


"?"でも同様。?がkに近い書き方?
q)10?1.0
0.6598286 0.03947309 0.1404332 0.4545668 0.6829453 0.7773633 0.5704403 0.8341..
q)10?0b
1010011100b

q)10?`A`B`C
`A`B`C`C`A`B`B`B`B`C


重複なし、ランダムソート(並び替え)
"?"の前にマイナスをつけると、重複なしとなる。これを使えばランダムソートが可能
q)-10?10   / 重複なしでランダムに取得する
9 3 0 1 5 6 8 4 7 2

q) -11?10   / 数が合わないのでエラー
'length

q)(neg count x)?x   / xのランダムソートになる
`B`A`D`C`E

q)x -5?5   / indexを乱数で作って取得してもよい
`C`D`B`E`A