Hive Tuning

参考サイト

高速化

ほぼやけくそHive Hacks | OpenGroove

同じテーブルをスキャンする回数を減らす

INSERT OVERWRITE TABLE hoge_1 SELECT col1, COUNT(col1) FROM org_tbl GROUP BY col0;
INSERT OVERWRITE TABLE hoge_2 SELECT col1, SUM(col1)   FROM org_tbl GROUP BY col0;

マルチインサートを用いて書き換えると次のようになる
FROM (SELECT col1, COUNT(col1) count_col1, SUM(col1) sum_col1 FROM org_tbl GROUP BY col0) t
INSERT OVERWRITE TABLE hoge_1 SELECT t.col1, t.count_col1 
INSERT OVERWRITE TABLE hoge_1 SELECT t.col1, t.sum_col1;

・FROM句で同じテーブルを参照する複数のINSERT文をまとめて実行することで、
　同じテーブルのスキャンが１回で済ませられる。
・集約関数を含むとreduceタスクが展開され、各INSERT OVERWRITE文は個別ジョブに展開されてしまうが、
　サブクエリで集約処理した結果をFROM句に指定した場合、マルチインサートが適用される。

インデックス

Hive Indexing

やることリスト

    基本ポイント
・Mapタスクのみで完結させる
　・mapサイトジョインを使用する
・Shuffleフェーズに流れるデータ量を抑制する
　・圧縮を検討しているてみる　
　・LEFT SEMI JOIN
　・COUNT関数の使用が必要な場合、結果が「1」とわかっているものは分けて、あとでUNION ALL
　　すると早くなるか実証
・同じテーブルをスキャンする回数を減らす
　・マルチインサート


mapサイトジョイン使用前・使用後のEXPLAINの違い。reduceがなくなるのか

1reduceで実行しているhqlがないか確認

無駄にGROUP BYしてないか確認

UNIQUEJOINを使って３テーブルをJOINしてみる。使えたら使わずに実施したHQLと
比較（EXPLAIN・処理時間など）していみる

max関数の時間短縮　reduceを増やす

left semi 

マルチインサートの実証

バケットの実証

集約関数がないmapフェーズだけのHQLに対してmap数を増やすと時間短縮するのかの実証

このサイトを読み解く
SQL感覚でHiveQLを書くと痛い目にあう例
Hive クエリを最適化する

参考書籍

HADOOP HACKS プロフェッショナルが使う実践テクニック