パターンマッチングのための
データフローグラフ抽出器の実装

発表者: 新山祐介 (東工大)
荒堀喜貴 (東工大)
権藤克彦 (東工大)
スライド: euske.github.io

1. あらまし

プログラム理解のためのグラフ表現 "FGyama" を提案。

データフローグラフの一種。
ロジックの比較・解析に使える。
大量に蓄積し、検索が可能。

FGyama の特徴

制御フローおよびデータフローを同時に表現。
各変数を個別に扱う。
データ間の依存関係を重視する。

例

int max(int[] a) {
    int y = -1;
    for (int x : a) {
        if (y < x) { y = x; }
    }
    return y;
}

従来のデータフローグラフ

欠けているもの:

各変数間の具体的な演算。
条件分岐への依存関係。

int max(int[] a) {
    int y = -1;
    for (int x : a) {
        if (y < x) { y = x; }
    }
    return y;
}

2. 研究の目標

プログラム中の変数に与えられる高水準な (ドメイン依存の) 意味を自動抽出したい。

a = p * 1.08;  // 税込み価格
...
b = 99;        // 残り体力
...
c = x + w/2;   // 中心座標

意味 = _まともなプログラマが
与えるであろう名前

具体的な方法

プログラムをなんらかの中間表現に変換する。
既存のコードから「辞書」を獲得しておく。
中間表現のマッチングを用いて意味を付与する。

適切な中間表現とは?

ロジックの細部まで表現したい。
プログラム解析をグラフ解析問題として扱いたい。
あわよくば、他の目的にも利用できるもの。
- クローン検出, taint解析, etc.

なぜグラフなのか?

データ構造として十分な一般性がある。
見た目がわかりやすい。

現在までの進捗

Java → FGyama に変換。 (Eclipse JDT使用)
データベースに格納。(〜 1000 projects, 74M loc)
今のところ intraprocedural。(拡張予定)

今後の予定:

変数名・コメント等から対応関係を獲得。
実際のコードに適用し、評価。

3. FGyama の構造

基本的な関数

int f(a, b, c) {
    return (-a) +
           (a + b) * c;
}

各変数・演算子は独立したノードで表される。
終端 (return) はひとつ。
変数名は途中のノードには現れない。

副作用がある場合

a = a + b;
x = b * c;
y = c;

複数の並列な終端をもつ。
完全な実行順序は記録されない。

条件分岐

if (x) {
    y = 1;
} else {
    y = 2;
}

2つのグラフを重ね合わせる。
Selectノードが cond の値に応じて
いずれかのパスを選択する。
同様の構造が変数の数だけ作成される。

繰り返し

do {
    S;  // x を変更
} while (p);

ループ本体を Begin ノードと
End ノードで囲む。
cond == true のときに繰り返す。
同様の構造が変数の数だけ
作成される。

脱出・例外

do {
    S;  // a を変更。
    if (t) { break; }
} while (...);

ループ内から直接ループ外へ向かう
エッジを作成する。
条件つき脱出の場合は Select ノードを使う。
同様の構造が変数の数だけ作成される。

現在の欠点: 間接参照

a[0] = 4;
a[1] = 5;
b[2] = a[0] + a[1];

ARR = 4;
ARR = 5;
ARR = ARR + ARR;

データ間の依存関係が実際以上に増える。
依存関係の見落し (false negative) がない側に倒している。
計画: 自明なケースに対しては points-to解析を使う。

4. FGyama データベースの構築

部分グラフを高速に検索したい。
DAGの集合として記録 (repeatエッジは無視)。
(ノード名, エッジ名) をキーとした trie を構築。

部分グラフの検索

パスに分解し、trie を検索。
各パスを含んだグラフ番号の積集合を求める。
実際のグラフを取得し絞り込む。

実験内容

対象	GitHub 上位★1000 repo
ファイル	480,627個 (3.7GB, 74M loc)
抽出グラフ	4.3M 関数, 42M ノード
データベース	11GB (FGyama) + 10GB (trie)

SSD + SQLite 利用。
処理時間: 3.5時間 (Intel i5, 1.8GHz)
Lambda 構文を使った関数 (1.3%) は未解析。

5. 取得したグラフの応用

a. イテレータの発見

あるループ変数 x について...
1. ループの終了条件に使われている
2. それ以外のループ変数に依存しない
上の条件を満たせばイテレータとみなす。

見つかったイテレータの例:

TextUtils.java:

 47:    int start = 0;
 48:    do {
 49:        int next = query.indexOf('&', start);
 50:        int end = (next == -1) ? query.length() : next;
            ...
 65:        start = end + 1;
 66:    } while (start < query.length());

ACache.java:

728:    String saveTimeStr = strs[0];
729:    while (saveTimeStr.startsWith("0")) {
730:        saveTimeStr = saveTimeStr
731:                .substring(1, saveTimeStr.length());
732:    }

b. クローン検出

ある関数と同型のグラフをもつ関数を検索。
同型 : 共通ノードが 5個以上。
見つかった 100 コード対を人手により評価。

A	トークンレベルで一致	33
B	トークレベルでほぼ一致	13
C	同一ロジックの実装と思われる	19
D	クローンではない	35

実際の出力: clones100.html

得られた非クローンの例 (1):

同一ロジックを実装している例:

public static <T> List<T> reverse_foreach(List<T> list) {
    List<T> reversed = new ArrayList<>();
    for (int i = list.size() - 1; i >= 0; i--) {
        reversed.add(list.get(i));
    }
    return reversed;
}

public static <V> List<V> invertList(List<V> sourceList) {
    List<V> invertList = new ArrayList<V>(sourceList.size());
    for (int i = sourceList.size() - 1; i >= 0; i--) {
        invertList.add(sourceList.get(i));
    }
    return invertList;
}

得られた非クローンの例 (2):

同一ロジックだが意味が異なる例:

boolean isSet(int id) {
  int bit = 1 << id;
  return (set & bit) != 0;
}

public boolean isPointerDown(int pointerId) {
    return (mPointersDown & 1 << pointerId) != 0;
}

6. おわりに

プログラム理解のためのグラフ表現 "FGyama" を提案した。

研究の目的: 変数の意味抽出。
変数間の詳細な依存関係を表現できる。
取得したグラフの応用例を示した。
ソースコード: github.com/euske/fgyama