巨大プロジェクトにおける変数名の一貫性の検査

権藤研合宿用資料 2019/09/17
新山

SOAPBOX

プレゼン資料は軽量かつ可搬な形式で作るべし。
- Proprietary かつツールがないと見れない形式を広める理由はない。
- 起動・終了・変更に 1秒以上かかるなんて信じられない。
- たかが紙芝居の表示に 1G もメモリを食うなど異常。
学術的な資料はパブリックに公開すべし。
- 著作権違反したい人にはおすすめできない。
- 後でこっそり改竄したい人にはおすすめできない。
- 公開しない・公開できない = インチキの可能性。
情報機器弱者に配慮すべし。
- スマートフォンだけでアクセス可能か?
- 読みやすいフォントの大きさに調整可能か?
- 視覚障害者でも資料を理解できるか?
現在、HTML が唯一のまともな選択肢である。
- 図・音声・動画・外部サイトへのリンクが簡単。
- CSS で印刷用の制御が可能。
- JS でちょっとしたオモチャを入れられる。
- diff れる。(← 超重要)

新山が使っているテンプレート:

<!DOCTYPE html>
<meta charset="utf-8" />
<meta name="viewport" content="width=device-width, initial-scale=1" />
<html><head>
<title>タイトル</title>
<style>
body { line-height: 1.5; }
h1 { border-bottom: solid 4px; }
h2 { border-bottom: solid 2px; }
h3 { border-bottom: solid 1px; }
table { border-collapse: collapse; margin: 0.5em; }
code { font-weight: bold; color: purple; }
pre { border: 1px solid black; padding: 0.3em; }
</style>

印刷用の場合、改ページはこうする:

<p style="page-break-before: always;">
2ページ目。

本題: 巨大なソフトウェアは深刻な問題だ

ソフトウェア開発コストの大部分 (40〜80%) は、保守によるコストである。
ソフトウェア保守のうち、多くの時間がソフトウェアの仕様および構造の理解に費やされている。
この負担をなるべく減らす研究をしたい。

究極の目標: ソースコードを入れると、自然言語の説明が出力される。 (例: GNU coreutils)

目標: ソースコード中の一貫しない変数名を指摘する

void printResult(Stream out, String result) {
  out.writeLine("result:"+result);
}

void printStat(Stream out, int stat) {
  out.writeLine("stat:"+stat);
}

void printInfo(Stream strm, String info) {
  strm.writeLine("info:"+info);  // お前、ここはoutやろ。
}

準備: 変数の「データパス」に着目する

ここでは、ある変数に代入される値が通る一連の処理 (または関数の引数および返り値が通る処理) を、その変数の「データパス」と定義する。

データパスの例

問. 以下の例で変数 line に着目する。

private BufferedReader fp;

public String get() {
    String line = fp.readLine();
    int i = line.indexOf(' ');
    return line.substring(0, i);
}

グラフ化するとこうなる:

グラフ中の赤線部分が変数 line のデータパスである:

fp.readLine() → line → #this:indexOf() → #arg1:substring()

これは、変数 line になにが代入され、それがどのように使われるかを示している。

Interprocedural 化する

private BufferedReader fp;

public String get() {
    String line = fp.readLine();
    int i = line.indexOf(' ');
    return line.substring(0, i);
}

public void show() {
    String name = get();
    System.out.println(name+"!!");
}

get() 中の変数 line (の処理結果) は、いまや show() 中では name となっていることに着目。

これをグラフ化するとこうなる:

最終的に、変数 line のデータパスは:

fp.readLine() → line → #this:indexOf() → #arg1:substring() → assign:name → L:+ → #arg0:println()

となる。この順列が、本プログラムにおける「変数 line の使われ方」を表すことになる。

単純化のため、いまのところパスの分岐は考慮しない。

手法: 学習と予測

以上のようなデータパスを、プログラム中のすべての変数に対して (interprocedural で) 抽出し、変数名との相関を学習する。ここでは「データパスを与えると、変数名を予測する」ようなモデルを学習する。

つまり、以下のようなデータパスが出てきたら:

fp.readLine() → ??? → #this:indexOf() → #arg1:substring() → assign:name → L:+ → #arg0:println()

ここでの ??? = line ではないか、と予測するということである。もしここで line 以外の名前が使われていたら、その変数名は (この使われ方に対しては) 一貫していない、ということになる。

以上の技術を、巨大な Java コードベースに対して行えば (これがチョー大変!!) 完了。

抽象的な記述

すべての変数 v ∈ V に対して、 v.feature, v.name を収集。
特定の変数 v₁ に対し、「v₁ を除いたすべての v ∈ V (v ≠ v₁)」に対して G(v.feature) = v.name を予測する関数 G を学習する。
G(v₁.feature) を求め、それが v₁.name と一致すれば一貫性あり。

結果

適用例1: XZ (6.8 kloc)
適用例2: JHotDraw (15 kloc)
実験中: Xerces (114kloc), Apache Tomcat (235kloc), Weka (324kloc)

本研究の貢献

「コード中の変数名を予測・提案する」という研究は以前からある [1] が、本研究が新しいのは:

外部的な知識を使わず、単一のプロジェクトから一貫性を学習したこと。
ヒューリスティクスを使わず、純粋なデータパスの分析のみを用いたこと。
「なぜこちらの名前がより一貫性があるのか」という理由をシステムが提示できること。

である。

Raychev, Veselin and Vechev, Martin and Krause, Andreas, Predicting Program Properties from "Big Code", 2015.

Yusuke Shinyama