UNIX基礎演習

権藤研全体ゼミ 2020/04/16
新山

0. ウォームアップ問題
1. UNIXスクリプト処理の基本
2. 実験データの管理
3. 大量のデータを蓄積・処理する場合のTips
4. データのSerializationについて
5. Python から CSV/JSON/SQLite を使う
6. (おまけ) SVG形式とは

0. ウォームアップ問題

ここでは、以下の常識をチェックします:

Python で簡単なプログラムが書けること。
SQL が書けること。
UNIXシェルの簡単な使い方を理解していること。

( ) 内はおおまかな目安時間です。

Python 3.8 をインストールせよ。3.7でもよい。(5分)
以下のようなCSVファイルから単語と出現回数を読み込み、回数が多い順にソートして表示するプログラムを書け。なお、同じ単語が複数回出てきた場合は、それらの合計を使用するものとする: (15分)
```
foo,3
baa,1
john,5
foo,1
```
出力例:
```
john,5
foo,4
baa,1
```
SQLite3 をインストールせよ。(5分)
以下の表を作成し値を入力する SQL を書け。(10分)

Id Name Score

1 Alice 100

2 Bob 50

3 Carol 75
上の表から、Scoreが50点であるような行を表示する SQL を書け。(5分)
a001.txt, a002.txt, ... という名前のついた複数のファイルがあるとする。これらの名前を一括して a001.html, a002.html, ... に変更するようなシェルスクリプトを書け。 (5分)
上のスクリプトで、ファイル名の一覧があらかじめ決まっておらず、あるテキストファイル files.txt 中に一行ずつ書かれている場合はスクリプトをどう変更すべきか。(5分)

Id	Name	Score
1	Alice	100
2	Bob	50
3	Carol	75

1. UNIXスクリプト処理の基本

1.1. シェルの基本

特殊な記号 ({, }, $, *, ;) を引数に渡す場合は '〜' で囲む。

演習. カレントディレクトリの中にある「-t」というファイル中から * という文字列を検索する grep コマンドを書け。

1.2. 変数の活用

a="foo"
echo "$a"
b="$a $a"
c='$a $a'
d='$a '"$a"

演習. シェル変数と環境変数の違いは何か?

1.3. Historyを活用する

「こんなコマンドを実行したはずなんだけど、なんだっけ」

$ history | grep なんか

注意: historyファイルはときどき消されることがある。

過去のコマンドラインをすべて記録しておく

function _prompt_cmd {
    local s=$?
    echo "`date '+%Y-%m-%d %H:%M:%S'` $HOSTNAME:$$ $PWD ($s) " \
         "`history 1`" >> $MYHISTFILE
}
PROMPT_COMMAND=_prompt_cmd

コマンドラインの記録は、そのまま実験ノートにもなる。あとで実験手順を再現したいときに参考になる。

1.4. パイプの使い方

演習. 以下のコマンドラインを順に実行し、つぎの表現が何をするか予測せよ。

$ ls -l
$ ls -l | wc
$ ls -l | sort
$ ls -l | sort -k4
$ ls -l | sort -k4 -r
$ ls -l | sort -k4 -r -n
$ ls -l | awk '{print $5;}'
$ ls -l | awk '{a+=$5;}'
$ ls -l | awk 'BEGIN{a=0;} {a+=$5;} END{print(a);}'
$ ls -l | awk '/euske/ {print $4;}' | uniq
$ ls -l | awk '/euske/ {print $4;}' | uniq -c
$ ls -l | awk '/euske/ {print $4;}' | uniq -c | wc

$ find ~
$ find ~ -type f
$ find ~ -type f | grep test
$ find ~ -type f | grep -i test
$ find ~ -type f | grep -i test | wc
$ find ~ -type f -name '*test*'
$ find ~ -type d -ctime -3
$ find ~ -type d -mtime +3
$ find ~ -type d -mtime -3

1.5. shスクリプトの基本

shスクリプトはこの行から始める。

#!/bin/sh
  または
#!/bin/bash

$ chmod 755 foo.sh

コマンドライン引数の扱い

echo "$0"
a=$1
shift
b=$1
c="$@"

あるプロセスの標準出力を値として使う

`コマンド`
  または
$(コマンド)

よく使う制御構造

if 式; then ...; else ...; fi

if 式; then
    ...
else
    ...
fi

for 変数 in 式; do
    ...
done

while read 変数; do
    ...
done

case 式 in
パターン1)
    ...
    ;;
パターン2)
    ...
    ;;
*)
    ...
    ;;
esac

1.6. xargs を使う

$ cat files.txt
a.txt
b.txt
c.txt
$ cat files.txt | xargs echo
$ cat files.txt | xargs cat
$ find -type d | xargs ls

ウォームアップ演習. 与えられた引数を1行ずつ表示するシェルスクリプトを書け。ただし、その行が foo であるときのみ、 bar と表示すること。

1.7. 実験パイプラインの設計

UNIXプログラムのお約束:

出力は、標準出力に。
ログは、標準エラー出力に。

できるだけ各コマンドが ひとつだけのことをするように設計する。
できるだけ標準入力から入力を受けとり、標準出力に結果を表示する:
```
$ cmd1 input.txt | cmd2 | cmd3 > output.txt
```
途中結果を確認したい場合:
```
$ cmd1 input.txt
```

途中結果を保存しておき、後で続きをやりたい場合:

$ cmd1 input.txt > temp.txt
$ cmd2 < temp.txt | cmd3 > output.txt

途中結果をモニタしたい場合:

$ cmd1 input.txt | tee temp.txt | cmd2 | cmd3 > output.txt

a. フィルタとして設計する場合

$ コマンド [オプション] < 入力ファイル > 出力ファイル

b. 1つのファイルを入力する場合

$ コマンド [オプション] 入力ファイル

c. 可変個のファイルを入力する場合 (理想形)

$ コマンド [オプション] 入力ファイル1 入力ファイル2 ...

ファイル名が与えられない場合は標準入力を使用する。

こうしておくと

$ find ... | xargs コマンド [オプション]

のようにできる。

また、実験パラメータの変更はコードをじかに変更するのではなく、コマンドラインオプションとして処理すること。

例

$ exp1 -a1 -p2 -k0 input.txt > output_a1_p2_k0.txt
$ exp1 -a2 -p3 -k5 input.txt > output_a2_p3_k5.txt
...

ログに関する注意

ログは、たとえ人間が読む場合でも、なるべく機械的に処理できるようにしておくこと。 (grep/awk 等でのおおまかな統計が簡単にとれる。)

×: print("kokodayo", x, y)
○: print(f"DEBUG: data read complete: x={x}, y={y}.")

長く走らせるスクリプト

#!/bin/sh
exec </dev/null
exec >log
exec 2>&1
renice +20 -p $$

echo "*** START `date` ***"
/usr/bin/time -v 実際のコマンド
echo "*** END `date` ***"

1.8. Pythonスクリプトの定石

Pythonスクリプトは慣例によりこの行から始める。

#!/usr/bin/env python

だいたい以下のようなパターンで書くと、上に示した「お約束」に沿ったコマンドになる。

import sys
import fileinput

def doit(args):
    for line in fileinput.input(args):
        print(line)
    return

def main(argv):
    import getopt
    def usage():
        print(f'usage: {argv[0]} [-d] [-o output] [file ...]')
        return 100
    try:
        (opts, args) = getopt.getopt(argv[1:], 'do:')
    except getopt.GetoptError:
        return usage()
    debug = 0
    output = None
    for (k, v) in opts:
        if k == '-d': debug += 1
        elif k == '-o': output = v
    return doit(args)

if __name__ == '__main__': sys.exit(main(sys.argv))

sys.argv でコマンドライン引数を取得。
getopt.getopt でオプションを取得。
コマンドラインが解析できない場合は usage() でヘルプを表示。
main() 関数はコマンドラインの解析のみをおこない実際の処理は doit() 関数に正式なパラメータを渡してやらせる。 (これにより、他モジュールから利用することが可能)

$ python test.py input.txt
  または
$ ./test.py input.txt
  または
$ cat input.txt | test.py
  または
$ cat files.txt | xargs test.py

演習.

上のプログラムを書き換え、変数 debug により doit() 内のなんらかの挙動が変わるようにせよ。
引数をとる -p オプションを追加せよ:
```
$ test.py -p 4 input.txt
```

2. 実験データの管理

たいていの研究では、複数の対象を異なる条件で実験する。このような実験条件・実験対象はよく記録し忘れるため、実験プロセス全体をシェルスクリプトにし、さらにそれを git で管理するのがおすすめ。 (スクリプトとその履歴が実験ノートになる)

2.1. ファイル名のつけ方

基本戦略は、シェルのワイルドカード (*) である条件をもったファイルだけを簡単に指定できるようにすることである。

名前は重要である。できるだけ意味がわかる名前にすること。 (さもないと、あとでワケわかんなくなる)
規則的にする。(日付・条件・用途によって予測可能にする)
- src_exp1_ver2.csv
- result-v4-20190803-temp.txt
- out.3cddd4d137ad4f794a8ccf0763b4d5a6450934b5
一定の prefix をつける。
- ×: jikken, jiken2, ..., kekka3
- ○: jikken_1, jikken_2, ..., jikken_3
データの種類・用途によって拡張子を変える。
- jikken_2.input
- jikken_2.output
- jikken_2.graph
- jikken_2.graph.svg
数値が入る場合は、桁数を揃える。
- ×: f1, f2, ..., f443
- ○: f0001, f0002, ..., f0443

2.2. ディレクトリ構造

基本的にUNIXのファイル名は逐次探索である。したがって、あまり1個のディレクトリに沢山のファイルを置くと遅くなる (せいぜい1000個程度)。

それからパス名が長くなりすぎると見にくいし、入力も大変。

データの種類・用途ごとにまとめる (input/, output/)
日付ごとにまとめる (s201909121012/, ...)
実験条件ごとにまとめる (data_seg01_p3_q4/, ...)
1., 2., 3. の混合 (data_201909121012_seg01_p3_input, ...)

3. 大量のデータを蓄積・処理する場合のTips

可能なかぎりストリーム処理を可能にする (データ形式が重要)。たとえば「1行に1項目」
なるべく高速に parse できる形式にする。 (しかし自己流バイナリ形式はおすすめしない)
変更頻度が少ないものはディスク上に置いてもよい。
参照頻度が多くても、シーク可能なら (OSが自動的にメモリ上にキャッシュするので) ディスク上に置けるかもしれない。

高速化のためのよくある手段

計算をサボる。(事前条件の強化)
計算をごまかす。(近似値の使用)
計算を後回しにする/先にやっておく。(キャッシュ・lookup tableの使用)

4. データのSerializationについて

実験結果は、たいていの場合あとで解析可能な形式で記録しておく必要がある。実験に時間がかかる場合・実験が複数のステージに分かれている場合などは、その中間的な状態を記録しておく必要がある。

4.1. 考慮する要素

複雑さ (数値、テキスト、構造体)
データ量 (オンメモリ, 10GBytes, 1TBytes)
変更する頻度 (0回 / 1回以上)
参照パターン (シークの要・不要)
共有度 (複数のプロセス、タスク、マシン間で?)
キャッシュ可能性
堅牢性 (データの一部が崩れても全体に影響を与えないか?)

重要: できるだけ既存のツール・ライブラリで処理できるようにする。

4.2. テキストファイル (自分フォーマット)

おすすめしない。もしやるとしたら、parseが簡単にできるようにすること。

新山がときどき使っているフォーマット

# コメント
+キー1 バリュー1
+キー2 バリュー2
(空行がレコード区切り)

利点: 特定のフィールドが grep で簡単に見れる。データに注釈が入れられる。 Pythonで簡単に解析可能。エディタで修正が簡単。
欠点: 自己流。 1行 = 1レコードではない。

rec = {}
for line in fp:
    line = line.strip()
    if line.startswith('#'): continue
    if line.startswith('+'):
        (k,_,v) = line.partition(' ')
        rec[k] = v
    elif not line:
        yield rec
        rec = {}

4.3. バイナリファイル (自分フォーマット)

超おすすめしない。

簡単なデータだけならいいかも (たとえば 32ビット列の羅列ひたすら1G個とか)。

「SQLite は fopen() に対抗するために作られた」

4.4. よく知られている形式 (おすすめ)

CSV

利点: 簡単。テキスト。 Excelで編集できる。
欠点: 微妙に仕様が標準化されていない。 (とくに " や , が入ったセルの場合) 巨大なデータには向かない。シーク不可。書き換え不可。

JSON

利点: 簡単。テキスト。言語非依存。ストリーム可。
欠点: 巨大になるとエディタでは見にくい。シーク不可。書き換え不可。

XML

利点: 複雑な階層構造をもったデータ向け。テキスト。言語非依存。
欠点: 巨大になるとエディタでは見にくい。シーク不可。書き換え不可。

SQLite

利点: 型が決まっているデータ向け。言語非依存。 4Gぐらいのデータまでなら余裕。シーク可。書き換え可。堅牢。
欠点: あらかじめテーブルの設計が必要。ツールを使わないと見れない。

SQLite + JSON

複雑な構造 × 膨大な数があるときに使う方法。

4.5. もっと高度な方法

ProtocolBuffer, HDF, MongoDB, ...

導入に手間がかかりすぎて、個人でやる実験には向かない。

5. Python から CSV/JSON/SQLite を使う

5.1. CSV

書き込み

import csv
with open('output.csv', 'w') as fp:
    writer = csv.writer(fp)
    writer.writerow(['a', 'b', 'ccc'])

読み込み

import csv
with open('input.csv') as fp:
    for row in csv.reader(fp):
        print(row)

5.2. JSON

書き込み

import json
with open('output.json', 'w') as fp:
    data = {'a':123, b:['x','y']}
    fp.write(json.dumps(data))

読み込み

import json
with open('input.json') as fp:
    for line in fp:
        data = json.loads(line)

5.3. SQLite

C から SQLite を使う場合は SQLite C/C++ Interface を参照。

書き込み

import sqlite3
db = sqlite3.connect('data.db')
cur = db.cursor()
cur.executescript('''
CREATE TABLE Student (
    Id INTEGER PRIMARY KEY,
    Name TEXT,
    Score INTEGER);
''')
for (name,id,score) in scores:
    cur.execute('INSERT INTO Student VALUES (?, ?, ?);', (id, name, score))

読み込み

import sqlite3
db = sqlite3.connect('data.db')
cur = db.cursor()
for row in cur.execute('SELECT Name,Id FROM Student;'):
    (name,id) = row

6. (おまけ) SVG形式とは

SVG (Scalable Vector Graphics) 形式とは、テキスト形式の一種で、図形を文字によって記述する。

HTML内に埋め込めるし、画像ファイルとしても使用可能。
ベクタ画像なので拡大してもギザギザしない。
ただのXMLなので、プログラムで簡単に生成可能。

first.svg

<svg xmlns='http://www.w3.org/2000/svg' version='1.1' width='300' height='200'>
<rect x='10' y='10' width='200' height='100' stroke='#000000' fill='#ff0000' />
<circle cx='200' cy='100' r='50' stroke='#000000' fill='#0000ff' />
</svg>

作成したファイル first.svg は、ブラウザで開くことができる。すると、以下のような図が表示される:

上の SVG は、以下のような情報を表している:

図形全体の大きさは幅 (width) 300 × 高さ (height) 200。
座標 (10, 10) の位置に、幅 200 × 高さ 100 の矩形を描画する。線の色は #000000 (黒) で、内部の塗りは #ff0000 (赤)。
中心座標 (200, 100) の位置に、半径 50 の円を描画する。線の色は #000000 (黒) で、内部の塗りは #0000ff (青)。

単位はすべてピクセルである。また、色は #RRGGBB のように赤 (R)、緑 (G)、青 (B) の各原色が 16進数 00 (0) 〜 ff (255) で表されている。つまり、黒は #000000 であり、白は #ffffff となる。座標のような数値は '〜' または "〜" で囲む。

演習.

上の first.svg を実際に入力し画面に描画せよ。
ファイルを変更し、長方形を黄色で、円をグレーで表示するようにせよ。色の指定 (#…) にはどのような値を指定すればよいか?
各座標を変更し、矩形と円の位置を入れ換えて表示するようにせよ。

6.1. SVG形式の基本構造

SVG の基本構造は以下のようになっている。まず <svg> 〜 </svg> で囲まれる文字列があり、その中に描画コマンドが並んでいる。 <svg> のような文字列をタグ (tag) という。最初の <svg> タグでは、図形全体の幅と高さをピクセル単位で指定する。「xmlns='http://www.w3.org/2000/svg' version='1.1'」の部分は固定である。

<svg xmlns='http://www.w3.org/2000/svg' version='1.1' width='幅' height='高さ'>
...描画コマンド...
</svg>

SVGの描画コマンド

矩形 (rect)

<rect x='10' y='10' width='100' height='80' fill='none' stroke='#000000' stroke-width='2' />
<rect x='80' y='60' width='50' height='40' fill='#ffcc00' stroke='#0000ff' stroke-width='4' />

[必須] x、y に左上の座標を指定する。
[必須] width、height に幅と高さを指定する。
fill には塗る色を指定する。(塗らない場合は none)
stroke には線の色を指定する。(線がない場合は none)
stroke-width には線の幅を指定する。(省略した場合は 1)
<rect ... の最後に必ず /> をつけること。
書かれた順に描画される (つまり、先に描かれたものが奥になる)。

直線 (line)

<line x1='10' y1='10' x2='100' y2='80' stroke='#000000' stroke-width='2' />

[必須] x1、y1 に始点の座標を指定する。
[必須] x2、y2 に終点の座標を指定する。
stroke, stroke-width は同じ。

多角形 (polygon)

<polygon points='10,90 50,10 90,90' fill='#00ff00' stroke='#000000' stroke-width='2' />

[必須] points に点の座標列を指定する。
座標列は、x,y x,y ... のように 2個ずつ区切って記述する。 (カンマなしで x y x y ... と書いてもよい)
fill、stroke、stroke-width は同じ。

円と楕円 (circle, ellipse)

<circle cx='50' cy='50' r='40' fill='none' stroke='#000000' stroke-width='2' />
<ellipse cx='200' cy='50' rx='80' ry='40' fill='#ff00ff' stroke='#000000' stroke-width='2' />

[必須] cx、cy に中心座標を指定する。
[必須] r (円の場合) または rx、ry (楕円の場合) に半径を指定する。
fill、stroke、stroke-width は同じ。

文字 (text)

<rect x='10' y='10' width='200' height='80' fill='none' stroke='#000000' />
<text x='10' y='40' text-anchor='start'>左寄せ</text>
<text x='110' y='60' fill='red' text-anchor='middle'>中央寄せ</text>
<text x='210' y='80' fill='white' stroke='#000000' text-anchor='end'>右寄せ</text>

[必須] x、y に起点の座標を指定する。
text-anchor に起点の方法 (start、middle、end のいずれか) を指定する。
注意: left、center、right ではない。
<text>タグはやや特殊で、表示したい文字列を <text> 〜 </text> で囲む。なお、複数行にわたる文字は一度に書けない。
文字の色は fill で指定する。
stroke は文字の縁取り色として使われるので、通常は none にしておく。

グループ化

すべての描画コマンドにいちいち stroke や fill を書くのは面倒くさいので、このような場合は <g> タグによるグループ化を使う。 <g> 〜 </g> で囲んだ部分には、同じ色・線幅が適用される。

<g fill='none' stroke='#0000ff' stroke-width='2'>
  <rect x='10' y='10' width='50' height='30' />
  <line x1='35' y1='25' x2='100' y2='50' />
  <circle cx='100' cy='50' r='30' />
</g>

6.2. 応用例

Graphviz 出力を SVG で。

$ cat foo.gv
digraph G {
  Nfoo [label="foo"];
  Nbar [label="bar"];
  Nbaz [label="baz"];
  Nfoo -> Nbar;
  Nbar -> Nbaz;
  Nfoo -> Nbaz;
}
$ dot -Tsvg foo.gv > foo.svg  (GV → SVGに変換)
$ rsvg-convert -f pdf -o foo.pdf foo.svg  (SVG → PDFに変換)

新山は (matplotlibが使いづらいので) 自前SVG生成器で実験結果をグラフ化している。

Yusuke Shinyama