言語理論とコンパイラ

第二回 (2008年 4月18日)

形式言語の重要性、種類、定義

http://www.sw.it.aoyama.ac.jp/2008/Compiler/lecture2.html

先週からの宿題

XML に付いて調べて、結果をページ半分程度にまとめなさい。(この授業に関係あることの方がよい。)
次の行の Cプログラムの一文の字句解析の結果、構文解析の結果、そしてコンパイラの出力 (アセンブリ言語; コメントは必要ない; 割り算は DIV で) を、授業の例に習って書きなさい。
total = pretax + pretax/100*5;

宿題 2 の正解例

[都合により削除]

授業全体の内容

	理論	コンパイラ	他の応用
フロントエンド	言語理論、オートマトン	字句解析、構文解析	正規表現, XML
バックエンド		最適化、コード生成

言語理論の重要性

データ形式、プログラム言語のモデル
計算、認識のモデル

言語の基本用語

自然言語 (natural language) の場合は文や文書はある規則によって語から構成される

形式言語 (formal language) の場合は用語の使い方が違う:

語 (word) がある規則によって記号 (symbol) から構成される
語は記号の列 (string of symbols)
例: 記号 a, b, c を元に例えば a, abc, aaabbb, abcba, 等の語がある
空語 (empty word) ε も語の一例

語の定義

ある語や言語はある記号の有限集合 Σ を元に定義される

Σ はアルファベット (alphabet) という

Σ 上の語 (word over Σ) は Σ に属する 0 以上の記号の列である

記号の数は語の長さ (length of the word) といって、語 w の長さは |w| で表す

例: |abcba| = 5; |ε| = 0

記号は長さ 1 の語である

語の連結演算

二つの語を続いて並ぶと新しい語ができる

これは語の連結演算 (concatenation operation) という

連結演算は演算子なしで書く

例: 語 w と v の連結は wv と書く

応用例: w = abc で v = cba の時に wv = abccba である

同じ語 (や記号) の連結は乗数で書く: ww = w²、aaaaa = a⁵ 等

連結演算の性質

結合法則: 語 w, v, u の時 (wv)u = w(vu)

単位元は ε: wε = εw = w

可換法則は成り立たない: wv ≠ vw

連結の語の長さは連結される語の長さの和

言語の定義

Σ 上の言語 (language over Σ) は Σ 上の語の集合である

例 (Σ ={a,b,c}):

空集合: {}
空言語の集合: {ε}
Σ (Σ 上の長さ 1 の語の集合)
長さ 3 の (Σ 上の) 語の集合
Σ 上の全ての語の集合
a と始まる (Σ 上の) 語の集合
a を晴、b を曇、c を雨・雪にして、来週の都道府県庁の一日づつの天気を表す語の集合

言語の演算

言語の演算は集合の演算と語の演算の組み合わせ

言語の和集合
言語の積集合
言語の差集合
言語の結合演算: 言語 A と B の場合、結合 AB = { wv | w∈A, v∈B }
語と同じく言語でも LL を L² 等で表す
クリーン閉包 (閉含) ((Kleene) closure): 0 以上の同じ言語の連結
L^* と書く

例: L = { a, b } => L^* = { ε, a, b, aa, ab, ba, bb, aaa, ... }

オートマトンと文法と言語

オートマトンは言語を受理 (認識、識別) する機械のモデルである
文法は言語を生成する規則である
オートマトンと文法には色々な種類があります
種類によって受理・生成する言語が異なる
言語理論では主に四種類の言語を区別する
この四種類の言語は順番に部分集合である
この四種類の言語にはそれぞれオートマトンと文法の種類が対応している

形式言語の表

文法	grammar	Type	言語	オートマトン
句構造文法	phrase structure grammar (psg)	0	句構造言語	チューリング機械
文脈依存文法	context-sensitive grammar (csg)	1	文脈依存言語	線形拘束オートマトン
文脈自由文法	context-free grammar (cfg)	2	文脈自由言語	プッシュダウンオートマトン
正規文法	regular grammar (rg)	3	正規言語	有限オートマトン

チューリング機械 (Turing machine) は一般の計算機のモデルである
文脈自由言語は構文解析の時に使う
正規言語は字句解析の時に使う

文法の定義

非終端記号の有限集合 N
終端記号の有限集合 Σ
書換規則の有限集合 P (生成規則ともいう)
開始記号 S (S ∈ N, 初期記号とも言う)

文法は (N, Σ, P, S) の四字組で定義される。

書換規則

書換規則一つは α → β と書く

α は左辺 (left-hand side)、β は右辺 (right-hand side) という

α とβ は 0以上の非終端記号と終端記号の列

α には被終端記号が少なくとも一つ含まれてないといけない

例: aAb → aAAb, BC → abc, C → Cb, A → ε

反例: bc → Ac, ε → b

文法の種類

文法の種類は書換規則の制限で決まる

0. 特に制限なし: 句構造文法 (phrase structure grammar), (Chomsky) 0 型文法 (Type-0 grammar)

αAβ → αγβ (α, β は0以上の、γ は1以上の (非)終端記号の列) の場合:
文脈依存文法 (context-sensitive grammar), (Chomsky) 1 型文法 (Type-1 grammar)
A → β (β は0以上の (非)終端記号の列) の場合:
文脈自由文法 (context-free grammar), (Chomsky) 2 型文法 (Type-2 grammar)
A → aB 又は A→ a (A → Ba 又は A→ a でも可) の場合:
正規文法 (regular grammar), (Chomsky) 3 型文法 (Type-3 grammar)

導出

文法から語を作るプロセスは導出という

導出は初期記号から始まる

一回の導出は一つの書き換え規則の一回の適用:

現在ある (非)終端記号の列にある書換規則の左辺と同じ部分列を見つけ、この部分列を書換規則の右辺に入れ代える

結果が終端記号だけになるとその終端記号の列が文法が定義する言語の一つの語

適用できる書換規則がない場合、この導出が失敗

導出の例

文法: S → aba, S → aBTa, T → ABTa, T → ABa, BA → AB, aA → aa, Ba → ba, Bb → bb

導出: S ⇒aBTa⇒aBABaa⇒aABBaa⇒aaBBaa⇒aaBbaa⇒aabbaa

宿題

提出期限と場所: 2008年4月24日 (木) 19:00 まで O棟5階のO529 号室の前の箱に投入

形式: A4 一枚 (裏も使ってよい)

L = { a, cb, ac } の場合、L^* の一番短い語 10個を列挙しなさい。
発展問題 (解答自由): L^* の長さ4の語を全て列挙しなさい。
「導出の例」で使われた文法を使って、4つの (例とお互いと) 異なる語の導出を書きなさい。この文法はどの様な言語を定義しているかを推測して、説明しなさい。
発展問題 (解答自由): 自分の推測を証明してみなさい。
(提出なしだが、出来なかった人は次回にノートパソコンを持ってきて下さい。)
自分のノートパソコンに cygwin をダウンロード、インストールする。インストールの手順で必ず gcc, flex と bison を選ぶ。(家にダイアルアップ回線しかなかったら学校でやった方がよい。)