言語理論とコンパイラ

第五回: flex の演習

2011 年 5 月 13 日

http://www.sw.it.aoyama.ac.jp/2011/Compiler/lecture5.html

Martin J. Dürst

今日の内容

字句解析の自動化
cygwin の使い方
flex の概要
flex の使い方と演習
字句解析と構文解析
プッシュダウンオートマトン
来週の予定: 中間テスト

前回までのまとめ

(非) 決定性有限オートマトン
(左|右) 線形文法
正規表現 (regular expression)

全て同じ力を持って、お互いに変換可能、正規言語を定義・受理

コンパイラの段階

字句解析 (lexical analysis)

構文解析 (parsing; syntax analysis)

意味解析 (semantic analysis)

最適化 (optimization)

コード生成 (code generation)

コンパイラの構造

前半 (解析) もしくは全体の中心は構文解析

構文解析は getNextToken() のような関数で字句解析から必要に応じて次のトークンを取得

構文解析は必要に応じて意味解析などを呼ぶ

字句解析の実装

主な要点:

文字ごとの細かい作業のため、効率が大切
読み込みにバッファを使用

選択肢:

自前で字句分析を作成
ツールの使用

字句解析の自動化

字句解析はコンパイラの初段階
プログラム言語の「単語」を解析・抽出
字句の記述には正規表現が最適
正規表現→NFA→DFA で効率的な実装が可能
手作業での変換は大変 → 自動化

`flex` の概要

字句解析器生成系 (生成器, lexical analyser generator)
lex のオープンソース版、様々な拡張
lex: Unix 付属の字句解析器生成系 (作者の名前は Lesk)
コンパイラなどの字句解析が簡単に記述・作成可能
構文解析器 bison と相性がよい
(Adobe Flex と別物)

cygwin の使い方

ls: ディレクトリの内容をリストアップ
mkdir: 新しいディレクトリを作る
cd: 現在のディレクトリを変更する
pwd: 現在のディレクトリを表示する
gcc: C のプログラムをコンパイルする
./a: コンパイルしたプログラムを実行する
notepad filename.l &: cygwin からメモ帳を直接、しかも並行に使用可能

cygwin とハードディスク

前提: cygwin のインストール先が C:\cygwin
普通は C:\cygwin の下しか見えない
ユーザ用のホームディレクトリは例えば C:\cygwin\home\user1
pwd で /home/user1 として表示
C:\cygwin からの脱出:
cd /cygdrive/c

`flex` の動作

拡張子 .l の flex 用入力ファイル ((f)lex ファイル) を作成 (例: test.l)
flex で test.l ファイルから lex.yy.c ファイルを作成:
>flex test.l
lex.yy.c を (他のファイルと一緒に) コンパイル

`flex` の使い方

独自のファイル処理 (正規表現によるファイルの一部の認識・変更):
main から yylex() 関数を一回呼ぶ
構文解析から呼ばれる字句解析:
構文解析から yylex() を繰り返し呼んで、トークンを return で返す

`flex` の勉強の仕方

マニュアルを読む: 英語、日本語
flex の出力 (lex.yy.c) を読む
違う入力に対する flex の出力を比較
flex のソースを読む (flex の字句解析も flex 形式で記述)
オプションによる内部情報の出力 (例: flex -v)

`flex` の入力形式

flex 専用の指示と C プログラムの一部分が混在

主に、二つの %% で区切られている三つの部分からなる:

前文 (変数の定義と初期化、良く使う字句の定義など)
字句規則とその場合に実行するプログラムの断片
そのほかの関数など

C 言語そのものと違って、改行、字下げが解釈を左右

`flex` の入力形式の骨格

宣言など (C 言語)
宣言など (C 言語)
%%
正規表現    実行文 (C 言語)
正規表現    実行文 (C 言語)
正規表現    実行文 (C 言語)
%%
関数など (C 言語)
関数など (C 言語)

`flex` の入力形式の一例

        int num_lines = 0, num_chars = 0;
%%
\n      ++num_lines; ++num_chars;
 .      ++num_chars;
%%
main()
{
        yylex();
        printf( "# of lines = %d, # of chars = %d\n",
                num_lines, num_chars );
}

int yywrap () { return 1; }

`flex` の基本動作

flex 呼び出し時:
- 正規表現を分析、一つの DFA に統合
- テーブルの作成と初期化
- DFA の処理プログラムのコピー
- .l ファイル内の C 言語の断片のコピー
実行時:
- 文字を順次入力
- できるだけ長い文字列を一つの正規表現でマッチ
- 複数の正規表現で同じ長さの文字列が受理可能な場合、.l ファイルで上のものが優先
- 受理が決定の場合、対応する C コードを実行
- 受理できない文字はそのまま出力
- 次の文字から処理再開

`flex` の演習 1

前のスライドの flex 用プログラムを .l ファイルにし、flex と gcc で実行ファイルにし、試行

`flex` の演習 2

一般のテキストを XML の要素の内容にする場合には次の表に示される変換が必要
flex でその変換と逆変換のプログラムをそれぞれ作成

テキスト	XML
`'`	`'`
`"`	`"`
`&`	`&`
`<`	`<`
`>`	`>`

`flex` の演習 3: 数字の発見

入力をそのまま出力、しかし数字でしたら、その前に >>>、その後に <<< をつけるプログラムを flex で作成

入力例:

abc123def345gh

出力例:

abc>>>123<<<def>>>345<<<gh

ヒント: 正規表現でつかんだ文字列は yytext として使用可能

`flex` の演習 4: 日付の字句解析

提出期限と場所: 2011 年 5 月 26 日 (木) 19:00 まで O 棟 5 階の O-529 号室の前の箱に投入

提出形式:

flex の入力ファイル (.l)
A4 の紙一枚 (必要になれば両面印刷; もっと長くなる場合はホチキス止め)
名前、学生番号はコメントとして書く
表紙は必要ない (減点対象)

一般の XML ファイルを入力して、その中のものを一行ずつ分かりやすいように書き出す。

例: (入力は <letter>Hello & World!</letter> の場合)

Start tag: <letter>

Contents: Hello

Entity: &

Contents: World!

End tag: </letter>

詳細:

入出力は半角英字に限定
空白や改行だけの内容の部分は無視
Start tag (開始タグ)、end tag (終了タグ)、contents (内容)、entity (エンティティ、実体) は必須
comment (コメント)、processing instruction (処理命令) は簡単なので是非やってください
attribute (属性) は発展問題
要素の入れ子構造は出力にインデントで反映
終わりに閉じてない要素がありましたら警告を出す

参考のため: テスト入力の例、テスト出力の例

形式言語の表

文法	grammar	Type	言語	オートマトン
句構造文法	phrase structure grammar (psg)	0	句構造言語	チューリング機械
文脈依存文法	context-sensitive grammar (csg)	1	文脈依存言語	線形拘束オートマトン
文脈自由文法	context-free grammar (cfg)	2	文脈自由言語	プッシュダウンオートマトン
正規文法	regular grammar (rg)	3	正規言語	有限オートマトン

正規表現・正規文法・有限オートマトンの限界

次のような言語が正規表現などで表せるのか:

記号 a, b, c からなる左右対象の語の言語
記号 ( と ) からなる、式等のように入れ子になっている語の言語
記号 0 と 1 からなる、n 個の 0 の後 n 個の 1 の語の言語

これらは全て有限オートマトンの有限のメモリの制約によって受理不可能

字句解析と構文解析

	字句解析	構文解析
解析対象	定数、識別子、予約語、演算子など	式、文、関数など
要点	速さ	能力
記述方法	正規表現	文脈自由文法
(自動) 解析手段	有限オートマトン	プッシュダウンオートマトン

正規文法と文脈自由文法

正規文法 (regular grammar):

右線形文法か左線形文法

文脈自由文法 (context free grammar):

文法の導出規則の左側は全て非終端記号一つ
導出規則の右側は制限なし (非終端記号も終端記号も何個でもよい)
例: A → aBb, B → aaB, S → aBaAb 等
｢自由」の意味: 依存しない、左右されない、関係ない
プログラム言語の構文は周りと関係なくその場で正しいかどうか判断が可能
(意味解析も含まれると文脈自由ではなくなる)

文脈自由文法の一例

S → aSa | bSb | c

生成する言語: 真ん中に c が一個、周りに a と b が 0 以上対照的に自由な順番で並ぶ

生成する語の例: c, aca, bcb, abaabcbaaba 等

こういう風な言語を受理するのはメモリがないため有限オートマトンでは不可能

オートマトンの機能拡張が必要

オートマトンにプッシュダウンスタックをつけよう

プッシュダウンスタック

(pushdown stack)

受理する言語の記号と別のプッシュダウン記号を記憶できる
一番上の記号しか見えない
一番下に特別な記号 (ボトムマーカ) がある

A stack of trays at the cafeteria. Only the topmost tray is visible due to a built-in spring.

プッシュダウンオートマトン

遷移は入力記号だけではなくて、スタックの上に見える記号にも依存する
遷移でのスタックについての動作: 一番上のスタック記号を取るか、スタックをそのまま残すか、スタックに記号を追加するのか
開始の時、ボトムマーカだけのスタック
受理はボトムマーカだけのスタックや受理状態の時 (複数の種類あり)

プッシュダウンオートマトンの一例

a, b, c は言語の記号
スタックは左が上で想定されている
A/BA はスタックの一番上が A の場合に BA に変わる (つまり、B を上乗せ)

プッシュダウンオートマトンの図

決定性と非決定性のプッシュダウンオートマトン

S → aSa | bSb | c の文法の場合、決定性プッシュダウンオートマトンで実現可能
S → aSa | bSb | ε の文法の場合、決定性プッシュダウンオートマトンで実現不可能
理由: 語の真ん中の印がない
有限オートマトンと違って、決定性と非決定性のプッシュダウンオートマトンの性能 (受理能力) が違う

効率よく構文解析できるには可能な限り決定性のある文法が必要

来週の予定

中間テスト