正規表現と正規言語

正規表現と正規言語
2020年12月19日

自己紹介
名前: 三宅英明
Twitter: @mollifier
神戸のプログラマ

正規表現とは
[lL]inux
こういうやつ

正規表現とは
使い方はこの本とかに書いてあります

正規表現とは
もともとは形式言語理論という計算機の理論に関す
る用語

正規表現とは
なんか難しそうですが、基礎の部分は意外と簡単で
す

正規表現とは
今日はそれについてお話します

正規表現とは
理論の部分はWikipedia 日本語版の次のページか
ら引用しています
正規表現
正規言語

形式言語理論における正規表現の定義
論理的な正規表現の定義を紹介します
空集合は正規表現である
任意の1文字は正規表現である
XとYが正規表現ならば、 XY 、 X|Y 、 X* は正規
表現である
XY は、XのあとにYつなげてできる集合

X|Y は、XとYの和集合
X* は、Xを0回以上繰り返した集合
優先順位を表す () は使ってよい

これらで表現できるパターンのことを正規表現と呼び
ます

さらにくだけた表現で言い換えると、次のやつを並べ
たパターンのこと
空文字列
文字そのもの
| 記号 : OR
* 記号 : 0回以上の繰り返し

() 記号 : 優先順位を表すカッコ

これらを好きなだけ並べてできるパターンのことを正
規表現と呼びます

例
f
foo
fo*
fo*|(bar)*

使える記号(メタ文字)は、 | と * 、優先順位の () だ
けです

それだけ? もっと他にもメタ文字あるでしょ?

確かに他にもありますが、実はさっき上げたメタ文字
だけで表現できます

たとえば . 任意の1文字は、
a|b|c|d|...(省略)
こんなふうに全部の文字を | で並べればよい

同じ理屈で、 [abc] a, b, cいずれか1文字は、
a|b|c

a? aが0回または1回は
空文字列|a

a{2,} aが2回以上は
aaa*

こんな風に | 、 * 、 () だけに置き換えできます

正規表現の特徴
空文字列
文字そのもの
| 記号 : OR
* 記号 : 0回以上の繰り返し
() 記号 : 優先順位を表すカッコ

これらを好きなだけ並べてできるパターンのことを正
規表現と呼ぶ

なぜ文字列検索にこの規則が用いられたのか? この
規則を満たしていたら何がうれしいのか?

それは、実装の都合があります

検索パターンが指定されたとして、当然それがマッチ
するかどうかを判定する処理が必要になります

それってなんか難しそう。どうやって実装するのか?

そのとき、
正規表現で記述できる形式言語のことを正規言
語と呼ぶ
正規言語は決定性有限オートマトン(DFA)によ
って受理可能である
逆に、決定性有限オートマトン(DFA)によって受
理可能である言語は正規言語に等しい

という性質を使います

もう少しくだけた表現で言うと、
正規表現で指定した検索パターンは、決定性有
限オートマトン(DFA)であればマッチしたかどう
か判別できる

決定性有限オートマトン(DFA)って何?

ここでは説明しません

もしDFAが実装できたとします。そうするとさっきの理
論によって、どんな正規表現でもマッチしたかどうか
必ず判別できます

また、逆にDFAで検索できるすべてのパターンは正規
表現の形で表せます。

さっきあげた | 、 * 、 () だけで十分ということです
ね。もしこれらでは表せない別の記号を足すと、DFA
では検索できなくなります。

つまり、正規表現の実装ができるのか、という問題は
DFAが実装できるのか、という問題に帰着されます

じゃあそのDFAというのは実装できるのか?

実は僕はその辺あまりくわしくないのですが、まあ普
通にできるようです

実際にDFAをつかって実装されている正規表現エン
ジンはあります

さらに、非決定性有限オートマトン(NFA)というものも
あります

これらは等価です。つまり、DFAで判定できればNFA
でも判定できます。逆も真です。

実際にNFAをつかって実装されている正規表現エン
ジンもあります

まとめ

正規表現で使える記号は少ない。 | 、 * 、 () だ
け
でも組み合わせれば、(万能ではないが)かなり
多くのパターンが指定できる

正規表現であればDFAで判定可能
正規表現であればNFAでも判定可能

DFAやNFAの実装は、まあやればできる

というわけで、いろんなパターンが指定できて、実装も
まあできるので、文字列検索に使ったら便利やん、と
いうことで使われ始めた

というわけで、正規表現の理論的なお話をしました

これからは、正規表現って分かる? とか聞かれたら

「正規表現? ああ正規言語の表現のことね」
「それやったらDFAによって受理可能やね」

とか返してあげましょう!

ありがとうございました

正規表現と正規言語

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (9)

正規表現と正規言語