14.1 エスケープシーケンス (escape sequences)

バックスラッシュ文字 \ は、1 バイト文字コード、または Unicode コードポイントをエスケープするのに使います。

\ooo の形式 (ooo は 8 進値の 3 文字) は、特定のフォントエンコード内の文字コード番号を指し示すのに使えます。例えば、Adobe Symbol フォントは、無限大の記号を 8 進 245 番で示すようなカスタムエンコードを使用します。これは、拡張文字列としてフォント名と文字コードを "{/Symbol \245}" のように指定することで埋め込むことができます。これは主に PostScript 出力形式で有用ですが、これは UTF-8 エンコーディングの処理は容易には行えません。

\U+hhhh の形式の Unicode のコードポイントで文字を指定することができます。ここで hhhh は 16 進値の 4 または 5 文字です。例えば、無限大の記号 ∞のコードポイントは \U+221E です。これは、必要ならば出力時に UTF-8 のバイト列に変換されます。UTF-8 環境では、印字可能な特殊文字は他の文字と同様に文字列内で処理できるので、この仕組みは必要ありません。しかしこれは結合文字や発音区別符号 (例えばベクトルを意味するための文字の上の矢印など) には有用です。以下参照: utf8 (116.27), string encoding (30.4)。またはオンラインユニコードデモ

を参照。

Unicode エスケープコードは、解釈されずに文字列に保存されることに注意してください。エスケープコードは、その文字列が出力されるか部分文字列処理の評価の際に、それが示す文字に置き換えます。よって、文字列 S = "A + \U+03A3 B" の定義後では、S[5:5] は " \" でなく "Σ" と評価しますが、(S eq S[1:*]) は FALSE と評価します。それは、S には処理されていないエスケープシーケンス自身が含まれるのに対し、S[1:*] の評価の際にはエスケープシーケンスが Σ に対する UTF-8 のバイト列に置き換わるからです。plot で使用する際は、どちらも "A + Σ B" と表示されます。

竹野茂治＠新潟工科大学
2025-07-31