Index > セクション番号とセクションタイトルの分離用 regex (Jython)
Sun, May 17, 2009

セクション番号とセクションタイトルの分離用 regex (Jython)

のようなにセクション番号とタイトルが一つのエレメント内にまとめて記述してある DocBookのデータを処理しているのだが、諸事情によりこれらを分離して、 別々の要素として扱う必要がある。

そこで、これを正規表現を使って分離処理しました・・・という話。

Jythonには re というすばらしい正規表現ライブラリがあるのだが、 とりえず慣れている java.util.regex を使って処理したメモ。

コード separate-number-and-title.py

import java
import java.util.regex as re


regex="(^\\d+-\\d+)\\s(.*$)"


str="1-1 How to use this code"

pat=re.Pattern.compile(regex)
m=pat.matcher(str)
if m.matches() :
        print m.group(1)
        print m.group(2)

実行結果

$ jython separate-number-and-title.py 
1-1
How to use this code
 Twitter
follow me on Twitter
 Categories