✅ はじめに
テキスト整形、ログ解析、データ前処理……
プログラマが日常的に向き合う「地味だけど面倒」な作業の救世主が
正規表現(Regex)です。
特に、以下のようなケースにおいて:
- 改行コードの統一
- タブや空白の置換
- 行頭・行末のノイズ除去
- 表記揺れの補正
正規表現を使うだけで圧倒的に手作業を減らすことが可能です。
この記事では、「とくエディタ」や VSCode、Sublime Text などのエディタで使える即戦力な正規表現パターンを、目的別に分かりやすく整理しました。
■ 文字・構造ごとに見る:よく使う置換パターン一覧
🔸 改行コードの扱い
処理内容 | 正規表現 | 置換内容 |
---|---|---|
CRLF(Windows改行)を検出 | \r\n |
任意(空文字やカンマなど) |
LF(Unix改行)を検出 | \n |
任意 |
CRのみ(旧Macなど)を検出 | \r |
削除や統一に |
空行(全角・半角空白含む)を削除 | ^\s*\r?\n |
空文字 |
🔸 空白・タブまわり
処理内容 | 正規表現 | 備考 |
---|---|---|
タブをスペース4つに変換 | \t |
半角スペースに置換 |
全角スペースを半角に変換 | |
半角スペースに置換 |
連続スペースを1つにまとめる | {2,} |
” “(半角1個)に置換 |
行頭の空白削除 | ^\s+ |
^ + \s |
行末の空白削除 | \s+$ |
$ + \s |
🔸 データ整形・区切り変換
処理内容 | 正規表現 | 置換内容 |
---|---|---|
改行→カンマ | \r?\n |
, |
空白区切りをカンマに | \s+ |
, |
連続改行を1つに | (\r?\n){2,} |
\n(改行1つ) |
🔸 数字・英字検出
処理内容 | 正規表現 | 用途例 |
---|---|---|
数字のみの行を抽出 | ^\d+$ |
IDリストなどの抽出 |
英字だけの行 | ^[A-Za-z]+$ |
ラベル検出や英語のみ判定 |
郵便番号(日本) | ^\d{3}-\d{4}$ |
123-4567形式にマッチ |
電話番号(ハイフンあり) | \d{2,4}-\d{2,4}-\d{4} |
03-1234-5678 など |
🔸 フィルター・マスキング
処理内容 | 正規表現 | 備考 |
---|---|---|
特定記号をまとめて削除 | [★☆■●○※◆◇♪] |
装飾記号の除去に便利 |
., *, ? などの記号を文字として扱う | \. / \* / \? |
エスケープが必要 |
■ Tips:とくエディタなどで使う場合のポイント
- とくエディタでは 正規表現検索+置換が非常に高速。ショートカットで呼び出せば爆速編集が可能。
\r\n
→\n
など改行コード統一は、コピペされたCSV・TSVで特に有効。- 複数条件のフィルタリングが必要なときは、グループと否定
[^...]
を活用すると強力。
■ まとめ:地味だけど必須、Regexは“覚えるよりストックすべし”
正規表現は最初こそ「記号の暗号」ですが、一度使い慣れると編集スピードと精度が段違いです。
■ 初心者は以下のパターンから覚えるのがおすすめ:
\r?\n
(改行)
^\s+
/ \s+$
(行頭・末尾空白)
(\r?\n){2,}
(連続改行)
\t
(タブ)
^\d+$
(数字判定)
■ 関連キーワード
- 正規表現 改行 削除
- Regex タブ 置換
- エディタ 正規表現 空白処理
- 改行 コード 統一 正規表現
- 正規表現 チートシート 日本語
- とくエディタ 正規表現 一覧