【保存版】プログラマのための正規表現チートシート:改行・タブ・空白処理etc…

✅ はじめに

テキスト整形、ログ解析、データ前処理……
プログラマが日常的に向き合う「地味だけど面倒」な作業の救世主が
正規表現(Regex)です。

特に、以下のようなケースにおいて:

  • 改行コードの統一
  • タブや空白の置換
  • 行頭・行末のノイズ除去
  • 表記揺れの補正

正規表現を使うだけで圧倒的に手作業を減らすことが可能です。
この記事では、「とくエディタ」や VSCode、Sublime Text などのエディタで使える即戦力な正規表現パターンを、目的別に分かりやすく整理しました。

■ 文字・構造ごとに見る:よく使う置換パターン一覧

🔸 改行コードの扱い

処理内容 正規表現 置換内容
CRLF(Windows改行)を検出 \r\n 任意(空文字やカンマなど)
LF(Unix改行)を検出 \n 任意
CRのみ(旧Macなど)を検出 \r 削除や統一に
空行(全角・半角空白含む)を削除 ^\s*\r?\n 空文字

🔸 空白・タブまわり

処理内容 正規表現 備考
タブをスペース4つに変換 \t 半角スペースに置換
全角スペースを半角に変換   半角スペースに置換
連続スペースを1つにまとめる {2,} ” “(半角1個)に置換
行頭の空白削除 ^\s+ ^ + \s
行末の空白削除 \s+$ $ + \s

🔸 データ整形・区切り変換

処理内容 正規表現 置換内容
改行→カンマ \r?\n ,
空白区切りをカンマに \s+ ,
連続改行を1つに (\r?\n){2,} \n(改行1つ)

🔸 数字・英字検出

処理内容 正規表現 用途例
数字のみの行を抽出 ^\d+$ IDリストなどの抽出
英字だけの行 ^[A-Za-z]+$ ラベル検出や英語のみ判定
郵便番号(日本) ^\d{3}-\d{4}$ 123-4567形式にマッチ
電話番号(ハイフンあり) \d{2,4}-\d{2,4}-\d{4} 03-1234-5678 など

🔸 フィルター・マスキング

処理内容 正規表現 備考
特定記号をまとめて削除 [★☆■●○※◆◇♪] 装飾記号の除去に便利
., *, ? などの記号を文字として扱う \. / \* / \? エスケープが必要

■ Tips:とくエディタなどで使う場合のポイント

  • とくエディタでは 正規表現検索+置換が非常に高速。ショートカットで呼び出せば爆速編集が可能。
  • \r\n\n など改行コード統一は、コピペされたCSV・TSVで特に有効。
  • 複数条件のフィルタリングが必要なときは、グループと否定 [^...] を活用すると強力。

■ まとめ:地味だけど必須、Regexは“覚えるよりストックすべし”

正規表現は最初こそ「記号の暗号」ですが、一度使い慣れると編集スピードと精度が段違いです。

■ 初心者は以下のパターンから覚えるのがおすすめ:

\r?\n(改行)
^\s+ / \s+$(行頭・末尾空白)
(\r?\n){2,}(連続改行)
\t(タブ)
^\d+$(数字判定)

■ 関連キーワード

  • 正規表現 改行 削除
  • Regex タブ 置換
  • エディタ 正規表現 空白処理
  • 改行 コード 統一 正規表現
  • 正規表現 チートシート 日本語
  • とくエディタ 正規表現 一覧