正規表現でhtmlソースからjpg画像アドレスを抽出する
ちょっとしたところで使うととても便利な正規表現。でも使用頻度が少ないので都度調べるためにネットサーフィン…
今後そうならないためのメモ。使用ソフトは SublimeText2 。
スマホで見る
使用する正規表現の記述
■src=”xxxxx” か href=”xxxxx”の「xxxxx」部分を取得
(?<=src=")(.+?)(?=")|(?<=href=")(.+?)(?=")
■先頭から行末まで~.jpgで収まっている文字を検索
^(.+?\.jpg)$
抽出対象のhtmlソース
本サイトの トップページ のhtmlソース
手順
- Find > Find in Files…(ctrl + shift + f)
- 「Find:」 へ 「(?<=src=")(.+?)(?=")|(?<=href=")(.+?)(?=")」を貼り付け
- オプションの 「Use Buffer」 と 「Regular expression」 をオン
- 「Find」ボタンを押す
- 検索結果をさらに検索、Find > Find (ctrl + f)
- 入力欄へ 「(?<=src=")(.+?)(?=")|(?<=href=")(.+?)(?=")」を貼り付け
- 「Find All」ボタンを押す
- 「ctrl + c」 でURLをまとめてコピー、新規ドキュメントに貼り付け
- 新規ドキュメントから検索、Find > Find (ctrl + f)
- 入力欄へ 「^(.+?\.jpg)$」を貼り付け –>「Find All」 –>「ctrl + c」で抽出完了!
※動画では最後に抽出した画像を分かりやすく表示するためにimgタグで囲ってhtmlファイルでブラウザ表示しています