複数行文字列の先頭と末尾にダブルクォーテーションを付け文末のカンマを消す

sh

複数行文字列の先頭と末尾にダブルクォーテーションを付け、文末のカンマを消す

抽出されたデータをもとに、確認用のSQLを作って抽出の成否を判定したいときに、IN句の条件を生成したいわけですが、抽出データは非エンジニアが見ることが多いため、CSVやTSVのようなエクセルで確認できる形式が多いと思います。

そういったとき、列の情報だけをコピペしてくるとIN句で使うにはクォーテーションをカンマが足りません。

そこで列をコピペした値に、行頭と行末に必要な文字を付けてあげるシェルを毎度使っています。正直業務ではないため、適当に処理をパイプで繋いで出力しているだけです。

word.txtから複数行の文字を取得して、最初の処理で1行ごとに先頭にダブルクォーテーションを付ける。次の処理で1行ごとに行末にダブルクォーテーションとカンマを付け、最後の処理で全体の最後の文字であるカンマ1つだけを取り除いています。

改行コードがLF想定。

sed 's/^/\"/g' word.txt | sed 's/$/\",/g' | sed -e :loop -e 'N; $!b loop' -e 's/[,\n]*$//' > word2.txt

改行コードがCRLFの場合末尾が余計に改行されるため、最初にawkで改行コードをLFに変換して処理とかですかね。

awk '{ gsub("\r", ""); print $0; }' word.txt | sed 's/^/\"/g' | sed 's/$/\",/g' | sed -e :loop -e 'N; $!b loop' -e 's/[,\n]*$//' | awk '{printf $0}' > word3.txt

 

改行も削除したいのであれば、通常のsedは検索では\nにマッチしないため、パイプでawkを繋いであげるのが楽です。printfはデフォルトで改行が付かないのでこれを利用して$0を出力するば改行が消えて出力されます。

sed 's/^/\"/g' word.txt | sed 's/$/\",/g' | sed -e :loop -e 'N; $!b loop' -e 's/[,\n]*$//' | awk '{printf $0}' > word2.txt

 

  • この記事を書いた人

朝倉卍丸

シングルモルトスコッチなどのお土産を持ってきた人を助けるのが好きです。まあ、昔ながらの方法でやりたいこともありますよね。

-sh