特殊文字の幅なし空白文字とJavaScriptのString length

JavaScript

幅なし空白文字ノーブレークスペースとJavaScriptのString length [JavaScript]

2022年3月22日

とあるサービスを利用した時、日本語文字列の文字数が、想定より多く取得される現象に遭遇しました。

JavaScriptのString lengthはStringオブジェクトの文字列長をUTF-16コードユニットの数で表しているため、lengthで返される値が文字列の実際の文字数と一致しなくなる可能性があります。

とは言えただのlengthを打って、目に見えている文字数と明らかに乖離した結果が返ってくるのは焦ります。

どうなっているのか確認するためChromeの開発者モードで対象のvalue値を確認したところ「​​」が挿入されていたわけです。

これは幅なしの空白文字(ノーブレークスペース、ゼロ幅スペース)と呼ばれるもので、サーバーサイドで特殊文字対策(サニタイジング)してないのか?と思いましたが、他人のサービスのためカスタマイズできないので、JavaScript側でトリムすることになりました。

とりあえず下記で行けますが、ブログサイトの表記やweb上の実行サイトなどで使うと、​が表現されないため遭遇したら自分の環境で試してください

var str_result = "対象文字列".replace(/[\u200B-\u200D\uFEFF]/g, '');
//ターゲット文字列
var tar_char = "お​も​て​な​し";
//そのまま実行
console.log(tar_char.length); //9 お​も​て​な​し
//空白をトリムして実行
var str_result  = tar_char.replace(/[\u200B-\u200D\uFEFF]/g, '');
console.log(tar_char.length); //5 おもてなし

幅がないスペースは下記が該当します。

U + 200B
U + 200C
U + 200D
U + FEFF

https://stackoverflow.com/questions/18478847/why-is-8203-being-injected-into-my-html

今日の一杯 赤ワイン

2025/6/30

フェウド・アランチョ ネロ・ダーヴォラ レビュー|今日の一杯 赤ワイン

「フェウド・アランチョ ネロ・ダーヴォラ」は、味わい深く、コスパの良い、安定した品質の一本です。 トマト系の煮込み料理や、チーズをたっぷりのせたラザニアとも合い、もちろん、静かな夜にひとりでグラスを傾ける時間にもぴったり。 海外の専門家たちからも高評価を得ており、日常使いからしっかりした食事まで汎用的に活躍します。 味と風味 口に含むと、熟したダークベリーやラズベリーの果実味が広がりながら、後半にかけてほんのりドライハーブのような余韻が続きます。 酸味は控えめで、タンニンはしっかりしています。 飲みごたえ ...

続きを読む

エナジードリンク 今日の一杯

2025/6/30

ZONe ENERGY ABSOLUTE VICTORY 勝 レビュー|今日の一杯 エナジードリンク

ZONe ABSOLUTE VICTORYは2025年1月に発売されたエナジードリンクです。 受験勉強をイメージしたデザインの商品で、学問の神様として知られる菅原道真公を祀る太宰府天満宮に「HYPER ZONe 」を奉納し、受験生の合格を祈願しているそうです。 寒い冬に体を温めるように、成分にジンジャーシロップが配合されており、堅調に生姜の味がします。 カナダドライのジンジャーエールとはまた違う、比較的マイルドな飲みやすい生姜ジュースといった印象です。 ZONeの1本あたりのカフェイン量は75mgとコーヒ ...

続きを読む

  • この記事を書いた人

九十九史恩

キーを叩いていないときは、都会や田舎の風景を探検しています。

よく読まれている記事

条件の0=0は全てが正であるを意味するSQL 1

SQLの条件に0=0のような記述を見かけます。 変わった書き方の条件ですが、これは「全てが正である」事を意味しており、結合条件の場合はCROSS JOINと同じです。 下記の例で言えば、結合するsub ...

DISTINCTを使わないで重複排除を考えるSQL 2

SQLのDISTINCTはEXISTSとかGROUP BYでなんとかする事もできます。 DISTINCTは暗黙的なソートがされますが、何のDBを使うにせよ過去のバージョンならともかく、最近のバージョン ...

RFC 5322に準拠させた正規表現言語別 3

RFC5322で定義されている正規表現を、各言語の正規表現に変化させた形になります。 完全な電子メール正規表現は存在しないので、結局のところ何かの公式基準に従っていたとしても、自分が携わるサービスのル ...

-JavaScript