simonsapin.github.io
"Юникод — это просто!" WTF-8 (Wobbly Transformation Format − 8-bit) is a superset of UTF-8 that encodes surrogate code points if they are not in a pair. It represents, in a way compatible with UTF-8, text from systems such as JavaScript and Windows that use UTF-16 internally but don’t enforce the well-formedness invariant that surrogates must be paired.
WTF-8 is a hack intended to be used internally in self-contained systems with components that need to support potentially ill-formed UTF-16 for legacy reasons.
Any WTF-8 data must be converted to an Unicode encoding at the system’s boundary before being emitted. UTF-8 is recommended. WTF-8 must not be used to represent text in a file format or for transmission over the Internet.
Надо будет пользоваться! Впрочем, кружок это лишнее, как по мне, да и в некоторых шрифтах он на нём может присутствовать сам.
U+229D circled dash
На самом деле он «U+2368 APL FUNCTIONAL SYMBOL TILDE DIAERESIS», но кого это волнует?
легкая подстава со стороны UTF8 :)
$ export LANG=POSIX
$ echo kiosk*
kiosk-123.bz2 kiosk.bz2 kiosk_123.bz2 kiosk_patch.bz2 kiosk_patch_123.bz2
$ export LANG=en_US.UTF-8
$ echo kiosk*
kiosk_123.bz2 kiosk-123.bz2 kiosk.bz2 kiosk_patch_123.bz2 kiosk_patch.bz2
Она определяет юникод по BOM, которая для utf-8 не является обязательной (поскольку, по сути своей, неприменима), и без метки текст считается в 1251.
А я несколько минут не мог понять, почему оба файла в юникоде, но один читается, а другой — нет. =/
habrahabr.ru
Есть мнение, что в следующем стандарте появятся символы "Отпечаток ануса белого хомячка" и "Твоя мартышка мочит хуй в моем стакане"
Вышел новый стандарт юникода. Почитать можно тут: Есть мнение, что в следующем стандарте появятся символы "Отпечаток ануса белого хомячка" и "Твоя мартышка мочит хуй в моем стакане"