Чтобы добавлять сообщения и комментарии, .

@Balancer:
Balancer

Чисто для статистики. После конвертации mysql-БД форумов с utf8 на utf8mb4 размер базы вырос с 6896Мб до 7484 Мб. Прирост 8.5%.

@Strephil:
Strephil

Сколько лет назад я сел под Слаку? Сколько лет просидел? Вчера только узнал, что есть uxterm, и в консоли я мог не только видеть русские буквы, но даже работать с русскими именами в файлах.

@borman:
borman

"Юникод — это просто!" simonsapin.github.io

WTF-8 (Wobbly Transformation Format − 8-bit) is a superset of UTF-8 that encodes surrogate code points if they are not in a pair. It represents, in a way compatible with UTF-8, text from systems such as JavaScript and Windows that use UTF-16 internally but don’t enforce the well-formedness invariant that surrogates must be paired.
WTF-8 is a hack intended to be used internally in self-contained systems with components that need to support potentially ill-formed UTF-16 for legacy reasons.
Any WTF-8 data must be converted to an Unicode encoding at the system’s boundary before being emitted. UTF-8 is recommended. WTF-8 must not be used to represent text in a file format or for transmission over the Internet.

@Strephil:
Strephil

Интересно, вот буква ук, для диграфа даже отдельный символ введен: ѹ, но с комментарием: предпочтительно писать просто оу. Странновато, что не «оѵ», ведь «ук» это именно буквы «он» и «ижица», написанные вместе.

@Tenno-Seremel:
Tenno-Seremel

ℹ U+2139 information source (intended for use with U+20DD combining enclosing circle).

Надо будет пользоваться! Впрочем, кружок это лишнее, как по мне, да и в некоторых шрифтах он на нём может присутствовать сам.

@Strephil:
Strephil

Из Юникода надо бы выпилить тонну говна, а они нового срут. :-(
lenta.ru

@Tenno-Seremel:
Tenno-Seremel

⊝ кирпич практически, только фон прозрачный

U+229D circled dash

@Tenno-Seremel:
Tenno-Seremel



На самом деле он «U+2368 APL FUNCTIONAL SYMBOL TILDE DIAERESIS», но кого это волнует?

@skobkin-ru:
skobkin-ru

Таблица символов Юникода с HEX и HTML-кодами.
unicode-table.com

@Vugluskr:
Vugluskr

Друкъ сообщил:
легкая подстава со стороны UTF8 :)

$ export LANG=POSIX
$ echo kiosk*
kiosk-123.bz2 kiosk.bz2 kiosk_123.bz2 kiosk_patch.bz2 kiosk_patch_123.bz2

$ export LANG=en_US.UTF-8
$ echo kiosk*
kiosk_123.bz2 kiosk-123.bz2 kiosk.bz2 kiosk_patch_123.bz2 kiosk_patch.bz2

@Gem:
Gem

@HobbitMage:
HobbitMage

На навигаторе с WinCE есть читалка текстовых файлов. Понимает cp1251 и utf, с одной оговоркой.
Она определяет юникод по BOM, которая для utf-8 не является обязательной (поскольку, по сути своей, неприменима), и без метки текст считается в 1251.
А я несколько минут не мог понять, почему оба файла в юникоде, но один читается, а другой — нет. =/

@Vugluskr:
Vugluskr

Вышел новый стандарт юникода. Почитать можно тут: habrahabr.ru
Есть мнение, что в следующем стандарте появятся символы "Отпечаток ануса белого хомячка" и "Твоя мартышка мочит хуй в моем стакане"

@lomalkin:
lomalkin

⌨ — обожаю юникод