Чтобы добавлять сообщения и комментарии, .

@Strephil:
Strephil

А что, в Windows по-прежнему используются смешные восьмибитные кодировки или, наконец, нет?

@Shura:
Shura

Вот, ну наконец-то! habrahabr.ru
Жаль, что в пятёрку портировать нельзя.

@OCTAGRAM:
OCTAGRAM

Тщетно пытаюсь починить запрос на своём сайте
По заголовкам — UTF-8, а на деле — Windows-1251. Вот сука! Хоть бы экранировала свой JSON. Никак не могу понять, где нужно что поменять, чтоб стало хорошо. Долго копался в исходниках, там обработки media=json вообще нет, и самой обработки запроса, того, что мне нужно, нет. Вот есть объекты, и вот они стали кривым JSON, где это недостающее звено посередине. Всё от чего–то наследуется, ищи–свищи, где там какой козёл забрёл в огород Windows-1251 на сайте, который насквозь UTF-8 должен быть по идее. Ну вроде нашёл какой–то левый org.restlet.service.*, который вообще из другого проекта подтянулся по зависимостям и не считается с настройками остального сайта. И вот даже нашёл страничку, из которой понятно стало, каким образом media=json срабатывает. Непонятно, что где поменять, чтоб JSON был на самом деле UTF-8. То ли в web.xml поменять (что?), то ли в движке сайта, где делаются настройки для Restlet, то ли в самом Restlet. Ну и лапша!

@Balancer:
Balancer

На Juick, оказывается, невозможно написать сообщение с новыми символами utf-8. Смайлики всякие, emoji и т.п. Получается пустое сообщение, которое нигде не отображается.

@segfault:
segfault

UTF-8 кодирует все символы юникода. Размер символа в UTF-8 может быть от 1 до 6 байт. UTF-8 может кодировать до 2.2168e+09 символов.

@Balancer:
Balancer

Блин, 2014-й год на дворе, а в CentOS 6.5 до сих пор mcedit криво работает с UTF-8. По Meta-P строки сворачивает, считая длину в байтах, а не в символах. В тех же Ubuntu и Gentoo я даже не помню, сколько лет назад это было исправлено.

@Strephil:
Strephil

grep -w no longer mishandles a potential match adjacent to a letter that
takes up two or more bytes in a multibyte encoding.
Similarly, the patterns '\<', '\>', '\b', and '\B' no longer
mishandle word-boundary matches in multibyte locales.
[bug present since "the beginning"]

Неужели это починили, то что мне нужно, и теперь это будет работать с русскими словами???

@Strephil:
Strephil

Производительность GNU grep выросла в 200 раз!
Правда, в юникодных локалях всё стало еще хуже :-( падать стало реже, но производительность упала.

GNU Grep 2.19

@Strephil:
Strephil

Вот тут видно на скриншоте, что происходит в Слаке, есть запустить файловый менеджер с юникодной локалью. Все надписи становятся русскими, НО ИМЕНА ФАЙЛОВ ТОЛЬКО КРАКОЗЯБРАМИ ПО ДРУГОМУ СУКА НЕЛЬЗЯ

@Strephil:
Strephil

Середина второго десятилетия XXI века.

@Strephil:
Strephil

Каждый символ Юникода можно представить в UTF-8 с помощью четырех байтов. Почему же этим никто не пользуется? Это было бы очень удобно: все символы одинаковой длины.
Если ужь выбросить UTF-8 на помойку прямо сейчас нельзя, так можно хотя бы кодировать так, чтобы все все символы были одинаковой длины — по четыре байта???

@Marchael:
Marchael

По просьбе знакомого sourceforge.net пофиксил pastebin.com багу с кодировкой в монасте. Похоже, что разработчики просто не догадывались о том, что их продукт будут использовать за пределами Европы :)

@Whitesquall:
Whitesquall

Недавно поднимал вопрос. Dired не хочет отображать корректно не ascii имена файлов, если подключаться tramp'ом через ssh. Вот решение:
(add-to-list 'tramp-remote-process-environment "LANG=ru_RU.UTF-8" 'append)
(add-to-list 'tramp-remote-process-environment "LC_ALL=ru_RU.UTF-8" 'append)

@Whitesquall:
Whitesquall

Использую dired с tramp'ом через ssh. На удалённой машине utf-8, у меня аналогично, но в dired'е все файлы и директории с русскими названиями отображаются как "?????????". Жуйк, не встречал такое? Как лечить? Копаюсь в гугле, изучаю переменные настроек — пока ничего не нашёл. Это очень плохо, потому что реально обалденная фича.

@kamenev:
kamenev

unicode.org

@lomalkin:
lomalkin

Utf-8 чтобы вас всех блджад!!1111

Âñåì ïðèâåò! Êòî õî÷åò â ïåéíòáîë â ýòî âîñêðåñåíüå (29 ìàÿ) — çàïèñûâàéòåñü òóò, è/èëè çâîíèòå ìíå.
Òàì áóäó ÿ, íåñêîëüêî ìîèõ äðóçåé, èõ îäíîãðóïïíèêè, äðóçüÿ èõ îäíîãðóïïíèêîâ. È, âîçìîæíî, âû ;-)
Ãäå èìåííî — åù¸ íå ðåøèëè, ïðèíèìàþòñÿ ïðåäëîæåíèÿ =)

@JLarky:
JLarky

Обсуждал тут совместный доступ к файлам и конкретно cp1251 vs. utf-8:
блин, просто тонкость в том, что мы то, нормальные люди, можем в том числе пользоваться вашей варварской кодировкой
а Вы, походу навсегда застряли в 1991 году

@Strephil:
Strephil

оказывается, Notepad из Windows XP умеет открывать файле в кодировке utf-8. Сохранять, правда, не умеет. Сохраняет в какой-то смешанной кодировке, там что всё ОК.
Но меня это привело в заблуждение. Я-то думал, что если в Notepad отображается нормально, то значит, это точно убогая восьмибитная кодировка… Оказалось нет.

@OCTAGRAM:
OCTAGRAM

#set ($arg = $arg.replaceAll("%D0%9", "%C").replaceAll("%D0%B", "%E").replaceAll("%D1%8", "%F").replaceAll("%D0%81", "%A8").replaceAll("%D1%91", "%B8").replaceAll("%D0%A", "%D"))

@oxyd:
oxyd

Номер кодовой страницы для UTF-8 — 1208 Опробовал на FTP-плагине для NDFS. На местном FTP с юникодом — появились русские пукаффки.

@don-Rumata:
don-Rumata

*soft
Жуйц, как сказать мпд, чтобы зохавывал 2 кодировки? Через запятую и 2 строки не получается.

@x3al:
x3al

$ file .lyrics/school\ food\ punishment\ -\ deviswitch.txt
.lyrics/school food punishment — deviswitch.txt: DOS executable (COM)
$ sed 1q .lyrics/school\ food\ punishment\ -\ deviswitch.txt
過去と今繋ぐ エンドレス感を思い切りディバイス
$ grep -w COM ~/shit/builds/file/src/file-5.04/magic/Magdir/msdos |grep byte
0 byte 0xe9 DOS executable (COM)
0 byte 0x8c DOS executable (COM)
0 byte 0xeb DOS executable (COM)#0 byte 0xb8 COM executable
0 byte !0xb8 COM executable for DOS
Какой идиот нашёл сигнатуры в COM-файлах?

@werdn:
werdn

Вопрос есть на тему кодировок.
В фаеле ru.po строка есть "Content-Type: text/plain; charset=ISO-8859-5\n"
сам фаел в Utf-8, как-нибудь эта строка влияет на то, что приложение в итоге рисует каракули?
Как исправить?

@Strephil:
Strephil

*regex
Не знаю ужь, или это utf-8 не удачная задумка или реализация в GNU не очень-то, только все вместе это работает…
Вот например:
$ echo хуй |grep '^[[:graph:]]*$'
хуй
$ echo хуй |grep '^[[:alnum:]]*$'
$ echo хуй |grep '^[[:alpha:]]*$'
$ echo привет |grep '^[[:alpha:]]*$'
привет
$ echo хуй |grep '^.{2}$'
$ echo хуй |grep '^.{3}$'
$ echo хуй |grep '^.{4}$'
$ echo хуй |grep '^.{5}$'
$ echo хуй |grep '^.\+$'
хуй
$ echo хуй |grep '^[[:print:]]*$'
хуй
Больше всего меня удивило последнее, слово-то непечатное.

@PoZitron:
PoZitron

В ответ на #856694, мне @Livid подсказал (#856694/6) что в буржуйской винде используется кодировка cp1250 (хотя не понятно причём тут буржуи, рипы то наши люди делают. видимо дело в кодировке программы).
Соответственно, iconv -f cp1250 -t utf-8 some.cue > new.cue исправляет cuesheet-файл.
Чудесно :)

@PoZitron:
PoZitron

Ну почему cp1251??? Почему?? Нет, ну я понимаю обычных пользователей, они не знают что это такое... Но зачем рипать диск в flac/ape + .cue, при этом делая .cue-файл не в utf-8????
Блин, utf-8 это же так хорошо! Так правильно! Нет, надо обязательно запортить теги...
Такое название песни на самом деле: Vermächtnis
Такое если читать в utf-8: Verm�chtnis
Такое будет у Виндузятников: Vermдchtnis
Может я чего то не понимаю и не так делаю, но прежде чем писать пост негодования, проверил в религиозно-правильном, расово-верном фубаре. Там именно последний вариант отображается.
Не пойму что с этим делать, надоедает вручную править.

@Equidamoid:
Equidamoid

возможно, боян, но я нашел смособ побороть многочисленные UnicodeEncodeError'ы.
есть в питоне функция sys.setdefaultencoding, задающая кодировку для преобразования unicode->str (по умолчанию — ascii), только она недоступна простым смертным в их скриптах. Доступна она только в модуле sitecustomize, который, при наличии, импортируется при старте интерпретатора.
import sys
sys.setdefaultencoding('utf-8')
Этого хватит для решения проблем.
В тот момент, когда он импортируется, текущего каталога еще нет в sys.path, потому добавляем его насильно.
PYTHONPATH=. python myscript.py
всё =)

@fuze:
fuze

man utf-8

@PLed76:
PLed76

<%@ page contentType="text/html;charset=utf-8" %>
<%
File file = new File(getServletContext().getRealPath("mantle/messages/"));
URLClassLoader loader = new URLClassLoader(new URL[] {file.toURI().toURL()});
ResourceBundle properties = ResourceBundle.getBundle("messages", request.getLocale(), loader);
%>
<%= new String(properties.getString("pleaseWait").getBytes("ISO-8859-1"), "UTF-8") %>

Так русские буквы из messages_ru.properties (он в UTF-8) можно нормально отобразить на итоговой странице.

Более прямой способ пока мне не известен. Если кто знает — прошу делиться.

@Nim:
Nim

теглайны все вместе не хотят работать хоть убей. рансервер под той же фрей отлично справляется. В чем причина — пока что загадка для меня.

@Lis:
Lis

К фряхе как не подхожу везде жопа =(

@gelin:
gelin

Кому-нибудь еще нужна кодировка, отличная от UTF-8? В электрописьмах в том числе.

@don-Rumata:
don-Rumata

Линкс отображает русские символы в транслите. FFFUUU---

@wwarlock:
wwarlock

Оказывается, если настроить и запустить терминалку xterm из под X-сервера, то проблем с utf-8 намного меньше, точнее, я их пока вообще не обнаружил.
Не знаю с чем это связано, но как-то в ней более гладко и грамотно реализован юникод.
Из минусов отмечу только необходимость ручного выбора уникодного шрифта и его размера в меню xterm при первом запуске.
Очевидно, указываю неверные опции командной строки и они не срабатывают.
Но это ерунда по сравнению с тем кайфом, который я теперь испытываю от работы.

@Drino:
Drino

Жуйкоразум, а что делать, ежели коньки отказываются показывать русские и не очень символы, ограничивая меня набором цифр и латиницей?

@sharkman:
sharkman

*баги Опытным путём было выявлено, что гугловолна неправильно отдаёт названия файлов, которые были закодированы в utf-8… странно.

@nixon89:
nixon89

Жуйка, а кодировка UTF-8 подойдет для того чтобы все русские теги виделись не кракозябрами а нормально в плеере?