Добро пожаловать, Гость. Пожалуйста авторизуйтесь здесь.
FGHIGate на GaNJa NeTWoRK ST@Ti0N - Просмотр сообщения в эхоконференции RU.FIDONET.TODAY
Введите FGHI ссылку:


Присутствуют сообщения из эхоконференции RU.FIDONET.TODAY с датами от 09 Jul 13 15:35:00 до 25 Nov 24 09:05:33, всего сообщений: 48394
Ответить на сообщение К списку сообщений Предыдущее сообщение Следующее сообщение
= Сообщение: 8624 из 48394 ================================ RU.FIDONET.TODAY =
От   : Mithgol the Webmaster            2:50/88            24 Jun 17 03:47:58
Кому : Nil Alexandrov                                      24 Jun 17 03:47:58
Тема : Проблема курицы и яйца в разработке софта, Unicode поддерживающего
FGHI : area://RU.FIDONET.TODAY?msgid=2:50/88+594db9d4
На   : area://RU.FIDONET.TODAY?msgid=2:5015/46+594ae65d
= Кодировка сообщения определена как: CP866 ==================================
Ответ: area://RU.FIDONET.TODAY?msgid=2:5015/46+595f095e
==============================================================================
Так было 00:16 22 Jun 17 написано от Nil Alexandrov к Mithgol the Webmaster:

NA> [..многа квота выкушено, там ишо эти ~Z не читаемые..]

Если у тебя символ под номером FF из кодировки CP866 (неразрывный пробел) заменяется просмотрщиком на ~Z, то тогда меняй просмотрщик (ситуация совершенно такая же, как в случае с заглавной русской буквой эн: символы кодировки CP866, не являющиеся специальными, не должны восприниматься как специальные).

Это решение (сменить просмотрщик) ── решение для пользователей. Что же касается авторов исходного кода самих просмотрщиков, то они могут и должны устранить из Фидонета эту пагубу ── некорректное восприятие кода FF как специального.

В частности, авторы просмотрщика GoldED относительно недавно (3 марта) подпёрли эту проблему костылём: сделали замену неразрывного пробела на обычный. И вышло неизящно, даже уродливо (ничуть не менее уродливо, чем замена русской заглавной буквы эн на английскую заглавную букву аш), но даже это ── шаг вперёд от ~Z.

╔═════════════════════════════════════════════════════────────────────────────
║ Письмо из эхи:  Ru.GoldED (Популярный текстовый фидобраузер GoldED+)
║ URL сообщения:  area://Ru.GoldED?msgid=2:5020/1042.3+58b9ec17
║ Автор и время:  golded+ inspector, 2:5020/1042.3 (04 Mar 17 01:20)
║ Кому написано:  All
║ Заглавие темы:  Changes in golded+ sources
╚════════════════════════════════════════════════════════════════════─────────
@MSGID: 2:5020/1042.3 58b9ec17
@PID: hpt/lnx 1.4.0-sta 06-03-11
@TID: hpt/lnx 1.4.0-sta 06-03-11
Updated file: srcdate.h in current branch
revision: 1.58;  date: 2017-03-03 07:16:57+00;  committed by grsf;  lines: +1 -1
Log message:
update sources date constant to 20170303
============

Updated file: cfgs/charset/866_koi.chs in current branch
revision: 1.5;  date: 2017-03-03 07:16:52+00;  committed by grsf;  lines: +2 -2
Log message:
Force replacement of non-breaking spaces with hard spaces
============

Updated file: cfgs/charset/koi_866.chs in current branch
revision: 1.4;  date: 2017-03-03 07:16:52+00;  committed by grsf;  lines: +2 -2
Log message:
Force replacement of non-breaking spaces with hard spaces
============
■■■ hpt/lnx 1.4.0
 √ Origin: Moscow, Russia (2:5020/1042.3)
────────────────────────════════╪══╬═╣()╠═╬══╪════════────────────────────────

NA> Предположим новософт стал предлагать писать в утф8, но кто это ещё
NA> прочитает? Тупиковая ветка развития в виде утф7 тоже ре сильно спасёт
NA> ситуацию, так если уж правде в глаза смотреть, это вам не кои8 читать в
NA> 7ми битном АСКИ терминале.

Здесь мне хочется возразить (и возражу), что моя идея фидонетовских подстрок Unicode (экранированный код UTF-7) представляется гораздо менее тупиковою, нежели переход на UTF-8, и на то есть две причины.

Во-первых, по отношению к коду UTF-8 существует упомянутая в предшествующем сообщении проблема курицы и яйца. Мне видно: в одном из следующих абзацев тобою для этой проблемы предлагаются трудоёмкие решения (специализированные эхоконференции-двойники, скрипты двойной перекодировки). Увы, трезвомыслящему фидошнику, способному ясно оценивать степень лени сисопов (хотя бы по такому показателю, как количество трупов в ноудлисте), понятно уж, что эти решения, вследствие трудоёмкости, не взлетят.

Во-вторых, вот это утверждение можно считать только формально корректным:

NA> Хорошая новость - само ПО тоссера можно не менять (если оно специально
NA> не делает предположений о мультибайтных кодировках, также пропускает как
NA> есть все символы когда видит не знакомый чарсет в кладжах. Все кладжи,
NA> пути, синбаи, ориджины, а также просто переводы строк - всё это
NA> кодируется ровно также в утф8 просто по факту того, что являются
NA> словечками в нужно месте 7ми битной аски.

Да, это хорошо, когда программному обеспечению наплевать на обрабатываемый в текстовых строках (кладжах, путях, синбаях, ориджинах и проч.) поток байтов. Очевидно, что это лучше, чем когда ему не наплевать и что-нибудь дохнет.

Однако же этого не достаточно.

В данном случае вся драма превозмогания заключается в том, что вс&+BGM-; буквы русского языка находятся в той области таблицы Unicode, для которой в UTF-8 каждый символ кодируется двумя байтами.

Соответственно, любое то поле, под которое фидонетовский стандарт (или кусок кода тоссера) отводит чуть меньше восьмидесяти байтов (имея в виду ограничение, равное 78 или 79 символам, исторически сложившееся под влиянием разработанного ещё в 1928 году 80-символьного формата перфокарт IBM), для русского текста в кодировке UTF-8 автоматически становится сорокасимвольным или ещё меньше.

Впрочем, без примера не наглядно; сейчас приведу пример.

Строка 'Проблема курицы и яйца в разработке софта, Unicode поддерживающего' (заглавие вот этого сообщения) имеет в длину 66 символов. Почему это так? Потому, что FTS-0001 отводит на заглавие 72 символа, из которых один остаётся для пометки конца строки, ещё четыре надо вычесть на тот случай, если кто-то настроил редактор почты при ответе вставлять "Re: " (причём с пробелом после двоеточия), и ещё один ── просто на всякий случай. (Вот не удалось мне занять заглавием 67 символов вместо 66, ну дык ведь и не было повода стараться, угу?)

Среди этих 66 символов можно найти только восемь пробелов. Остальные ── буквы русского алфавита, которые при переходе на UTF-8 вдвое распухнут.

Итак, видим, что переход на UTF-8 означает необходимость сократить длину заглавий фидопочты в два раза. Как это повлияет на содержательность заглавий в тех эхоконференциях, где фидошники общаются на кириллице? ── да уж понятно, как.

А если этого не хотеть, то придётся отвергнуть вышеизложенный тезис о том, что можно не менять ПО тоссера. Вот почему я звал его только формально корректным: потому, что при переходе на UTF-8, чтобы не оказаться стиснутым вдвое сильнее, поневоле придётся (да ещё как придётся-то!) поменять и ПО тоссера, и даже ПО мейлера, которое также ведь на FTS-0001 было основано всё, всё.

Причём это не только заглавий касается, но и кладжей, и ориджинов, и т. д.

Тупиковая ли это ситуация? ── если и не тупиковая, то всё же велика предполагающаяся драма превозмогания.

Менее ли тупиковая ситуация в случае принятия моей идеи о фидонетовских подстроках Unicode (записывающихся экранированным UTF-7)? ── кажется, гораздо менее тупиковая: символы, в кодировку CP866 укладывающиеся, останутся всё же однобайтовыми, а распухнут те только символы, которые в CP866 не поместилися.

Придётся, конечно, мириться с тем, что символ '&+2D3c1g-;' занимает 10 байтов (как и почти каждый символ эмоджи), и что даже русская буква '&+BGM-;' занимает семь байтов (как и почти каждый символ из тех, которых мы лишилися вследствие ужасов петровского самодержавия или ещё более мрачных ужасов жидобольшевизма), тогда как иероглиф '&+cys-;' занимает столько же.

Однако, я думаю, с этим можно будет мириться в силу относительной редкости появления таких символов (в заглавиях, в ориджинах, в кладжах и т. п.) по сравнению с появлением символов из CP866 там же. Если пара-тройка-другая символов распухнет всемеро, то даже это лучше, чем если вдвое распухнет каждый.

NA> На переходном этапе (который займёт пару десятков лет, если мы оставшихся
NA> не растеряем), будет возможно "практиковать" утф8 только в специально
NA> отведённых для этого эхах. Как костыль, можно на пёрл плагине к Хаски
NA> написать перекодировщик, который положит мессажку в эху с другим названием
NA> в 866, которую можно локально читать голдедом, а в обратную сторону можно
NA> другим хуком перекодить в утф8. Естественно, что это будет работать только
NA> для английский+русский в одном сообщении и без всяких ятей и эмодзи.
NA> Кстати, даунлинкам можно будет не заморачиваться, они сразу смогут
NA> подписаться на параллельную эху со старой 866 кодировкой, хотя это ещё
NA> больше костыль.

Во-первых (как я уж сказал несколько выше), это трудоёмко и потому не взлетит.

Во-вторых, если английский + русский одном сообщении без всяких ятей и эмодзи, то тогда непонятно, зачем и огород городить. Только яти, эмодзи, вставка слов японских, немецких, финских и арабских может придать этому делу реальный смысл.


Фидонет будет великим и гипертекстовым!    [Ru.Mozilla]     http://Mithgol.Ru/
Mithgol the Webmaster.                    [Братство Нод] [Team А я меняю subj]

... Вы заснёте вдвое быстрее, если будете считать по 2 овцы сразу. (C) unknown
--- Знаешь ли ты, Nil, что "напряжённый" пишется через "ё"?
* Origin: Но зло, причинённое народу, должно быть смыто КРОВИЩЕЮ!.. (2:50/88)

К главной странице гейта
Powered by NoSFeRaTU`s FGHIGate
Открытие страницы: 0.477984 секунды