FGHIGate на GaNJa NeTWoRK ST@Ti0N - Просмотр сообщения в эхоконференции RU.FTN.DEVELOP


	Добро пожаловать, Гость. Пожалуйста авторизуйтесь здесь.

Введите FGHI ссылку:

Присутствуют сообщения из эхоконференции RU.FTN.DEVELOP с датами от 12 Jul 13 20:52:30 до 18 Oct 24 22:48:06, всего сообщений: 2735

Ответить на сообщение

К списку сообщений

Предыдущее сообщение

Следующее сообщение

= Сообщение: 583 из 2735 ==================================== RU.FTN.DEVELOP =
От   : FGHI Robot                       2:50/88            27 Dec 14 08:02:28
Кому : All                                                 27 Dec 14 08:02:28
Тема : Черновик стандарта фидонетовских подстрок Unicode (русская версия)
FGHI : area://RU.FTN.DEVELOP?msgid=2:50/88+549e3d69
= Кодировка сообщения определена как: CP866 ==================================
==============================================================================
**********************************************************************
FGHI                                FIDONET GLOBAL HYPERTEXT INTERFACE
**********************************************************************
Статус:         черновик
Номер редакции: первоначальный оконченный черновик
Заглавие:       Фидонетовские подстроки Unicode
Автор:          Mithgol the Webmaster   (aka Sergey Sokoloff, 2:50/88)
Дата редакции:  8 Sep 2014
-+--------------------------------------------------------------------
Содержание:
   1. Статус этого документа
   2. Введение
   3. Ключевые слова для выражения уровней требуемости
   4. Восьмибитное кодирование фидонетовского сообщения,
      содержащего подстроки Unicode
   5. Декодирование восьмибитного фидонетовского сообщения,
      содержащего подстроки Unicode
   6. Важные примечания
-+--------------------------------------------------------------------

1. Статус этого документа
-+-----------------------

Этот документ является переводом на русский язык, соответствующим
черновику Предлагаемого Фидонетовского Стандарта (FSP).

Оригинал этого документа описывает необязательный фидонетовский
стандарт, который может использоваться фидошным сообществом.

Реализация стандарта, определённого в этом документе, не является
необходимою; но ожидается, что все реализации будут соответствовать
данному стандарту.

Распространение этого документа не ограничивается, если в его текст
при распространении не будут внесены изменения, не упомянутые явно.

2. Введение
-+---------

Многие классические редакторы почты Фидонета (такие, как GoldED+,
например) были спроектированы как восьмибитные приложения. Они
ожидают, что каждый символ фидонетовского сообщения кодируется одним
байтом. Следовательно, они никогда не будут поддерживать кодировки
Unicode UTF-8 или UTF-16.

Эта ситуация является проблемою типа "курица или яйцо". Сообщения
в кодировке UTF-8 не появляются в Фидонете, так как ни одним из
популярных читальников они никогда не будут прочитаны. С другой
стороны, отсутствие таковых сообщений означает, что у разработчиков
популярных читальников нет нужды развивать свой софт, а у их
пользователей нет нужды обновлять свои читальники или выбирать
какие-либо новые (поддерживающие Unicode) читальники.

Этот документ определяет простой метод, который позволяет
подстрокам Unicode появляться (в кодированном и экранированном виде)
внутри восьмибитных строк.

Метод кодирования основан на формате UTF-7 (RFC 2152).

Метод экранирования вдохновлён ссылками на символы HTML (HTML 4.01,
подраздел 5.3.1, подраздел 5.3.2).

Реализацией этого метода достигается следующая ситуация:

*) Пользователи новых (поддерживающих Unicode) приложений Фидонета
     могут читать и записывать подстроки Unicode в восьмибитных
     сообщениях.

*) Пользователи старых (восьмибитных) приложений Фидонета могут
     читать восьмибитные части сообщения. Подстроки Unicode остаются
     неразборчивыми, но для восьмибитного приложения это естественно,
     и причиняет лишь небольшое неудобство, и послужит как побуждение
     к апгрейду.

3. Ключевые слова для выражения уровней требуемости
-+-------------------------------------------------

Ключевые слова "MUST", "MUST NOT", "REQUIRED", "SHALL", "SHALL NOT",
"SHOULD", "SHOULD NOT", "RECOMMENDED", "NOT RECOMMENDED", "MAY" и
"OPTIONAL" в оригинале этого документа имеют смысл, соответствующий
описаниям в стандарте FTA-1006 (основанном на RFC 2119).

В этом русском переводе используются следующие ключевые выражения:

"MUST"            : "ДОЛЖЕН", "НАДО"
"MUST NOT"        : "НЕ ДОЛЖЕН"
"REQUIRED"        : "НЕОБХОДИМЫЙ", "ТРЕБУЕМЫЙ", "ТРЕБУЕТСЯ"
"SHOULD"          : "НАДОБНО", "СЛЕДУЕТ"
"SHOULD NOT"      : "НЕ СЛЕДУЕТ"
"RECOMMENDED"     : "РЕКОМЕНДУЕМЫЙ", "РЕКОМЕНДУЕТСЯ"
"NOT RECOMMENDED" : "НЕ РЕКОМЕНДУЕТСЯ"
"MAY"             : "МОЖЕТ", "МОЖНО"
"OPTIONAL"        : "НЕОБЯЗАТЕЛЬНЫЙ"

4. Восьмибитное кодирование фидонетовского сообщения,
   содержащего подстроки Unicode
-+---------------------------------------------------

Спервоначалу исходный текст (Unicode) разделяется, порождая массив
подстрок, следующих друг за другом в последовательном порядке, где
подстроки с чётными индексами (0, 2, 4...) содержат символы, которые
могут быть закодированы целевою кодировкою, а подстроки с нечётными
индексами (1, 3, 5...) содержат символы, которые не могут быть
закодированы целевою кодировкою. (Или наоборот; если первым появится
символ, который не может быть закодирован целевою кодировкою, тогда
его подстрока имеет нулевой индекс и все такие подстроки также имеют
чётные индексы.)

Традиционное восьмибитное кодирование совершается для тех подстрок,
которые могут быть закодированы этим способом, то есть каждому из
таких символов сопоставляется байт.

Остальные подстроки ("подстроки Unicode") преобразуются в формат
UTF-7 (RFC 2152). Например, строка, состоящая из символов Unicode
U+9802, U+5C16, U+5C0D, U+6C7A, U+4E4B, U+7A7F, U+8932, U+5B50,
U+7BC7, представляется в виде следующей строки:

        +mAJcFlwNbHpOS3p/iTJbUHvH-

Однако же принятый в UTF-7 метод экранирования (плюс перед такой
строкою и минус после) не достаточен для Фидонета. Поэтому минус
ДОЛЖЕН быть заменён на точку с запятою, а перед плюсом ДОЛЖЕН быть
поставлен амперсанд. Например, строка, состоящая из символов Unicode
U+9802, U+5C16, U+5C0D, U+6C7A, U+4E4B, U+7A7F, U+8932, U+5B50,
U+7BC7, представляется в виде следующей строки:

        &+mAJcFlwNbHpOS3p/iTJbUHvH;

Затем традиционное восьмибитное кодирование совершается для этих
(ASCII-совместимых) символов.

Результаты кодирования подвергаются последовательной конкатенации
в том порядке, который подстроки имели в первоначальном массиве,
то есть в порядке их появления в исходном тексте.

5. Декодирование восьмибитного фидонетовского сообщения,
   содержащего подстроки Unicode
-+------------------------------------------------------

Прежде всего сообщение декодируется традиционным восьмибитным
декодером, каждый байт декодируется в один символ.

Кодированные подстроки Unicode затем обнаруживаются в сообщении
(с использованием их уникальной формы: амперсанд, затем плюс, затем
один или более из символов base64, затем точка с запятою)
и заменяются на их декодированные аналоги.

Для поиска этих кодированных форм может быть полезным нижеследующее
PECL (Perl-совместимое регулярное выражение):

      /&\+[A-Za-z01-9+\/]+;/

Для их декодирования ДОЛЖЕН использоваться некоторый
RFC2152-совместимый декодер UTF-7. (Как объясняется в предыдущем
разделе, фидонетовские подстроки Unicode используют кодировку UTF-7
с другою экранировкою. Если декодер ожидает RFC2152-совместимую
экранировку, то амперсанд ДОЛЖЕН быть убран и точка с запятою
ДОЛЖНА быть заменена на минус перед тем, как подстрока передаётся
декодеру.)

6. Важные примечания
-+------------------

Примечание 1. Амперсанд, точка с запятою, плюс и некоторые коды
base64 (например, заглавные латинские буквы) способны появляться
во блоках кодов UUE в Фидонете. Если программа чтения фидонетовских
сообщений интерпретирует коды UUE, то она ДОЛЖНА изолировать
и декодировать UUE раньше, чем применит декодер фидонетовских
подстрок Unicode к остальному сообщению. Если программа чтения
фидонетовских сообщений не интерпретирует коды UUE (то есть лишь
демонстрирует UUE как большую груду непонятных людям кодов), то ей
МОЖНО не заботиться о том, что часть этих кодов преобразуется
в подстроки Unicode.

Примечание 2. Фидонетовские подстроки Unicode МОГУТ появляться
в исходном сообщении ещё до того, как оно подвергается кодированию
(например, когда идёт обсуждение фидонетовских подстрок Unicode).
К ним СЛЕДУЕТ применять кодировщик фидонетовских подстрок Unicode
(чтобы их первоначальная форма восстановилась после декодирования;
в противном случае такие подстроки декодированием будут превращены
в соответствующий им Unicode). Имейте в виду нижеследующее:

2.1) Такой второй уровень кодирования НЕ ДОЛЖЕН применяться
       к фидонетовским подстрокам Unicode, когда они (случайно)
       возникают внутри блоков UUE. В противном случае декодирование
       UUE в старых программах чтения фидонетовских сообщений (которые
       о фидонетовских подстроках Unicode ничего не знают) окажется
       предотвращённым.

2.2) Фидонетовские подстроки Unicode в исходном сообщении МОГУТ быть
       оставлены нетронутыми в интересах пользователей старых программ
       чтения фидонетовских сообщений (а не то фидонетовские подстроки
       Unicode, подвергнутые двойному кодированию, окажутся для них
       ещё более нечитаемыми).

**********************************************************************
EOTD                                               END OF THE DOCUMENT
**********************************************************************
--- Mithgol's NodePost
* Origin: FGHI Global Headlight Ignited (2:50/88)

К главной странице гейта