FGHIGate на GaNJa NeTWoRK ST@Ti0N - Просмотр сообщения в эхоконференции RU.FTN.DEVELOP


	Добро пожаловать, Гость. Пожалуйста авторизуйтесь здесь.

Введите FGHI ссылку:

Присутствуют сообщения из эхоконференции RU.FTN.DEVELOP с датами от 12 Jul 13 20:52:30 до 18 Oct 24 22:48:06, всего сообщений: 2735

Ответить на сообщение

К списку сообщений

Предыдущее сообщение

Следующее сообщение

= Сообщение: 586 из 2735 ==================================== RU.FTN.DEVELOP =
От   : Serguei E. Leontiev              2:5020/400         28 Dec 14 04:54:24
Кому : Mithgol the Webmaster                               28 Dec 14 04:54:24
Тема : Re: Черновик стандарта фидонетовских подстрок Unicode (русская версия)
FGHI : area://RU.FTN.DEVELOP?msgid=<1187498433@ddt.demos.su>+c3559632
На   : area://RU.FTN.DEVELOP?msgid=<1187498419@ddt.demos.su>+d34727c8
= Кодировка сообщения определена как: CP866 ==================================
Ответ: area://RU.FTN.DEVELOP?msgid=2:50/88+54b2da94
==============================================================================
From: "Serguei E. Leontiev" <leo@sai.msu.ru>
Subject: Re: Черновик стандарта фидонетовских подстрок Unicode (русская версия)

P.S.

После некоторых размышлений, пришёл к выводу, что есть вариант
кодирования в HTML стиле, который совместим c UUE блоками без
дополнительных плясок с бубнами.

От 27 декабря 2014 г., 23:07:08 в fido7.ru.ftn.develop ты писал:
SL>     3. Кодирование UTF-7 для CP866 в HTML стиле

    5. Исправленное кодирование UTF-7 для CP866 в HTML стиле
        Фрагменты сообщения, которые содержат набор символов CP866 и не
содержащие последовательностей символов "&}", кодируются как CP866.
Остальные фрагменты кодируются согласно UTF-7 в опциональном варианте
кодирования символов набора O (Set O), т.е. по правилу 2 (Unicode
shifted encoding). С заменой первого символа '+' на "&}" и добавлением
символа ';' после закодированной последовательности.

        При декодировании, сначала декодируются из CP866, после чего все
последовательности удовлетворяющие образцу /&}[A-Za-z0-9+/]+;/
декодируются из UTF-7 после замены "&}"  на '+' и удаления завершающего
символа ';'.

        Последовательность "&}" кодируется как "&}ACYAfQ;",
последовательность "<RUBLE SIGN>&}" кодируется как "&}IL0AJgB9;",
последовательность "&}<RUBLE SIGN>" кодируется как "&{ACYAfSC9;",
последовательность "<WHITE SMILING FACE>&}<WHITE SMILING FACE>"
кодируется как "&}Jjr+DgAmAH0mOv4O;".

        Плюсы:
            - Синтаксис похож на HTML, "вкусовщина" конечно, но
некоторым нравится;
            - Символ '}' не рекомендован для использования в URL без
кодирования, поэтому используемые в тексте URL закодированные
рекомендованным образом не будут искажаться при чтении традиционным
декодером ФИДО CP866;
            - Традиционный декодер ФИДО CP866 сможет нормально
обработать UUE, т.к. в UUE блоках не может содержаться "&}";
            - Традиционный кодер ФИДО CP866 может порождать
последовательности /&}[A-Za-z0-9+/]+;/ только в составе текста, поэтому
UUE блоки не могут быть искажены декодером CP866-UTF-7;
            - Частота встречаемости "&}" достаточно низка, например, 8
ГиБ архиве конференций ФИДО она встретилась только один раз в заголовке
"X-Face:";
        Минусы:
            - В тексте после традиционного декодера вместо "&}" будет
"&}ACYAfQ;";
            - Традиционный кодер ФИДО CP866 может порождать
последовательности /&}[A-Za-z0-9+/]+;/, хотя и с крайне низкой
вероятностью (ни одной на архив 8 ГиБ). Всё равно, желательно, либо
расширение значения существующих kludge CHRS и т.п., либо использование
нового.

В принципе, похожими свойствами обладают последовательности "&~" и "&|",
но они сравнительно часто встречается в ФИДО, как в составе URL
закодированных небезопасным образом, в составе псевдографики, так и в
формулах.

Варианты UUE кодирования и используемые ими алфавиты:

uuencode (традиционный вариант, "begin <mode>, <pathname>"):
`!"#$%&'()*+,-./012356789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_,

uuencode (POSIX вариант, "begin-base64 <mode>, <pathname>"):
ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/=
'=' - символ заполнения для выравнивания

binhex
!"#$%&'()*+,-012345689@ABCDEFGHIJKLMNPQRSTUVXYZ[`abcdefhijklmpqr:
':' - символ ограничитель

Uniform Resource Locators (URL) <https://tools.ietf.org/html/rfc1738>
п 2.2
Unsafe:

   Characters can be unsafe for a number of reasons.  The space
   character is unsafe because significant spaces may disappear and
   insignificant spaces may be introduced when URLs are transcribed or
   typeset or subjected to the treatment of word-processing programs.
   The characters "<" and ">" are unsafe because they are used as the
   delimiters around URLs in free text; the quote mark (""") is used to
   delimit URLs in some systems.  The character "#" is unsafe and should
   always be encoded because it is used in World Wide Web and in other
   systems to delimit a URL from a fragment/anchor identifier that might
   follow it.  The character "%" is unsafe because it is used for
   encodings of other characters.  Other characters are unsafe because
   gateways and other transport agents are known to sometimes modify
   such characters. These characters are "{", "}", "|", "\", "^", "~",
   "[", "]", and "`".

--
Успехов, Сергей Леонтьев. E-mail: lse@CryptoPro.ru
--- ifmail v.2.15dev5.4
* Origin: ГАИШ МГУ (2:5020/400)

К главной странице гейта