Добро пожаловать, Гость. Пожалуйста авторизуйтесь здесь.
FGHIGate на GaNJa NeTWoRK ST@Ti0N - Просмотр сообщения в эхоконференции RU.FIDONET.TODAY
Введите FGHI ссылку:


Присутствуют сообщения из эхоконференции RU.FIDONET.TODAY с датами от 09 Jul 13 15:35:00 до 28 Jun 24 09:01:00, всего сообщений: 46125
Ответить на сообщение К списку сообщений Предыдущее сообщение Следующее сообщение
= Сообщение: 8599 из 46125 ================================ RU.FIDONET.TODAY =
От   : Mithgol the Webmaster            2:50/88            21 Jun 17 22:50:54
Кому : Vladimir Fyodorov                                   21 Jun 17 22:50:54
Тема : Проблема курицы и яйца в разработке софта, Unicode поддерживающего
FGHI : area://RU.FIDONET.TODAY?msgid=2:50/88+594acf71
На   : area://RU.FIDONET.TODAY?msgid=2:50/15+59469fcb
= Кодировка сообщения определена как: CP866 ==================================
Ответ: area://RU.FIDONET.TODAY?msgid=2:5015/46+594ae65d
Ответ: area://RU.FIDONET.TODAY?msgid=2:50/15+594b4927
Ответ: area://RU.FIDONET.TODAY?msgid=2:5020/723+6ddb9a5d
==============================================================================
Так было 18:34 18 Jun 17 написано от Vladimir Fyodorov к Nikolay B Shpilchin:

VF>>>>> То бишь поддержка юникода планируется?

NBS>>>> Технически это легко. С точки зрения обратной совместимости -
NBS>>>> нет.

VF>>> Хреново.

NBS>> Я не понимаю вопроса, может быть? AFAIK юникод не поддерживается
NBS>> распространенным софтом, а ломать совместимость сейчас не самое время.

VF> Если я правильно помню, юникод в фидософте вполне себе живёт в юниксовом
VF> VIM'е или (боюсь соврать) в хотдоге.

VF> ===
VF> Вроде бы UTF-8 совместим с ASCII, то есть прочесть такое письмо даже
VF> неюникодным софтом типа голдеда труда не составит. Разве что отсутствующие
VF> в ASCII символы будут кракозябрами.
VF> ===

И это делает поддержку UTF-8 несложною для тех фидошных стран, в которых общаются на английском языке. Пользователи новых (поддерживающих Unicode) приложений Фидонета могут читать и записывать подстроки в UTF-8 в сообщениях фидопочты (то есть и эхопочты, и нетмейла), тогда как пользователи старых (восьмибитных) приложений Фидонета могут читать только ASCII-части сообщений, однако для старых приложений это естественно, и причиняет лишь небольшое неудобство при чтении таких текстов, которые в основном англоязычны, и послужит как побуждение к апгрейду.

Однако в России-то фидошники общаются не на английском языке, а на русском, буквы которого расположены за пределами ASCII. Поэтому для нас вопрос перехода на UTF-8 является проблемою типа "курица или яйцо". Сообщения в кодировке UTF-8 не появляются в российском Фидонете, так как ни одним из популярных читальников (в настоящее время ── восьмибитных: таких, как GoldED, например) они никогда прочитаны не будут. С другой стороны, наблюдаемое отсутствие таковых сообщений означает, что у разработчиков популярных читальников (даже новых, подобных обсуждаемому безымянному проекту) нет никакой нужды создавать поддержку UTF-8, да и у пользователей нет нужды обновлять свои читальники или выбирать какие-нибудь новые (поддерживающие Unicode) читальники.

Проблема эта может, однако, быть полностью устранена. По адресу https://github.com/Mithgol/fiunis/blob/master/fiunis.rus.txt я указал простой способ, который позволяет подстрокам Unicode появляться (в кодированном и экранированном виде) внутри восьмибитных строк. По адресу https://github.com/Mithgol/fiunis мною выложен открытый исходный код реализации этого способа, который задействован в нескольких изготовленных мною приложениях для Фидонета:

*) Fido2RSS https://github.com/Mithgol/fido2rss

*) fido2twi https://github.com/Mithgol/node-fido2twi

*) PhiDo https://github.com/Mithgol/phido

*) twi2fido https://github.com/Mithgol/node-twi2fido/

Метод кодирования основан на формате UTF-7 (RFC 2152).

Метод экранирования вдохновлён ссылками на символы HTML (HTML 4.01, подраздел 5.3.1, подраздел 5.3.2).

Реализацией этого метода достигается следующая ситуация:

*) Пользователи новых (поддерживающих Unicode) приложений Фидонета
   могут читать и записывать подстроки Unicode в восьмибитных
   сообщениях.

*) Пользователи старых (восьмибитных) приложений Фидонета могут
   читать восьмибитные части сообщения. Подстроки Unicode остаются
   неразборчивыми, но для восьмибитного приложения это естественно,
   и причиняет лишь небольшое неудобство, и послужит как побуждение
   к апгрейду.

Дополнительно становится возможным продолжать написание заглавий сообщений в основном в некоторых старых (восьмибитных) кодировках (где "в основном" означает "для символов, поддерживаемых этими кодировками"). Эта возможность полезна для тех письменностей (таких, как кириллическая или греческая), у которых большинство символов требуют 8 битов в их восьмибитных кодировках, но 16 битов в UTF-8 (или в UTF-16) и, следовательно, ограничения длины заглавия сообщений (наложенные стандартами пакетов Фидонета, а также и устройством некоторых баз сообщений), которые обыкновенно даются в байтах, становятся вдвое хуже (по количеству разрешённых символов) для заглавий в Unicode.

Было бы очень хорошо, если бы разработчики обсуждаемого безымянного проекта решили всецело последовать моему примеру, то есть в точности реализовали бы предложенный мною способ.

Теперь прибавлю несколько слов о том, каковы потенциальные масштабы улучшений. Упоминание выше России вовсе не означает, что вышеупомянутые проблемы касаются одной только русской речи: кириллица используется не только в русском алфавите, но и в абазинском, в аварском, в агульском (алфавит создан в 1990 году, число носителей языка не превышает 30 тысяч человек), в адыгейском, в алеутском, в алтайском, в ассирийском кириллическом алфавите новоарамейских языков (создан в 1920-е гг.), в башкирском (с 1950 года), в белорусском, в бурятском, в гагаузском (но в 1990-х годах начат переход языка на латиницу), в даргинском (с 1938 года), в долганском (вероятнее всего, после 1984 года), в дунганском, ингушском, ительменском, монгольском, кабардино-черкесском (с 1938 г.), в казахском, калмыцком, каракалпакском (вплоть до объявления независимости Узбекистана в 1991 г.), в карачаево-балкарском (после 1936 г.), в кетском (с 1980 г.; количество носителей языка ── чуть более полутысячи), в киргизском, в коми (с 1938 г.; алфавит коми-зырянского, коми-пермяцкого и коми-язьвинского языков), в корякском, в крымскотатарском (впрочем, после 1997 г. начат переход на латиницу, идущий до сих пор), в кумандинском, в кумыкском (с 1937 г.), в лакском, в лезгинском, в мансийском (с 1937 г.), в марийском, в мордовском (как минимум с 1927 года; это алфавит мокшанского и эрзянского языка), в нанайском, в нганасанском (алфавит создан в 1990-е, число носителей языка ── чуть более полутысячи человек), в ненецком (с 1937-38 г.), в нивхском (не позднее, чем с 1953 г.), в ногайском (после 1950 г.), в орочском (алфавит создан в начале 2000-х годов, количество носителей языка не превышает 160 человек), в рутульском (алфавит создан в 1990 г., число носителей языка не превышает 30 тысяч человек), в русинском (но не во всех диалектах), в саамском (по алфавиту 1982 года), в селькупском (по меньшей мере после 1980-х годов), в словио (язык словио создан искусственно, помимо кириллицы может использовать и латиницу), в табасаранском (но только в заимствованиях из русского языка), в таджикском, татарском, татском (алфавит языка татов и горских евреев), в тофаларском (алфавит создан в 1988 году, число носителей языка не превышает 400 человек), в тувинском (с 1940 года), в туркменском (до 1995 года), в удмуртском (не позднее чем с 1927 года), в узбекском (но в 1992 г. там начался переход на латиницу, идущий до сих пор), в уйгурском, в ульчском, в хакасском (с 1939 г.), в хантыйском суммарном алфавите четырёх диалектов, в цахурском (алфавит создан в 1989 году, число носителей языка не превышает 10 тысяч человек), в цыганском, в чеченском, в чувашском, в чукотском, в шорском (с 1938 г.), в эвенкийском, в эвенском, в энецком (алфавит разработан на рубеже 1980-1990-х годов; число изданных на этом языке книг ── три, число носителей языка ── 199 по переписи 2002 года), в эскимосском (разумеется, не в штатовском варианте, а в российском), в юкагирском (алфавит не устоялся, разные издания могут пользоваться разными алфавитами, оба юкагирских языка находятся под угрозой исчезновения, в прошлом существовало ещё два юкагирских языка, к теперешнему времени полностью исчезнувших), в ягнобском, в якутском (после 1939 года), и, может быть, ещё в каких-нибудь таких алфавитах, о которых я просто не знаю или не упомянул. Их так много.

Все вышеприведённые алфавиты проверены летом 2008 года по Википедии, но заново перепроверять я не буду (ибо некогда), хотя и вижу ясно, что с тех пор знания википедистов пополнились (по меньшей мере, следовало бы упомянуть ещё также белуджский алфавит). Кроме того, этот список неполон, так как содержит только такие алфавиты, в которых употребляется (либо в родных словах, либо, по крайней мере, в заимствованных словах) буква Ё. (Список составлялся для употребления в эхоконференции Ru.Fidonet.Yo.) Порядок перечисления алфавитов ── алфавитный.

Некоторые (и даже очень многие) из вышеперечисленных алфавитов используют такие символы кириллицы, которые в состав CP866 не входят (это называется расширенной кириллицей), так что начало поддержки Unicode в Фидонете было бы для них подспорьем. Тексты на русском языке также нуждаются в поддержке Unicode в тех случаях, когда используют символы XIX века (например, ять, фиту) или ещё более ранние (например, омегу, от; или, например, специальные формы буквы О: перекрещенную, монокулярную, бинокулярную, мультиокулярную).

Вот как некоторые из этих букв выглядели в &+AKs-;Азбуке&+ALs-; твоего однофамильца, первопечатника Фёдорова, в 1574 году:

![&+AKs-;Азбука&+ALs-; Фёдорова, 1574 год](http://bit.ly/2sRpCVI)

Фидонет будет великим и гипертекстовым!    [Ru.Mozilla]     http://Mithgol.Ru/
Mithgol the Webmaster.                    [Братство Нод] [Team А я меняю subj]

... Постойте, бывают с вами, Vladimir, минуты вечной гармонии?
--- Из неоконченного:    ``Курилец'', стихотворение с политическим подтекстом.
* Origin: Hо колдовства сломай печать, чтобы вебсайт себе скачать (2:50/88)

К главной странице гейта
Powered by NoSFeRaTU`s FGHIGate
Открытие страницы: 0.271847 секунды