Добро пожаловать, Гость. Пожалуйста авторизуйтесь здесь.
FGHIGate на GaNJa NeTWoRK ST@Ti0N - Просмотр сообщения в эхоконференции RU.FIDONET.TODAY
Введите FGHI ссылку:


Присутствуют сообщения из эхоконференции RU.FIDONET.TODAY с датами от 09 Jul 13 15:35:00 до 25 Nov 24 09:05:33, всего сообщений: 48394
Ответить на сообщение К списку сообщений Предыдущее сообщение Следующее сообщение
= Сообщение: 211 из 48394 ================================= RU.FIDONET.TODAY =
От   : Mithgol the Webmaster            2:5063/88          29 Sep 13 18:27:02
Кому : All                                                 29 Sep 13 18:27:02
Тема : Кодировки, в сисопских эхах Европы и России встречающиеся
FGHI : area://RU.FIDONET.TODAY?msgid=2:5063/88+524839d5
= Кодировка сообщения определена как: CP866 ==================================
Ответ: area://RU.FIDONET.TODAY?msgid=2:5020/849+5248458e
Ответ: area://RU.FIDONET.TODAY?msgid=2:5020/2140.2555+52494638
Ответ: area://RU.FIDONET.TODAY?msgid=2:5063/88+524a4213
==============================================================================

Сейчас натравил на эхоконференцию ENet.SysOp простенький джаваскрипт следующего
содержания, модуль https://github.com/Mithgol/node-fidonet-jam используя:

    jam = require('node-fidonet-jam');
    enet = jam('ENet.SysOp');
    codepages = {};
    enet.readAllHeaders(function(err, headers){
       if( err ) throw err;
       headers.MessageHeaders.forEach(function(header){
          var codepage = enet.encodingFromHeader(header);
          if( typeof codepages[codepage] === 'undefined'){
             codepages[codepage] = 1;
          } else {
             codepages[codepage]++;
          }
       });
    });

В переменной codepages получил статистику по количеству писем в различных
европейских кодировках, и статистика эта вот какова:

    {
    'ibmpc':      2741,
    'latin-1':    2030,
    null:         1477,
    'cp866':      1357,
    'cp850':      1026,
    'cp437':      302,
    'pc-8':       176,
    'ascii':      172,
    'utf-8':      114,
    'cp1125':     23,
    'iso-60':     21,
    'cp895':      3,
    'iso-8859-1': 3
    }

От такой статистики должны волосы дыбом стать на голове.

Третье место занимает отказ от указания кодировки, а первое место занимает
неясное указание 'да айбиэмовская у меня кодировка, айбиэмовская', что может
теоретически означать что угодно (и согласно FTS-5003 должно сопровождаться
кладжем-уточнением 'CODEPAGE', однако же не сопровождается).

Второе место занимает Latin-1 (ISO 8859-1 Western European). Последнее место
занимает эта же кодировка, просто записанная другим способом.

Четвёртое место занимает CP866 (IBM codepage 866 Cyrillic Russian).

Пятое место занимает CP850 (IBM codepage 850 DOS Latin 1).

Шестое место занимает CP437 (IBM codepage 437 DOS Latin US).

Седьмое место занимает PC-8. Об этой кодировке я впервые слышу, однако сисоп
Sean Rima (2:263/950) её указывает пререгулярнейше.

Восьмое место занимает ASCII ── мать кодировок фидошных.

Девятое место занимает UTF-8 ── будущее кодировок фидошных.

Десятое место занимает кодировка CP1125. О ней я также впервые слышу, однако
именно её употребляли Абраша Шапирус (2:550/940) и Сергей Бабич (2:463/94).
После поисков в Википедии по адресу http://ru.wikipedia.org/wiki/CP1125 нашлось
упоминание о том, что это особый украинский вариант кодировки CP866. Добавил
поддержку CP1125 в мой модуль https://github.com/Mithgol/node-singlebyte сразу
(по адресу https://github.com/Mithgol/node-singlebyte/commit/6cf4750 изменения)
без особого труда, так как отличия от CP866 невелики.

Одиннадцатое место занимает кодировка 'ISO-60', которую указывал бергенский
сисоп Torbjorn Mohn (2:211/37). У меня нет ни малейшего понимания того, какая
кодировка имеется в виду.

Двенадцатое место занимает CP895 ── это номер, под которым в Чехии да Словакии
известна кодировка Каменицкого. (Корпорация IBM под названием CP895 употребляла
японскую латиницу, но это к делу не относится.)


Если аналогичную статистику собрать аналогичным способом в эхоконференции
R50.SysOp, то она будет иметь вот какой вид:

    {
    'cp866':   20324,
    null:      6564,
    'ibmpc':   1866,
    '+7':      537,
    'cp1125':  20,
    'cp':      6,
    'latin-1': 2,
    'unicode': 2,
    'cp808':   3
    }

Здесь мы видим печальные примеры попыток писать '+7 FIDO' и 'CP xxx', вопреки
стандарту, через пробел. Кроме того, наряду с неясным указанием кодировки IBMPC
можно видеть и ничуть не более ясное указание кодировки UNICODE без упоминания
того, имеется ли в виду UTF-8, или UTF-16LE, или UTF-16BE, или ещё что. Также
на примере трёх писем мы узнаём о существовании кодировки CP808, которую сисоп
Владимир Фёдоров (2:50/15) некоторое время употреблял до перехода на CP866. Мне
не доводилось прежде слышать об этой кодировке, однако в беседе пользователей
FreeDOS на http://osdir.com/ml/emulators.freedos.general/2006-07/msg00042.html
упоминается, что это вариант CP866, отличающийся появлением знака евро на месте
прежнего эпсилона (в позиции 0xEE, надо полагать).


По адресу http://osdir.com/ml/emulators.freedos.general/2006-07/msg00096.html
упоминается ещё несколько штук таких же (евромодифицированных) кодировок: CP858
(полученная из CP850), CP872 (из CP855), CP848 (из CP1125), CP849 (из CP1131).


Полагаю, что на пути к гипертекстовому Фидонету меня ждёт ещё масса других
открытий. Однако даже сейчас ясно, что без 'кодировки по умолчанию' (которою
для забугорных эх служит Latin-1, а для отечественных CP866) обойтись нельзя,
потому что есть тысячи и тысячи писем, в которых кодировка указана некорректно
или не указана вовсе ── и это ещё не говоря о письмах, кодировка которых мне
самому ещё не попадалася и оттого не была никак запрограммирована мною.


* изначально написано в эхоконференцию Ru.Fidonet.Today
* также было отослано в эхоконференцию Ru.FTN.Develop


Фидонет будет великим и гипертекстовым!    [Ru.Mozilla]     http://Mithgol.Ru/
Mithgol the Webmaster.                    [Братство Нод] [Team А я меняю subj]

... Свойство зеркальце имело ── DirectDraw оно умело.   (из Ru.Computer.Humor)
--- Последнее сочинённое:   'Двойное самоубийство влюблённых под Геленджиком'.
* Origin: он не читал Арьятарабхаттариканамаштоттарасатакастотру? (2:5063/88)

К главной странице гейта
Powered by NoSFeRaTU`s FGHIGate
Открытие страницы: 0.311248 секунды