Добро пожаловать, Гость. Пожалуйста авторизуйтесь здесь.
FGHIGate на GaNJa NeTWoRK ST@Ti0N - Просмотр сообщения в эхоконференции RU.FIDONET.TODAY
Введите FGHI ссылку:


Присутствуют сообщения из эхоконференции RU.FIDONET.TODAY с датами от 09 Jul 13 15:35:00 до 01 Jul 24 09:01:00, всего сообщений: 46134
Ответить на сообщение К списку сообщений Предыдущее сообщение Следующее сообщение
= Сообщение: 32738 из 46134 =============================== RU.FIDONET.TODAY =
От   : Nil A                            2:5015/46          11 Mar 23 20:05:14
Кому : Cheslav Osanadze                                    11 Mar 23 20:05:14
Тема : Супер база сообщений
FGHI : area://RU.FIDONET.TODAY?msgid=2:5015/46+640cbe8e
На   : area://RU.FIDONET.TODAY?msgid=2:6078/80+640ca0fc
= Кодировка сообщения определена как: CP866 ==================================
Ответ: area://RU.FIDONET.TODAY?msgid=2:6078/80+640cc479
==============================================================================
* Originally in ru.fidonet.today
* Crossposted in nino.046.local
Hello, Cheslav!

Saturday March 11 2023 17:37, from Cheslav Osanadze -> Valentin Kuznetsov:

CO> Осталось найти способ собрать СУПЕР-базу, раз все эти Гугл-группы
CO> умерли. Как то синхронизировать всё-в-одну, от всех согласных, у кого
CO> что наберётся.

У меня была мысль сделать маленькую утилитку, на smapi от хаски, и раздать её всем согласным в эксперименте.

1. Утилитка читает список баз доступных у сисопа
1.1. либо парсит разные форматы тоссеров, чтобы достать <area> <filename>
1.2. либо просто идёт в каталог с базами Jam/Squish и считает имя файла - это имя эхи
1.3. по неким патернам утилитке можно запретить читать базы, например по патерну pvt.*

2. Для каждой эхи, утилитка создаёт список msgid, или более сложный date+from+from_addr+msgid (msgid не сильно уникальный в течении десятилетий бывает, хотя, если проверить, что from_addr там присутствует, то очень даже, только если сисоп не постит статистику из 3х сообщений в течении одной секунды и msgid тупо берёт из date(), но это всё детали).

3. Списочки из [area + [msgid, ..], ...] отправляются в единое место
3.1. На той машине есть интернет и сисоп не против, чтобы утилитка сходит в клауд по REST API
3.2. Сформировать файл (чего у меня есть), который сисоп передаст каким-то альтернативным путём

4. Некий центральный мозг сравнит с тем, что он уже насобирал с других, и выдаст список интересных ему сообщений, тот самый [area + [msgid, ..], ...]
4.1. Это всё может случиться автоматически, в той же REST API сессии
4.2. Сисоп руками что-то запустит, сформируется ответ, ответ отправит альтернативным путём, на каждом этапе он видит что именно отправляется, это как дампы памяти при крашрепортах для отправки Эпплу, Микрософту, ...

CO> Гугл в поисках по фидо уже совсем отсох.

Ищущий да обрящет (с)

Поиск - это большая тема. Да, её можно поручить [Sphinx](http://sphinxsearch.com), как это опционально делается в wfido (пожалуйста, мы всем вас просим, не путайте с WebFIDO).

Про поиск. Сначала надо решить фидошные приколы с заменой H-Н, на текстах 90х были приколы с русской р, кто пользовался keyrus, и далее по тексту. И вообще надо кодировочку сначала правильно поправить, приведя всё в [utf8](http://utf8everywhere.org).
Далее, в замисимости от языка, нужно правильно токенизировать, выкинуть стоп-слова, лематизировать (медленно) или стиминг (быстро) сделать, короче корни слов оставить, далее проводить манипуляции с н-граммами, фичи, вектора,.. В итоге, без этих ваших GPT-3, который какую-то траву курит, можно искать

> Q) где и когда ближайшая фидопойка
> A) mo.fidopoika 24.09.2022, в баре "Вобла" на м. Проспект Мира
> (Протопоповский пер., д.3)


Best Regards, Nil
--- GoldED+/LNX 1.1.5
* Origin: Linux 2.6.32-042stab145.3 (2:5015/46)

К главной странице гейта
Powered by NoSFeRaTU`s FGHIGate
Открытие страницы: 1.275565 секунды