Wednesday January 31 2024 02:07, from Dmitry Protasoff -> Nil A:
NA>> Правильно гутаришь. Яндекс молодцы, отдают в опенсорц. DP> Там и разработчики все уехали в США, оттуда теперь пишут. Может и ты с DP> ними когда-то пересечешься :)
Они уезжали два раза в неделю, полные самолёты Москва-Ньюйорк в 90х. Там даже перевод диплома не тробовался. Просто приезжаешь в 5020 и с утра встаёшь в очередь на подачу на ичван, потом шарахаешься по 5020. После обеда выдача паспортов с визами уже, и на вечернем поезде/самолёте домой, паковать чемоданы. Как сегодняшшние Яндекс девелоперы уезжают в США не знаю.
NA>> Что это? Я думал, есть ли готовый stemming (быстро), или NA>> lemmatization DP> Это такая модная замена Elasticsearch.
Мой VP инженеринга (два или три уровня репорта от меня был) ушёл в Эластик на CEO должность. Естессно он написал всем емейл, что эплайтесь на вакансии, а если нет походящей, то создам, нивопрос. Я индусов не люблю, хотя он такой, более-менее Американизированный был, но вакансию под меня не создал, ибо у них Джвава на 100%.
NA>> (медленно) для русского с учётом этих всех замен р->p, H->H, NA>> может ещё какие-то были замены. Я могу их через Levenshtein NA>> distance просчитать по униграмам. DP> А много ли сейчас кто меняет эти буквы? А в старых текстах проще DP> заменить как положено чтобы было. Благо есть инструменты..
В прошлом году был спор, что многие эхи в рулезах всё ещё содержат требование замены буквы upper-н. Немного пердраки подгорели, типа зачем это сегодня. Но всё это не важно во временных рамках фидо. Если задаться идеей найти старые архивы, а они всплывают иногда отдельных эх, не DejaNews->Google Groups уровня конечно, но всё равно, то там для поиска все эти замены важны.
Best Regards, Nil --- GoldED+/LNX 1.1.5 * Origin: Linux 2.6.32-042stab145.3 (2:5015/46)