Я читал. Поэтому и написал, что нет смысла сравнивать несравнимое.
Кто-то возвращает ответ за 2 секунды, но там из десяти документов пять неправильных. А кто-то — за три, но девять из десяти правильные.
Сравнивать можно только при одном и том же recall. Это несложно. вначале надо собрать ground truth, то есть прогнать запросы без индекса и записать абсолютно правильные ответы. Потом с индексом и считать recall. То есть сколько процентов правильных возвращает. Ну и строить графики, как в ann-benchmarks, qps, build time, index size, recall, что угодно vs что угодно.
Бред какой-то. С какими параметрами индексы строились? Какой был recall? Как можно сравнивать непонятно что непонятно с чем.
Даже у одного и того же pgvector, QPS может быть 1800, а может быть 8. На одних и тех же данных (glove-100-angular). А сравнивать pgvector с pgvecto.rs c VectorChord с pgvectorscale, все четыре индекса используют неизвестные несравнимые параметры и разный recall — ну, это такое...
посмотрел видео. он там говорит "можно сделать было в блендере, но было бы гораздо сложнее", "а тут можете накладывать такие видео фильтры, как вам надо". То есть это — генератор красивых видео в нужном стиле для шпионских фильмов. Или шпионских аниме, похоже.
Когда это для шпионских фильмах были нужны полезные данные?
по моим бенчмаркам (то есть по ann-benchmarks) pgvecto.rs почти в два раза быстрее в поиске и где-то ~10% быстрее в построении индекса. А pgvectorscale раз в шесть быстрее в построении индекса, а в поиске как pgvecto.rs
Мы без конца ругаем HR, и, разумеется, за дело. И все же я хочу спросить — кто вписал библиотеки, которые можно изучить за несколько минут, в обязательные требования?
Прав. Это очередной пример, когда нанимают человека работу работать, но проверяют не как он это умеет делать, а какие-то совершенно другие умения, например, задаёт ли он вопросы. Естественно, всегда с логично выглядящим объяснением, почему те, кто задают вопросы будут работать хорошо, а кто не задаёт — плохо.
Я тоже много собеседований проводил. Некоторые спрашивают, большинство — нет. Это не критерий, поэтому брал и тех и других. Корреляции не было, те, кто спрашивали, работают не лучше.
ну если одни покупают резюме, сопроводительное письмо и собес, а другие нанимают по резюме, сопроводительному письму и собесу — то прекрасно, они нашли друг друга, можно пожелать им счастья.
чем больше таких первых наймут эти вторые, тем через меньшее количество шлака придётся продираться мне.
Глаз зацепился за "работаю экспертом по компьютерной экспертизе". Подумал, "блин, опять", а потом читаю, и действительно же автор работает экспертом и проводит экспертизы!
Пожалуй положу в закладки и буду кидать всем, у кого "нет в этой области экспертизы"
Вот то же самое, что выше, но, может быть, проще. В первую секунду муравей прополз 1см/1км = 0.00001 от длины верёвки. Когда верёвка растянулась — ничего не поменялось, он все равно уже оставил позади 0.00001 от длины верёвки. В вторую секунду он прополз 0.00001/2, в третью 0.00001/3, в четвертую 0.00001/4, ну и так далее. Сумма гармонического ряда расходится, множитель в 10⁻⁵ ничего принципиально не меняет.
PDF-документы: Один из самых коварных контейнеров. Вместо того чтобы прятать данные в сложных структурах, их можно просто "написать" на странице, сделав текст невидимым. ... Такой текст будет проиндексирован и скопирован, но абсолютно незаметен при чтении. Для аналитика это проблема: данные являются частью обычного текстового слоя, и найти их можно, только целенаправленно ища аномалии в атрибутах текста.
Блииин. То есть самый коварный контейнер и проблема для аналитика — это текст, который индексируют поисковики и копирует Ctrl-C ? Аналитик не знаком с pdftotext?
Это был намёк, что название можно было придумать попонятнее, такое, которое потом не надо пояснять в комментариях, что оно означает. Ваш Капитан Очевидность.
первые слова "Причина заблуждений:" — бессмыслица какая-то, каких ещё заблуждений? Смотрю оригинал "Bias disclosure:". Ну, вообще-то от @PatientZeroтакого не ожидал, тут столько его переводов уже было, и вполне себе хороших.
Я читал. Поэтому и написал, что нет смысла сравнивать несравнимое.
Кто-то возвращает ответ за 2 секунды, но там из десяти документов пять неправильных. А кто-то — за три, но девять из десяти правильные.
Сравнивать можно только при одном и том же recall. Это несложно. вначале надо собрать ground truth, то есть прогнать запросы без индекса и записать абсолютно правильные ответы. Потом с индексом и считать recall. То есть сколько процентов правильных возвращает. Ну и строить графики, как в ann-benchmarks, qps, build time, index size, recall, что угодно vs что угодно.
например, вот: https://mariadb.org/big-vector-search-benchmark-10-databases-comparison/
Бред какой-то. С какими параметрами индексы строились? Какой был recall? Как можно сравнивать непонятно что непонятно с чем.
Даже у одного и того же pgvector, QPS может быть 1800, а может быть 8. На одних и тех же данных (glove-100-angular). А сравнивать pgvector с pgvecto.rs c VectorChord с pgvectorscale, все четыре индекса используют неизвестные несравнимые параметры и разный recall — ну, это такое...
посмотрел видео. он там говорит "можно сделать было в блендере, но было бы гораздо сложнее", "а тут можете накладывать такие видео фильтры, как вам надо". То есть это — генератор красивых видео в нужном стиле для шпионских фильмов. Или шпионских аниме, похоже.
Когда это для шпионских фильмах были нужны полезные данные?
по моим бенчмаркам (то есть по ann-benchmarks) pgvecto.rs почти в два раза быстрее в поиске и где-то ~10% быстрее в построении индекса. А pgvectorscale раз в шесть быстрее в построении индекса, а в поиске как pgvecto.rs
Мы без конца ругаем HR, и, разумеется, за дело. И все же я хочу спросить — кто вписал библиотеки, которые можно изучить за несколько минут, в обязательные требования?
Прав. Это очередной пример, когда нанимают человека работу работать, но проверяют не как он это умеет делать, а какие-то совершенно другие умения, например, задаёт ли он вопросы. Естественно, всегда с логично выглядящим объяснением, почему те, кто задают вопросы будут работать хорошо, а кто не задаёт — плохо.
Я тоже много собеседований проводил. Некоторые спрашивают, большинство — нет. Это не критерий, поэтому брал и тех и других. Корреляции не было, те, кто спрашивали, работают не лучше.
где-то такое уже было: https://lib.ru/SOCFANT/CHAPEK/chapek13.txt
ну если одни покупают резюме, сопроводительное письмо и собес, а другие нанимают по резюме, сопроводительному письму и собесу — то прекрасно, они нашли друг друга, можно пожелать им счастья.
чем больше таких первых наймут эти вторые, тем через меньшее количество шлака придётся продираться мне.
Глаз зацепился за "работаю экспертом по компьютерной экспертизе". Подумал, "блин, опять", а потом читаю, и действительно же автор работает экспертом и проводит экспертизы!
Пожалуй положу в закладки и буду кидать всем, у кого "нет в этой области экспертизы"
А вот Лившицу, наверно, было бы обидно :) Зато уж точно не нейрослоп
Кто знает, какой там коллайдер в мире, где "лазер стреляет каплями олова"
ну хоть GWBASIC-то был интерпретатором?
откуда в утюге электродвигатель? вот электробритва говорила хорошо
а статья про грокингов там есть?
Вот то же самое, что выше, но, может быть, проще. В первую секунду муравей прополз 1см/1км = 0.00001 от длины верёвки. Когда верёвка растянулась — ничего не поменялось, он все равно уже оставил позади 0.00001 от длины верёвки. В вторую секунду он прополз 0.00001/2, в третью 0.00001/3, в четвертую 0.00001/4, ну и так далее. Сумма гармонического ряда расходится, множитель в 10⁻⁵ ничего принципиально не меняет.
Блииин. То есть самый коварный контейнер и проблема для аналитика — это текст, который индексируют поисковики и копирует Ctrl-C ? Аналитик не знаком с pdftotext?
Это был намёк, что название можно было придумать попонятнее, такое, которое потом не надо пояснять в комментариях, что оно означает. Ваш Капитан Очевидность.
первые слова "Причина заблуждений:" — бессмыслица какая-то, каких ещё заблуждений? Смотрю оригинал "Bias disclosure:". Ну, вообще-то от @PatientZeroтакого не ожидал, тут столько его переводов уже было, и вполне себе хороших.
Нифига не понятно. Разница между Москвой и UTC — 3 часа. Почему "на час"?
И главное, как это сдвиг на час, да хоть на три, мог удалить данные за 90 дней? Что-то тут не то...