Комментарии / Профиль petropavel / Хабр

Сергей Голубчик@petropavel

gcc, gdb, gvim, git, gentoo

Подписчики

ПрофильСтатьи9ПостыНовостиКомментарии787

Векторный поиск в PostgreSQL: pgvector, pgvectorscale или VectorChord?

Я читал. Поэтому и написал, что нет смысла сравнивать несравнимое.

Кто-то возвращает ответ за 2 секунды, но там из десяти документов пять неправильных. А кто-то — за три, но девять из десяти правильные.

Сравнивать можно только при одном и том же recall. Это несложно. вначале надо собрать ground truth, то есть прогнать запросы без индекса и записать абсолютно правильные ответы. Потом с индексом и считать recall. То есть сколько процентов правильных возвращает. Ну и строить графики, как в ann-benchmarks, qps, build time, index size, recall, что угодно vs что угодно.

Векторный поиск в PostgreSQL: pgvector, pgvectorscale или VectorChord?

petropavel 25 мар в 14:24

например, вот: https://mariadb.org/big-vector-search-benchmark-10-databases-comparison/

Векторный поиск в PostgreSQL: pgvector, pgvectorscale или VectorChord?

petropavel 24 мар в 20:25

Бред какой-то. С какими параметрами индексы строились? Какой был recall? Как можно сравнивать непонятно что непонятно с чем.

Даже у одного и того же pgvector, QPS может быть 1800, а может быть 8. На одних и тех же данных (glove-100-angular). А сравнивать pgvector с pgvecto.rs c VectorChord с pgvectorscale, все четыре индекса используют неизвестные несравнимые параметры и разный recall — ну, это такое...

Он создал “шпионский спутник” из открытых данных. Через день ему написал Palantir

petropavel 22 мар в 19:06

посмотрел видео. он там говорит "можно сделать было в блендере, но было бы гораздо сложнее", "а тут можете накладывать такие видео фильтры, как вам надо". То есть это — генератор красивых видео в нужном стиле для шпионских фильмов. Или шпионских аниме, похоже.

Когда это для шпионских фильмах были нужны полезные данные?

Векторный поиск в PostgreSQL: PGVector, SQLAlchemy и FastAPI

petropavel 4 мар в 09:46

по моим бенчмаркам (то есть по ann-benchmarks) pgvecto.rs почти в два раза быстрее в поиске и где-то ~10% быстрее в построении индекса. А pgvectorscale раз в шесть быстрее в построении индекса, а в поиске как pgvecto.rs

HR против честности: почему правда мешает найти работу

petropavel 9 фев в 09:45

Мы без конца ругаем HR, и, разумеется, за дело. И все же я хочу спросить — кто вписал библиотеки, которые можно изучить за несколько минут, в обязательные требования?

+12

Как увеличить свои шансы на прохождение собеседования

petropavel 21 янв в 21:21

Прав. Это очередной пример, когда нанимают человека работу работать, но проверяют не как он это умеет делать, а какие-то совершенно другие умения, например, задаёт ли он вопросы. Естественно, всегда с логично выглядящим объяснением, почему те, кто задают вопросы будут работать хорошо, а кто не задаёт — плохо.

Я тоже много собеседований проводил. Некоторые спрашивают, большинство — нет. Это не критерий, поэтому брал и тех и других. Корреляции не было, те, кто спрашивали, работают не лучше.

+12

Мы пробили новое дно: change request-ы и баг-репорты, которые никто не понимает

petropavel 14 янв в 18:22

где-то такое уже было: https://lib.ru/SOCFANT/CHAPEK/chapek13.txt

Как я отучил нейросеть писать «Я коммуникабельный» и заставил её проходить HR-фильтры

petropavel 10 янв в 10:39

ну если одни покупают резюме, сопроводительное письмо и собес, а другие нанимают по резюме, сопроводительному письму и собесу — то прекрасно, они нашли друг друга, можно пожелать им счастья.

чем больше таких первых наймут эти вторые, тем через меньшее количество шлака придётся продираться мне.

Как я написал bash-скрипт и получил оффер

petropavel 9 янв в 14:35

Глаз зацепился за "работаю экспертом по компьютерной экспертизе". Подумал, "блин, опять", а потом читаю, и действительно же автор работает экспертом и проводит экспертизы!

Пожалуй положу в закладки и буду кидать всем, у кого "нет в этой области экспертизы"

+23

Диагноз «SLOP» — новый аргумент «Ad Hominem»

petropavel 5 янв в 08:58

А вот Лившицу, наверно, было бы обидно :) Зато уж точно не нейрослоп

Китай украл и развернул технологию литографа, способного производить 2-нм чипы

petropavel 22 дек 2025 в 10:56

Кто знает, какой там коллайдер в мире, где "лазер стреляет каплями олова"

+22

Кто угодно может пнуть мёртвого льва

petropavel 5 дек 2025 в 16:51

ну хоть GWBASIC-то был интерпретатором?

Детгиз на помощь взрослым дядям

petropavel 2 дек 2025 в 18:11

откуда в утюге электродвигатель? вот электробритва говорила хорошо

Телеграм опять щемят в России, а также блокировки Revolut для россиян

petropavel 3 ноя 2025 в 09:18

Новости Маска: Грокипедия 0.1

а статья про грокингов там есть?

Три математические задачи, ответы на которые «обескураживают»

petropavel 13 окт 2025 в 08:28

Вот то же самое, что выше, но, может быть, проще. В первую секунду муравей прополз 1см/1км = 0.00001 от длины верёвки. Когда верёвка растянулась — ничего не поменялось, он все равно уже оставил позади 0.00001 от длины верёвки. В вторую секунду он прополз 0.00001/2, в третью 0.00001/3, в четвертую 0.00001/4, ну и так далее. Сумма гармонического ряда расходится, множитель в 10⁻⁵ ничего принципиально не меняет.

Невидимая война: почему найти скрытые данные сложнее, чем их спрятать

petropavel 22 сен 2025 в 08:59

PDF-документы: Один из самых коварных контейнеров. Вместо того чтобы прятать данные в сложных структурах, их можно просто "написать" на странице, сделав текст невидимым. ... Такой текст будет проиндексирован и скопирован, но абсолютно незаметен при чтении. Для аналитика это проблема: данные являются частью обычного текстового слоя, и найти их можно, только целенаправленно ища аномалии в атрибутах текста.

Блииин. То есть самый коварный контейнер и проблема для аналитика — это текст, который индексируют поисковики и копирует Ctrl-C ? Аналитик не знаком с pdftotext?

Охота на невидимку: пишем стегоанализатор для LSB-атак на Python

petropavel 22 сен 2025 в 07:40

Это был намёк, что название можно было придумать попонятнее, такое, которое потом не надо пояснять в комментариях, что оно означает. Ваш Капитан Очевидность.

Непостижимая эффективность современных алгоритмов сортировки

petropavel 15 сен 2025 в 16:53

первые слова "Причина заблуждений:" — бессмыслица какая-то, каких ещё заблуждений? Смотрю оригинал "Bias disclosure:". Ну, вообще-то от @PatientZeroтакого не ожидал, тут столько его переводов уже было, и вполне себе хороших.

+11

«Мой код не работает!» или как я превратила баг в фичу (почти случайно)

petropavel 26 июл 2025 в 09:05

Нифига не понятно. Разница между Москвой и UTC — 3 часа. Почему "на час"?

И главное, как это сдвиг на час, да хоть на три, мог удалить данные за 90 дней? Что-то тут не то...

+26

2 3 ...

39 40