inkedsymon24 мар в 09:17

В каждом JPEG зашита модель вашей сетчатки. Буквально

Простой

8 мин

51K

Алгоритмы * Обработка изображений * Научно-популярноеСжатие данных * Python *

Обзор

+241

Комментарии 51

tarasovav 24 мар в 09:44

Я всегда просто ставила quality 80 и всё, а оказывается там целая психофизика, нейроны и DCT-блоки… Как будто кто-то научился обманывать твой мозг так, чтобы ты этого не замечала. Теперь буду смотреть на фото и думать, а что я реально вижу, а что мозг догадался сам

exalon 24 мар в 17:13

Думаю вы как и все сначала покрутили крутилку качества и присмотрелись - норм/нет и в какой то момент остановились на 80, т.к.. это оказалось лучшим вариантом. А сейчас вы просто узнали почему вы как все)

Про обман мозга тут ещё бы про MP3 упомянуть не помешает, там тоже "убираем что итак не услышит")

nixtonixto 24 мар в 19:47

Любое сжатие С потерями эксплуатирует недостатки рецепторов человека.

vadimk91 25 мар в 04:33

Про музыку - в то же время есть немало людей, которые фанатеют от оцифровки LP в lossless с дискретизацией 192k. Что-то они слышат. Лично я в таких оцифровках кроме лишнего шума и размера файла ничего не наблюдаю :)

biophyzix 26 мар в 10:31

Именно оцифровка LP, скорее всего, смысла не имеет.

А вот электронную музыку, которую пишу сам, я экспортирую во FLAC 192k, если проект не совсем тяжёлый, ибо большие проекты и в 44.1k иногда с трудом допиливаю.

Там разница скорее в том, что все этапы синтеза и обработки звука проходят в 192k, а потому снижается алиасинг (что влияет на звучание дисторшна и большинства синтезаторов) и чище обрабатывают эффекты, в основе которых — запись в буфер и последующее воспроизведение с изменениями скорости.

Встречал аргументы, что в современных плагинах уже есть встроенный оверсэмплинг и такие манипуляции излишни, но я ее согласен, т к если в плагине и есть оверсэмплинг, то между плагинами по цепочке передаётся звук в 44.1, и это тоже приводит к накоплению искажений. + видимо, я пользуюсь не современными и не самыми крутыми, т к разница очень ощутимая.

Затем отрендеренный файл можно конвертнуть из 192k в 44.1k.

Чуть-чуть могут быть заметны артефакты в высоких частотах, но они еле слышны.

В 48k вообще не заметны.

т е разница именно в частоте дискретизации при рендере композиции, а не в файле, который попадает к конечному слушателю

ExCyB 27 мар в 19:15

Когда-то давно интересовался вопросом, какая реально необходимая максимальная частота дискретизации. И наткнулся на описание экспериментов, кажется, Sony (дело было давно, ссылок не нахожу сходу). Экспериментаторы исследовали, как точно человеческое ухо различает интервал между двумя близкими сильными короткими импульсами. И с удивлением обнаружили, что некоторые люди уверенно различают интервалы, отличающиеся на доли микросекунды (длину самих интервалов при этом не помню, возможно, несколько сотен микросекунд). Примерно 0.7 мкс разницы еще различали. Исходя из этого, было решено, что частоты оцифровки звука в 10 МГц наверняка достаточно, а всё, что меньше - возможно, приводит к искажениям (а возможно, и не приводит - но при звуках из эксперимента таки приводит).
Хотел повторить, но нужны весьма специфические источники звука, чтобы могли такое выдать и не создавали разные искажения второго импульса при разной задержке относительно первого. Не придумал хорошего варианта.

Javian 26 мар в 09:34

Насколько я помню у программ начала 2000-х по умолчанию было 75.

artygrand 19 часов назад

А потом мониторы стали лучше, и эти 5% уже оказались довольно заметными

NickDoom 24 мар в 10:42

…также напоминаю, что добавление третьей координаты (времени) прекрасно сохраняет работоспособность всей затеи и я это проверил. Об эффективности трудно судить (оптимальную таблицу квантования в одно любительское рыло не получишь), но для работоспособной реализации нужен буквально один месяц одного человека того уровня, который у меня был по молодости (считаю только свободные вечера, даже выходные не считаю).

Ну, или чтобы меня врачи временно на ноги поставили, тогда сам допишу. Если бы можно было вену протезировать, эххх… но, увы, на вене клапана, это не артерия — трубочкой не заменишь.

vadimk91 25 мар в 05:00

Когда я купил экшн камеру для поездок, умеющую снимать в 4К с кодеками H264/265 с fps 120, думал "во, можно снимать только видео, а фотки я надергаю из отдельных кадров". Но сжатие видео оказаласось суровее, чем я ожидал, такие "фото" годны только для превью...

И да, здоровья, это самый главный ресурс.

AlexSpirit 27 мар в 09:39

Надо брать I фреймы из потока. Они самые чистые.

astromc 25 мар в 08:14

блин. я не специалист вот вообще, но вырастить то можно? во всяком случае как это демонстрируют всякие разные исследователи. полагаю вопрос - в том, что между нынешней медициной и нынешними исследованиями - пропасть. Ищите того, кто сделает первый шаг, как Святослав Фёдоров.

Всех благ вам.

rybakolbasa 24 мар в 12:41

Напомнило ZX Spectrum. Тоже низкое разрешение цветности.

Faven 25 мар в 08:52

так условно говоря увидят пришельцы наши фотки а сравнении с реальностью с более полноценным зрением а значит восприятием вищуальной реальности.

AcckiyGerman 26 мар в 11:02

Может у них зрение в радиодиапазоне или ультрафиолете и наши фотки они вообще не увидят.

13werwolf13 27 мар в 07:11

в книге Энди Вейра "Проект «Аве-Мария»" аспект связанный со зрением при первом контакте описан шикарно, рекомендую ознакомиться))

AlexSpirit 27 мар в 09:46

Мне кажется автор сильно упростил вопрос. Рокки видел в реальном 3D, а не в псевдо, как человек. Не получился бы из Рокки "свой парень", это было бы совсем другое существо с иной психикой и восприятием мира.

13werwolf13 27 мар в 09:54

Согласен, но в любой фантастике всегда есть место условностям, без этого сюжет не сложится..

wataru 24 мар в 13:08

Место, где кривая «выигрыш в качестве / проигрыш в размере» резко меняет наклон. И это место (сюрприз) определяется всё той же CSF. До quality ~80 квантование режет только те частоты, к которым ваш глаз слабо чувствителен.

Тут натягивание совы на глубус. У вас там график SSIM - тупо численная характеристика разности по пикселям, ей на частоты, и какие из них наш глаз хорошо видит, вообще пофигу.

Это просто универсальный принцип убывающей отдачи, или же принцип Парето - 20% усилий отвечает за 80% результата. Следующие 20 за 80 от остатка. И так дале. Поэтому чем больше усилий тем меньше скорость роста результата.

DandyDan 25 мар в 21:31

Отличительной особенностью метода, помимо упомянутых ранее (MSE и PSNR), является то, что метод учитывает «восприятие ошибки» благодаря учёту структурного изменения информации. Идея заключается в том, что пиксели имеют сильную взаимосвязь, особенно когда они близки пространственно. Данные зависимости несут важную информацию о структуре объектов и о сцене в целом.

wataru 25 мар в 21:41

Ну тогда пишите не про глаз. Пишите, что график SSIM имеет перегиб вот в этой вот точке, потому что SSIM учитывает близость пикселей, также как и алгоритм JPG. Да, идея этой близости навеяна особенностями нашего глаза, но перегиб не по этому, а потому что SSIM и jpeg считают одно и то же.

DandyDan 26 мар в 01:55

Предложите более надёжный способ нахождения визуального расстояния изображений.

wataru 26 мар в 07:33

Зачем? У меня нет никаких претензий ни к SSIM, ни к графику из статьи. У меня лишь претензии к выводу, которым этот график сопроводили, который ни из графика, ни из считаемой метрики никак не выходит.

AVX 24 мар в 16:35

Описано весьма хорошо, но не хватает объяснения шкалы качества по "е**чим шакалам")

Kurochkin 25 мар в 11:35

И отдельного объяснения на тему цветоаномалии (зрения).

AbuMohammed 24 мар в 22:34

Строго говоря не преобразование Фурье, а преобразование Габора. Кстати, характерно для всех высших mammals. А вот для других - нет.

Aggle 25 мар в 02:04

Потрясающе, даже добавить нечего. Спасибо за публикацию!

engine9 25 мар в 05:01

Прореживание канала цветности придумали задолго до развития цифровой техники, в стандарте цветного аналогово телевещания.

Статья хорошая, спасибо.

rubyrabbit 25 мар в 05:31

Спасибо за историю.

Всё же очень интересно, насколько индивидуально различны сенсоры между людьми. Как со звуком. Наверняка кому-то жпег больнее, чем другим. А кто-то вообще не понимает, о чём мы, всё комфортно.

GlazOtca 25 мар в 06:07

Эволюция затачивала зрение приматов под «найди спелый фрукт среди зелёных листьев»

Не совсем так. Если посмотреть на спектр излучения нашего Солнца - то максимум приходится как раз на зеленую часть - вот на что ориентировалась эволюция.

Prohard 25 мар в 06:33

Хорошая статья, спасибо. Вот как-то раз знакомый офтальмолог сказал мне: - Наши глаза смотрят, а видим мы своими мозгами."

consalt 25 мар в 14:32

Jpeg xl как раз недавно был добавлен в хромобраузеры. #enable-jxl-image-format

AngryEvilCookie 25 мар в 16:56

YCbCr ненене, 2026 год ICtCp есть, но кодеков новых все нет, печаль прям.

greenkey 25 мар в 17:14

Очень интересно! Я каждый год школьникам рассказываю общее устройство глаза, когда дело доходит до RGB. Небольшое замечание - канал Y, который автор называет "яркостью" на самом деле это середина спектра, как раз желто-зеленая зона, что и отражено в названии - Y. Условно, ее бы и следовало изображать зеленоватой.

DandyDan 25 мар в 21:33

Хоть и знал это ещё с 90х, а всё равно интересно ;)

И картинка с частотами – прямо супер, гораздо нагляднее, чем текст.

MaxBunin_1188 26 мар в 05:30

Молодец чо. Большая работа, хорошая подача, нужный вектор. Благодарю.

ermouth 27 мар в 06:40

Статья хорошая, дополню немного:

JPEG тут же переводит всё в другую систему — YCbCr

Не обязательно. Вполне можно сделать чисто RGB, без конверсии. Каждый канал просто будет упакован как Grayscale без преобразования модели цветности. Аналогично для полиграфии – CMYK-изображения в .jpg всегда сохраняются именно по такой схеме.

Вообще, строго говоря, .jpg файлы что мы каждый день используем – это JFIF, а JPEG это просто метод компрессии.

VBDUnit 27 мар в 09:13

Спасибо, это лучшее объяснение работы JPEG, которое я читал.

В одно время приделал у себя в софте режим просмотра YCbCr 2×2 специально чтобы ловить, что камера стала передавать пережатый видеопоток — на цветоразностных каналах артефакты вылезают даже на высоком качестве. Ну и субдискретизация сразу видна по прямоугольным пикселям. У JPEG всё это ещё слабо выраженно, видеокодеки в этом плане заметно агрессивнее.

Оригинальная картинка, яркостная компонента, синяя и красная цветоразностные. Внизу пиксели прямоугольные - камера при переключении на 1080p включила сжатие и появилась субдискретизация

Теоретически кодеки могут дойти до уровня «текст промпта генерации + номер сида + хеш весов модели», там то точно биометрии некуда будет уместиться (и то не факт:|). Но практически до этого ещё далеко, хотя, вроде бы, в H266 уже потихонечку внедряют ИИ для сжатия.

Yura_PST 27 мар в 09:22

Ничего общего между сетчаткой и jpeg нету. Цель сетчатки - распознание объектов и движения. Цель jpeg - максимальное сжатие.

Причём тут сетчатка?
А вот причём — DCT разбивает изображение на блоки 8×8 пикселей и раскладывает каждый блок на 64 частотных компоненты

На какие блоки разбивает изображение сетчатка? На никакие - будет большой черный квадрат - мозг будет обрабатывать один большой квадрат.

И знаете что? Нейроны первичной зрительной коры (V1) работают поразительно похоже. Ещё в 60-х Хьюбел и Визел (Нобелевка 1981 года, между прочим) обнаружили, что нейроны V1 реагируют на ориентированные полоски разной частоты. По сути на пространственные частоты. Ваша зрительная кора делает что-то вроде преобразования Фурье над входящим сигналом.

Еще в коре есть зона отвечающая за стандартные примитивы (круг, квадрат, линия и т.д.), это тоже есть в jpeg?

VBDUnit 27 мар в 09:35

Ваша зрительная кора делает что‑то вроде преобразования Фурье над входящим сигналом.

Палочек около 120 миллионов, и они отвечают за яркость. Колбочек 6–7 миллионов, и они видят цвет.

Может быть в этом?

DandyDan 27 мар в 10:24

Цель jpeg - максимальное сжатие с потерями, но чтобы визуально казалось, что без потерь. Потому и сетчатка.

just-a-dev 27 мар в 12:09

Для меня самым удивительным является то, что всё это: JPEG, MP3, AVI, MP4, ZIP, RAR - было создано даже не в 00-е, а в 90-е или даже 80-е. Насколько чудовищен разрыв между навыками тех программистов и нынешних! А ведь каждый из этих алгоритмов, это шедевр, где используется 3/4 учебников алгебры, всякие преобразования Фурье, матричная алгебра и т.д.

Сейчас 90% работы - это перекладывание json слева-направо или справа-налево (я имею в виду даунстрим и апстрим). 90% программистов уже не делают побитовые операции и не используют стримы.

CrazyElf 27 мар в 12:21

Да потому что сейчас ничего этого не нужно, всё уже “сделано до нас”. Хорошее время тогда было, да. Я тогда тоже перепридумал dithering (как потом выяснилось это называется), чтобы на EGA мониторе показывать VGA картинки. Очень неплохо показывало, в отличие от тех показывателей картинок, которые тогда были доступны. Они то просто брали ближайший доступный цвет для каждого пиксела, а я считал ошибку и добавлял её к соседнему пикселу, прежде чем подбирать ему ближайший цвет. Особенно хорошо это работало, когда картинка была маленькая, а режим экрана был большого разрешения и тогда картинку можно было увеличить для показа. И тогда ошибка размазывалась на больше пикселов и цвет ещё точнее показывался. Через какое-то время и типовые просмотрщики картинок такому научились. А дальше у всех уже были нормальные полноцветные мониторы и тема перестала быть акутальной.

VBDUnit 27 мар в 16:28

Попробуйте пообщаться с теми кто делает реализации кодеков H265/H266 на SIMD/CUDA, или кто пишет ядра инференса современных LLM :)

CrazyElf 29 мар в 08:06

Хотя это сегодня очень узкий круг лиц. Раньше то все велосипеды изобретали. Или вот вспомнить можно assembly (как это правильно называлось - соревнования, форумы, что-то ещё?) где люди всякое красивое графическое и музыку упихивали в смешные килобайты на ассемблере )

Javian 29 мар в 13:49

Это всякие demoparty.

CrazyElf 29 мар в 18:22

А, точно. Забыл, оно, да.

Javian 30 мар в 06:03

На хабре по этому ключевому слову интересные статьи есть. Например здесь я еще не досмотрел все видео https://habr.com/ru/articles/953810/

juray 27 мар в 15:03

Ну, на пониженном разрешении цветного зрения базировалось еще цветное телевидение системы SECAM - яркостный сигнал Y и два цветоразностных (R-Y, B-Y) не только обеспечивали совместимость с черно-белыми телевизорами, использовавшими только яркостный сигнал. Цветоразностные передавались поочередно - один в четных строках, другой в нечетных в итоге строчное разрешение "в цвете" получалось в два раза ниже (а для смешивания в одной строке применялся повтор сигнала предыдущей строки, прошедшего линию задержки).

o_O_Tync 30 мар в 07:55

Спасибо за статью, очень познавательно!

Вопрос: как вы объясните, почему JPEG снятые телефоном или камерой уменьшаются в 1.5-2 раза если их пережать на компьютере? :)

DandyDan 19 часов назад

Flash-память быстрая, а процессоры медленные, поэтому проще недосжать.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий