Lomakn29 мар в 01:38

Космос из школьного кабинета: Как мы научили ИИ законам Кеплера после «разноса» от ученых

Средний

17 мин

9.2K

АстрономияМашинное обучение * Big Data * КосмонавтикаPython *

Кейс

+14

Комментарии 12

Demmidovich 29 мар в 02:04

Спасибо за интересную статью. Но прочитал на одном дыхании. Для школьных проектов, это фантастика 👍

dkir70 29 мар в 04:45

Очень интересная работа и статья. Непонятно только какое отношение "ИИ" из заголовка имеет отношение к тому что в ней описано. Претензия в принципе не к авторам. Скорее ворчание по поводу ситуации когда для того чтобы привлечь внимание к интересной работе, нужно обязательно за уши притянуть ИИ.

Gilovaser 29 мар в 06:08

Очень сильная работа для школьного уровня — особенно понравилась идея Neuro-Physical Synthesis. Это как раз то, чего часто не хватает в applied ML: учет физических ограничений, а не только статистики.

Но есть важный момент:
ваша «теорема плотностного барьера» по сути является эвристикой, приближающей наблюдаемый Fulton Gap. В научном контексте это стоит аккуратно формулировать как модельное ограничение, а не теорему, иначе могут быть вопросы у рецензентов.

Тем не менее, как инженерное решение — очень круто. Вы фактически реализовали physics-informed ML.

Olympiv 29 мар в 06:13

Самый недооценённый кусок статьи — это нормализация данных из разных каталогов.

Кто работал с NASA + EU каталогами, знает, какой там ад с:

единицами измерения
названиями колонок
дубликатами

Вы по сути сделали data engineering, который сам по себе уже ценен.

BillyOnes 29 мар в 06:17

Если убрать “школьный” контекст и оформить это как:

введение
обзор литературы
методология
эксперименты
выводы

— это спокойно можно подавать как кандидатскую работу в области applied ML / астрофизики (с доработкой формализма, конечно).

zababurin 29 мар в 07:04

Ищем экспертов для тестирования!

а где можно посмотреть программу ? Я не эксперт, но сейчас хочу сделать что то типо планетария и мне очень интересно было бы попробовать использовать данные, которые у вас описаны.

Если исходники не выкладываете, то сделайте wasm модуль, который можно было бы использовать если есть такая возможность

Lomakn 29 мар в 07:14

Здравствуйте. В течение пару дней сделаем сборку под Windows и выкинем ссылку в этой статье

zababurin 29 мар в 09:38

под linux тогда тоже сделайте )

RiveraPoro 29 мар в 12:16

Это тот случай, когда школьный проект ближе к науке, чем половина “AI-стартапов”.

LuciusWill 29 мар в 16:01

Статья Lomakn строит свою центральную идею вокруг фразы: «Машинное Обучение (ML) без физики — это просто генератор случайных чисел». Это повторяется как мантру: чистый KNN, Random Forest или даже XGBoost без «физического фильтра» якобы выдаёт «стену клонов», «галлюцинации» и «железные болванки» вместо реальных экзопланет. Авторы противопоставляют этому свой гибридный Neuro-Physical Synthesis и торжественно заявляют, что только добавление законов Кеплера и Стефана-Больцмана превращает «генератор случайных чисел» в настоящую науку.

Это сравнение фундаментально некорректно и демонстрирует либо непонимание, либо сознательное упрощение сути ML.

1. Задача генератора случайных чисел — выдавать СЛУЧАЙНЫЕ числа

Настоящий (или псевдо-) генератор случайных чисел (RNG / PRNG) по определению не должен нести никакой информации, кроме равномерного (или заданного) распределения. Его цель — максимальная энтропия, отсутствие корреляций, непредсказуемость. Именно поэтому криптографические RNG проходят тесты Diehard, NIST и т.д.: они обязаны быть «бесполезными» в смысле предсказуемости.

Нейросеть (и любой ML-алгоритм) делает ровно противоположное:

Она обучается на данных и строит вероятностную модель P(y|x) — условное распределение целевой переменной при данных признаках.
Выход — не случайное число, а вероятностный ответ: «с вероятностью 0.87 масса планеты лежит в интервале [1.2–2.1] M⊕ при радиусе 1.7 R⊕».
Даже если потом мы семплируем из этого распределения (добавляем случайность), сама модель — это сжатая, структурированная информация о данных, а не энтропия.

Называть модель, которая минимизирует loss-функцию (MSE, cross-entropy и т.д.), «генератором случайных чисел» — это примерно то же самое, что назвать метеорологическую модель «генератором случайной погоды». Да, в прогнозе есть неопределённость, но она квантифицирована и обоснована данными, а не взята с потолка.

2. То, что авторы называют «случайностью», на самом деле — отсутствие индуктивного смещения (inductive bias)

Когда KNN или XGBoost без физики «населил галактику железными болванками» с плотностью 8.49–8.82 г/см³ — это не «случайность». Это оверфиттинг + отсутствие подходящего bias. Модель честно выучила, что в обучающей выборке большинство маленьких планет имеют примерно такую плотность (потому что там доминируют rocky worlds). Она просто экстраполирует статистику.

Проблема не в том, что модель «случайная», а в том, что у неё нет правильного prior’а. Авторы сами это косвенно признают, когда говорят, что XGBoost «нащупал» Зазор Фултона. То есть даже «чистый» ML способен уловить нелинейность — просто ему для этого нужно больше данных или лучшая архитектура. Физический слой в их случае — это просто очень сильный hand-crafted prior, а не волшебное превращение «RNG» в науку.

3. Вероятностный ответ — это фича, а не баг

Современные ML-модели (особенно Bayesian NN, Gaussian Processes, современные XGBoost с uncertainty estimation) специально проектируются для того, чтобы выдавать не точку, а распределение. Это позволяет:

Оценивать epistemic uncertainty (что модель не знает).
Отбрасывать нереалистичные предсказания через posterior predictive check.
Интегрировать с физическими моделями (именно то, что авторы и сделали, только назвали это «спасением от RNG»).

Если бы нейросеть выдавала детерминистичные числа без всякой вероятности — вот тогда её действительно можно было бы обвинить в «чёрном ящике». А так авторы статьи просто путают стохастичность семплирования с отсутствием смысла.

Итог критики

Фраза «ML без физики = генератор случайных чисел» — это красивый, но технически неверный слоган. Он звучит научно и позволяет школьникам эффектно «разнести» чистый ML на конференции, но:

путает случайность (entropy) с вероятностным моделированием (learned distribution);
игнорирует, что любой полезный ML — это всегда trade-off bias-variance, а не «RNG vs не-RNG»;
создаёт ложное противопоставление «физика хорошая, статистика плохая», хотя на самом деле это симбиоз (см. Physics-Informed Neural Networks, которые существуют уже много лет и делают ровно то же самое, только без пафоса «мы школьники победили NASA»).

Авторы сделали хорошую работу по интеграции физики в пайплайн — молодцы. Но называть базовый ML «генератором случайных чисел» — это не научная критика, а риторический приём. Настоящая наука начинается не с того, чтобы обругать статистику, а с понимания, чем вероятностное моделирование отличается от случайного шума.

Lomakn 29 мар в 16:47

Спасибо за такой подробный отчет.

Lomakn 29 мар в 20:59

Спасибо Вам https://habr.com/ru/articles/1016666/ !

Зарегистрируйтесь на Хабре, чтобы оставить комментарий