Комментарии 3
Это другое. Данные для физического мира могут произвести некоторые улучшения в специализированных областях - прогноз погоды, изучения изменения климата, медицина, материаловедение. Скорее всего прирост будет весьма скромный, заметят определенные специалисты, но такого эффекта как произвел ChatGPT в 2022 году не будет.
Текстовые данные, которые сейчас есть используются неэффективно. Т. к. LLM это очень крутой T9. Например написаны сотни книг и учебников о хороших практиках программирования, дизайна, архитектуры, TDD, и много много чего. Эти книги были прочитаны и пережеваны, но на практике LLM не смотрит на абстракции из этих книг, а пытается выдать прадободное решение из миллиардов строчек самого разного кода на гитхаб.
Значит упираемся не только в данные и GPU, но и в алгоритмы машинного обучения.
Проблема не в том, что данных мало — проблема в том, что мы до сих пор учим ИИ говорить о мире, а не понимать его. LLM оптимизируют правдоподобный текст, а не корректные решения. Поэтому “книги прочитаны”, но абстракции не извлечены — модель не учится причинности. Можно возразить, что обучение с подкрепление решает проблему, но это скорее дрессировка собаки - собака получает вкусняшку за команду (как за набор аудио-визуальной информации), но не понимает сути.
Из личного - работал с Клодом на прошлой неделе. Задач про алгоритм распознания объекта и выделение его формы. Год назад пробовал решать через ИИ - результат был максимально негативный. Сейчас, спустя год, я сумел решить за 1 неделю задачу, которую до этого решал пол года. При этом ИИ прекрасно справился с техникой, но абсолютно не понимал фундаментального алгоритма решения задачи.
Поэтому эффект может быть не таким массовым, как у ChatGPT в 2022, но потенциально более глубоким для прикладных систем. Ведь в итоге я хочу получить не магию, а результат.
То есть, люди все-таки нужны ) Выходит, что в матрице люди будут не батарейками, а генераторами обучающей информации.

Стена данных: почему ИИ упирается не в GPU, а в реальность