TabFM: foundation-модель Google для табличных данных без обучения

Google Research представила TabFM, foundation-модель, разработанную специально для классификации и регрессии на табличных данных. Модель переосмысляет предсказание на таблицах как задачу в контексте обучения (in-context learning, ICL), позволяя генерировать предсказания на новых таблицах за один проход, без ручного обучения, оптимизации гиперпараметров и сложной инженерии признаков.

Традиционно табличные данные доминирует экосистема методов на базе деревьев (XGBoost, Random Forest, AdaBoost), но каждое новое применение требует часов работы по подбору параметров и обработке признаков. TabFM использует гибридную архитектуру внимания, которая корректно обрабатывает двумерную природу таблиц (строки и столбцы порядок-независимы). Модель обучена на сотнях миллионов синтетических таблиц, созданных с помощью структурных причинно-следственных моделей (structural causal models, SCMs), что позволяет ей хорошо обобщаться на реальные данные.

На бенчмарке TabArena (51 датасет, от 700 до 150 тысяч строк) TabFM надежно превосходит настроенные реальные алгоритмы. Google планирует интегрировать модель прямо в BigQuery, пользователи смогут выполнять регрессию и классификацию одной SQL-командой AI.PREDICT без экспертизы в ML.

Ключевые факты

TabFM переформулирует табличное предсказание как задачу in-context learning, устраняя необходимость в переподготовке для каждого датасета
Гибридная архитектура обрабатывает 2D-структуру таблиц (порядок строк и столбцов не имеет значения) с помощью механизмов типа TabPFN и TabICL
Модель обучена на синтетических данных, так как реальные табличные датасеты высокого качества редки и часто содержат конфиденциальную информацию
На бенчмарке TabArena (38 классификационных и 13 регрессионных датасетов) TabFM превосходит XGBoost, Random Forest и другие state-of-the-art методы
Скоро будет встроена в Google BigQuery с простой командой AI.PREDICT для использования без специалиста по ML

Почему это важно

Табличные данные, основа корпоративной аналитики (прогнозирование оттока клиентов, выявление мошенничества, финансовое моделирование). Но каждое применение требует часов ручной настройки гиперпараметров и инженерии признаков. Foundation-модели трансформировали работу с языком и зрением через обучение в контексте (ICL); TabFM впервые масштабирует эту парадигму на структурированные данные, устраняя классические узкие места табличного ML.

Кому это важно

Data scientists и ML-инженеры, которые сейчас тратят недели на подгонку XGBoost/Random Forest под каждый новый датасет; аналитики и бизнес-пользователи, которые хотят быстро получить предсказания без глубокой ML-подготовки; компании, использующие BigQuery для хранения данных (скорый доступ через AI.PREDICT станет встроенным инструментом).

Как это применить

TabFM уже доступна на Hugging Face и GitHub. В ближайшие недели Google интегрирует её в BigQuery; пользователи смогут выполнять команды типа 'SELECT AI.PREDICT(...) FROM table' без настройки гиперпараметров. Для локального использования можно загрузить модель и применить к своим таблицам в один проход, передав весь датасет (обучающие примеры + предсказываемые строки) как единый контекст.

Можно ли доверять

Оценка проведена на TabArena, независимом бенчмарке с 51 датасетом (700, 150 тыс. строк) и рейтингом Elo по win rates. Результаты опубликованы на GitHub с детализацией по фолдам и поединкам против конкретных методов. Модель обучена на синтетических данных (структурные модели), поэтому обобщение на реальные датасеты прошло хорошо, но синтетическая подготовка может не покрыть все редкие паттерны реальной бизнес-аналитики.

Риски и подводные камни

Модель обучена на синтетических таблицах; реальные датасеты с экстремальными пропусками, выбросами или специфичной структурой могут требовать проверки. Как и все foundation-модели, TabFM черный ящик, объяснимость предсказаний может быть сложнее, чем у интерпретируемых деревьев. Интеграция в BigQuery покажет, насколько хорошо модель масштабируется на производственные объемы реальных корпоративных датасетов.

«Переосмысляя табличное предсказание как задачу обучения в контексте, TabFM использует гибридную архитектуру внимания и массивные синтетические данные для захвата сложных взаимодействий признаков. Этот подход успешно устраняет традиционные узкие места ручной инженерии признаков, оптимизации гиперпараметров и повторного обучения моделей и последовательно превосходит тяжело настроенные, промышленные стандартные алгоритмы.»

— Google Research, объявление TabFM