TabFM: foundation model нулевого выстрела для табульных данных

Google Research выпустил TabFM, foundation model специально для работы с табульными данными (таблицы, структурированные данные в корпоративных системах). Проблема, которую она решает: традиционные методы вроде XGBoost, случайных лесов требуют огромных ручных усилий, специалист по данным тратит часы на подбор гиперпараметров и инженерию признаков для каждого нового датасета. TabFM применяет парадигму in-context learning (из LLM): вместо переобучения модели на новом датасете она берёт всю таблицу, примеры и строки для предсказания, как единый контекст и за один forward pass выдаёт предсказания. Архитектура решает центральную проблему: таблицы двумерные и неупорядоченные (перестановка строк или столбцов не меняет смысл), в отличие от последовательностей в языковых моделях. TabFM использует гибридную архитектуру внимания, вдохновленную TabPFN и TabICL. Для обучения на масштабе foundation model нужны огромные разнообразные датасеты, но реальные корпоративные таблицы закрыты (конфиденциальные схемы, чувствительные данные). Поэтому Google обучал TabFM целиком на синтетических таблицах (сотни миллионов), генерируемых через structural causal models с разными случайными функциями. Несмотря на синтетическое обучение, модель хорошо обобщается на реальные данные. На бенчмарке TabArena (38 датасетов классификации, 13 регрессии, размер от 700 до 150K строк) TabFM превосходит XGBoost и другие state-of-the-art методы. Google интегрирует TabFM в BigQuery, чтобы пользователи могли выполнять регрессию и классификацию одной SQL-командой AI.PREDICT без экспертизы в ML.

Ключевые факты

TabFM переосмысляет табульные предсказания как в контекстное обучение (ICL), устраняя необходимость переобучения, подбора гиперпараметров и инженерии признаков для каждого датасета
Гибридная архитектура внимания обрабатывает двумерную неупорядоченную структуру таблиц, в отличие от языковых моделей, работающих с последовательностями
Модель обучена исключительно на синтетических таблицах (сотни миллионов, сгенерированы structural causal models), но хорошо обобщается на реальные данные благодаря разнообразию синтетических распределений и связей между признаками
На бенчмарке TabArena (38 классификация, 13 регрессия) TabFM превосходит XGBoost, random forests и другие методы, служба оценивает по Elo-рейтингам (head-to-head)
Скоро TabFM интегрируется в Google BigQuery как AI.PREDICT, пользователи смогут делать предсказания одной SQL-командой без навыков в ML

Почему это важно

Табульные данные, костяк корпоративных систем. Задачи вроде предсказания churn клиентов, выявления мошенничества решают методы вроде XGBoost уже 20 лет. Но цена этого высока: каждый новый датасет требует недель ручной работы (гиперпараметры, инженерия признаков). LLM продемонстрировали силу нулевого выстрела через in-context learning, контекст вместо переобучения. TabFM переносит эту идею на структурированные данные, устраняя эту узкую бутылку и позволяя работать с неизвестными таблицами в один форвард-пас.

Кому это важно

Аналитикам данных и специалистам по ML в корпоративном секторе (финансы, страхование, розница, здравоохранение). Особенно тем, кто работает с множеством разных датасетов и не может позволить себе недели на подготовку каждого. Data scientists, которые сейчас вынуждены настраивать XGBoost вручную, получат инструмент, требующий нулевого домена знаний. BigQuery интеграция приведет рядовых пользователей, не знакомых с ML, к способности делать продвинутые предсказания через SQL.

Как это применить

Модель доступна на Hugging Face и GitHub. Для одноразового предсказания на новой таблице, просто передай всю таблицу (примеры + строки для предсказания) как контекст, вызови forward pass, получи предсказания. Не нужна переобучение, не нужно туншировать гиперпараметры, не нужна инженерия признаков. Через несколько недель в Google BigQuery будет AI.PREDICT, пользователи смогут выполнить SQL-запрос вроде SELECT AI.PREDICT(table_name) и получить результаты. Применимо к любым табульным задачам регрессии и классификации.

Можно ли доверять

Модель опубликована в блоге Google Research и доступна на GitHub, результаты оценены на публичном бенчмарке TabArena (38 датасетов классификации, 13 регрессии, полный набор метрик и сравнения с baseline). Авторы, исследователи Google Research (Weihao Kong, Abhimanyu Das и команда из 8+ человек). Синтетическое обучение, известный подход в ML, synthetic-data generation через structural causal models, валидный способ захватить разнообразие реальных распределений. Результаты показывают стабильное превосходство над XGBoost и другими методами на разных размерах датасетов (700, 150K строк). Однако публичный бенчмарк, всегда частичный снимок, реальная производительность на proprietary таблицах может отличаться.

Риски и подводные камни

Синтетическое обучение: модель никогда не видела реальные корпоративные таблицы, только синтетические. Несмотря на разнообразие синтетики, есть риск, что на очень специфичных real-world распределениях (редкие классы, экстремальные коррелиции, высокая размерность) модель может деградировать. Интеграция в BigQuery еще не завершена, пока недоступна, нужно дождаться выхода. Масштабируемость на очень большие таблицы (миллионы строк, тысячи признаков) не раскрыта в публикации, есть ограничения по памяти (контекст всей таблицы в модель). Open-source вариант требует CUDA/GPU для inference, что может быть барьером для рядовых аналитиков.

«Переформатируя табульные предсказания как задачу в контекстного обучения, TabFM использует гибридную архитектуру внимания и массивные синтетические данные для обучения, чтобы нативно захватить сложные взаимодействия между признаками. Этот подход успешно устраняет традиционные узкие места ручной инженерии признаков, подбора гиперпараметров и повторяющегося переобучения модели, и стабильно превосходит тяжело настроенные, стандартные в индустрии supervised алгоритмы.»

— Google Research, TabFM блог