BioMatrix: комплексная биологическая фундаментальная модель для молекул и белков

BioMatrix - первая биологическая фундаментальная модель, которая собирает молекулярные последовательности (SMILES и SELFIES), молекулярные структуры, белковые последовательности, белковые структуры и естественный язык в единое дискретное пространство токенов через унифицированную схему токенизации. Модель использует единую next-token prediction задачу без внешних энкодеров, адаптеров или модальности-специфичных головок вывода. Основана на Qwen3 (1.7B и 4B параметров), обучена на 304.4 миллиардах токенов из научного текста, молекулярных и белковых последовательностей и структур, и перекрёстных корпусов, связывающих биомолекулы с научным текстом и взаимодействиями. На 80 задачах в 6 категориях (однообъектные и многообъектные задачи понимания и генерации) достигает лучшей или сравнимой производительности на 77 из 80 задач.

Ключевые факты

Единая мультимодальная архитектура для молекул, белков и текста
Унифицированная токенизация всех модальностей без адаптеров
Обучение на 304.4B токенов с перекрёстными корреляциями между сущностями
Поддержка двух форматов молекулярных последовательностей: SMILES и SELFIES
Превосходит специализированные подходы на 77 из 80 задач в биологии

Почему это важно

Молекулярная и белковая инженерия требуют работы с несколькими модальностями (последовательности, 3D структуры, текстовые описания). Единая мультимодальная модель упрощает интеграцию разных информационных источников и может ускорить открытия в биотехнологии и разработке лекарств.

Кому это важно

Исследователям в биотехнологии, разработчикам программного обеспечения для молекулярного моделирования, компаниям фармацевтической и синтетической биологии, учёным, работающим с прогнозированием свойств молекул и белков.

Как это применить

Можно использовать BioMatrix для предсказания свойств молекул/белков, генерации новых последовательностей с желаемыми характеристиками, анализа взаимодействий молекула-белок, или как инициализацию для специализированных моделей.

Можно ли доверять

Это опубликованная работа на Hugging Face от Qizhi Pei. Обучение на более чем 300B токенов и валидация на 80 задачах - серьёзный масштаб. Результаты показывают превосходство на большинстве задач.

Риски и подводные камни

Модель требует значительных вычислительных ресурсов для инференса и тонкого настраивания. Производительность зависит от качества данных в обучающем корпусе. Не все биологические задачи могут быть эффективно решены текстово-кодируемым подходом.

«BioMatrix closes this gap by mapping molecular sequences, molecular structures, protein sequences, protein structures, and natural language into a shared discrete token space through a unified tokenization scheme, so that all modalities are consumed and produced uniformly under a single next-token prediction objective.»

— BioMatrix, Hugging Face Papers