BioMatrix: комплексная биологическая фундаментальная модель для молекул и белков

BioMatrix - первая биологическая фундаментальная модель, которая собирает молекулярные последовательности (SMILES и SELFIES), молекулярные структуры, белковые последовательности, белковые структуры и естественный язык в единое дискретное пространство токенов через унифицированную схему токенизации. Модель использует единую next-token prediction задачу без внешних энкодеров, адаптеров или модальности-специфичных головок вывода. Основана на Qwen3 (1.7B и 4B параметров), обучена на 304.4 миллиардах токенов из научного текста, молекулярных и белковых последовательностей и структур, и перекрёстных корпусов, связывающих биомолекулы с научным текстом и взаимодействиями. На 80 задачах в 6 категориях (однообъектные и многообъектные задачи понимания и генерации) достигает лучшей или сравнимой производительности на 77 из 80 задач.
Ключевые факты
- Единая мультимодальная архитектура для молекул, белков и текста
- Унифицированная токенизация всех модальностей без адаптеров
- Обучение на 304.4B токенов с перекрёстными корреляциями между сущностями
- Поддержка двух форматов молекулярных последовательностей: SMILES и SELFIES
- Превосходит специализированные подходы на 77 из 80 задач в биологии
Почему это важно
Молекулярная и белковая инженерия требуют работы с несколькими модальностями (последовательности, 3D структуры, текстовые описания). Единая мультимодальная модель упрощает интеграцию разных информационных источников и может ускорить открытия в биотехнологии и разработке лекарств.
Кому это важно
Исследователям в биотехнологии, разработчикам программного обеспечения для молекулярного моделирования, компаниям фармацевтической и синтетической биологии, учёным, работающим с прогнозированием свойств молекул и белков.
Как это применить
Можно использовать BioMatrix для предсказания свойств молекул/белков, генерации новых последовательностей с желаемыми характеристиками, анализа взаимодействий молекула-белок, или как инициализацию для специализированных моделей.
Можно ли доверять
Это опубликованная работа на Hugging Face от Qizhi Pei. Обучение на более чем 300B токенов и валидация на 80 задачах - серьёзный масштаб. Результаты показывают превосходство на большинстве задач.
Риски и подводные камни
Модель требует значительных вычислительных ресурсов для инференса и тонкого настраивания. Производительность зависит от качества данных в обучающем корпусе. Не все биологические задачи могут быть эффективно решены текстово-кодируемым подходом.
«BioMatrix closes this gap by mapping molecular sequences, molecular structures, protein sequences, protein structures, and natural language into a shared discrete token space through a unified tokenization scheme, so that all modalities are consumed and produced uniformly under a single next-token prediction objective.»
— BioMatrix, Hugging Face Papers