Talos: автоматическая переаналитика генома в диагностике редких болезней

Talos: автоматическая переаналитика генома в диагностике редких болезней

Talos, открытый инструмент, разработанный Microsoft совместно с Центром популяционной геномики, Australian Genomics и Broad Institute, решает критическую проблему диагностики редких болезней. Более половины пациентов остаются недиагностированными после первого геномного теста, хотя геномные данные можно хранить и переанализировать неограниченно долго. Каждый год появляются сотни новых ассоциаций ген-болезнь и тысячи новых классификаций вариантов, что делает переаналитику ценной.

Таких, главная задача с ручной переаналитикой: она зависит от мотивированных клиницистов, нехватки кадров и нестабильного финансирования, поэтому большинство сохранённых геномов никогда не переанализируются.

Тalos работает, переинтерпретируя существующие варианты пациента относительно актуального научного знания каждый раз, используя два постоянно обновляемых источника: PanelApp Australia для связей ген-болезнь и ClinVar для оценки вариантов. Система применяет консервативную стратегию: возвращает короткий список вариантов высокой уверенности вместо длинного рейтинга, потому что узким местом реальной диагностики является время экспертной ревью, а не нехватка чувствительности алгоритма. При повторных запусках система возвращает только варианты, чьи доказательства изменились с прошлого цикла.

На валидационной выборке из 1089 пациентов (два независимых когорта) Talos восстановила 90% диагнозов в контексте ACG (австралийских критически больных младенцев и детей), вернув при этом только 1,3 кандидатного варианта на семью. На когорте RGP (американские семьи с прежде неинформативным тестированием) система восстановила 87% диагнозов при тех же 1,3 вариантах, показав генерализуемость.

При развёртывании на международной выборке из 4735 неди­агностированных пациентов Talos выдала 241 новый диагноз (5,1% дополнительного выхода). 32% диагнозов пришли из новых открытых ассоциаций ген-болезнь, 22% из переклассификаций вариантов, 45% из улучшенной фильтрации. Среднее время от появления нового научного знания в открытой базе до постановки диагноза составило 32 дня, самый быстрый случай, один день.

Таlos запускалась 29 месячных итеративных циклов. На первом проходе пришло 92% диагнозов, а в последующих циклах система возвращала в среднем только один вариант на 200 пациентов, доказывая масштабируемость: анализ 1000 геномов стоит около 11 долларов, месячный проход, несколько центов на когорту. Система имеет открытый код и легко разворачивается в облачных средах.

Ключевые факты

  • Talos переаналитирует сохранённые геномные данные против актуального знания (PanelApp Australia, ClinVar) и автоматически выявляет варианты, ставшие диагностическими благодаря новым открытиям
  • На 1089 пациентах система восстановила 87, 90% диагнозов, возвращая всего 1,3 варианта на пациента, что решает проблему перегруженности экспертов
  • Развёртывание на 4735 пациентах дало 241 новый диагноз (5,1%), в среднем за 32 дня после публикации нового знания; 59% новых диагнозов были основаны на ещё не внесённых в OMIM ассоциациях
  • Итеративные месячные циклы показали масштабируемость: позже первого цикла система возвращала ~1 вариант на 200 пациентов, позволяя непрерывный анализ за цену $11/1000 геномов
  • Система использует консервативную стратегию (возвращает короткий список высокой уверенности) и переинтерпретирует только изменившиеся доказательства при повторных запусках

Почему это важно

Более половины пациентов с редкими болезнями остаются неприрывными после первого геномного теста. Геномные данные отличаются от других диагностических исследований: их можно хранить и переанализировать неограниченно долго, а наше знание о геноме постоянно растёт (сотни новых ассоциаций ген-болезнь и тысячи переклассификаций вариантов в год). Метаанализ почти 9500 неди­агностированных пациентов показал, что переаналитика поднимает вероятность диагноза на ~10% за два года. Однако переаналитика сегодня, почти полностью ручной процесс, зависящий от мотивированных клиницистов и нехватки персонала, поэтому накапливаются сотни тысяч переанализированных геномов. Talos автоматизирует этот процесс, сохраняя баланс между чувствительностью и специфичностью, и доказывает на международном масштабе, что систематическая переаналитика осуществима и ценна.

Кому это важно

Таlos критична для диагностических лабораторий, оказывающих помощь пациентам с редкими болезнями, и для здравоохранительных систем, стремящихся улучшить диагностический выход неприрывных пациентов. Особенно важна для пациентов с неврологическими, кардиологическими и почечными проявлениями, которые составили основную часть когорты. Система также релевантна для биомедицинских исследователей и администраторов, которые хотят переаналитировать старые наборы данных в свете новых открытий.

Как это применить

Talos, открытый инструмент с поддержкой облачных сред наподобие Azure. Её можно развернуть в существующих диагностических лабораториях и запускать месячные итеративные циклы: расчёты настолько дешевы (~$11 на 1000 геномов, несколько центов на месячный проход), что система может работать непрерывно без больших затрат. Система использует публично доступные, часто обновляемые ресурсы (PanelApp Australia для ассоциаций ген-болезнь, ClinVar для классификаций), которые интегрируют быстро развивающееся мировое научное знание. Экспертам нужно ревьюировать только вариант с новыми доказательствами, а не полный список, что делает процесс экономным по времени.

Можно ли доверять

Talos валидирована на двух независимых когортах (ACG, 611 триос критически больных младенцев/детей, RGP, 478 семей с прежде неинформативным тестированием), показав стабильно 87, 90% восстановления диагнозов с медианой 1,3 варианта на пациента. Сравнение с Exomiser, широко применяемым инструментом расстановки приоритетов, показало, что при реалистичном бюджете экспертного ревью (топ-5, топ-1 вариант) Talos значительно превосходит Exomiser благодаря консервативной стратегии. При развёртывании на 4735 пациентах все 241 выявленный вариант были впоследствии подтверждены как патогенные или вероятно патогенные аккредитованными лабораториями, что демонстрирует высокую специфичность.

Риски и подводные камни

Таlos содержит пробелы в диагностике там, где научное сообщество ещё не разработало стандартные критерии: она пропустила варианты, которые человеческие эксперты классифицировали благодаря функциональным исследованиям или конфигурации аллелей (рецессивные варианты без поддержки ClinVar). 59% новых диагнозов были на основе ещё не внесённых в OMIM ассоциаций, что показывает запаздывание традиционных баз знаний. Таlos требует упорядоченных триos или семейной информации для фильтрации по наследованию, что может ограничить её для больших групп неродственных пациентов. При частой переаналитике нужна дисциплина управления: система возвращает только изменённые варианты, но необходима четкая организация циклов для избежания пропусков или дублирования.

«Talos переосмысляет геномную переаналитику из редкого, трудоёмкого события в непрерывную автоматизированную программу, которая может идти в ногу с наукой. Благодаря оптимизации специфичности, она уважает реальное узкое место, время экспертного ревью, а использование открытых, часто обновляемых ресурсов наподобие PanelApp Australia и ClinVar превращает накопленное мировым сообществом знание в диагнозы для отдельных пациентов, часто в течение недель.»

— Microsoft Research blog