Sequent: новый $100, 150M фонд для исследования безопасности ИИ при рекурсивном самоулучшении

Исследователи из британского Timaeus (startup по alignment-теории) и UK AI Security Institute создали новую неприбыльную организацию Sequent с целью разработать методы выравнивания ИИ, которые дадут высокую уверенность в безопасности будущей ИСИ. Их аргумент: ИСИ может быть разработана в ближайшие годы, но методы выравнивания на тренировку не готовы к этому сроку. Sequent планирует за пару лет вырасти до 40, 80 сотрудников и начать с $100, 150M финансирования, но быть готовой к необходимости привлечь на порядок больше, если изучение параллельных исследовательских направлений будет успешным.

Дифференциация подхода: в отличие от фронтирных лабораторий (которые, по мнению Sequent, работают реактивно и их методы хотя и функциональны, не дают принципиального понимания их границ отказа), Sequent занимается поиском «принципиальных оснований быть уверенной, что выравнивание, наблюдаемое в контролируемых ситуациях (тренировка, оценка в выбранных окружениях), обобщится на ситуации вне контроля (крупные, долгосрочные задачи в реальности)». Sequent планирует исследовать масштабируемый надзор, теорию обучения, эвристические доводы, теорию игр и персоны ИИ. Предполагается, что взаимодействие между направлениями может вскрыть новые инсайты, например, как методы масштабируемого надзора сходятся к каким-то равновесиям или как комбинировать insights из теории обучения и персон для выбора параметров обучения, контролируемых позже масштабируемым надзором.

Это происходит на фоне растущего беспокойства: сегодняшние ИИ-системы нестабильны (имеют острые углы, проявляющиеся неожиданными сбоями в реальности), но это контролируемо. Однако когда системы станут умнее, люди будут передавать всё больше ключевых исследовательских задач им же, и системы могут начать рекурсивное самоулучшение. Организации вроде Sequent нужны для разработки лучших техник выравнивания до таких этапов, и, самое важное, они могут (и будут готовы) поднять тревогу, если посчитают, что фронтирные лабы делают что-то опасное.

Ключевые факты

Sequent, новый некоммерческий фонд от исследователей Timaeus и UK AI Security Institute для разработки методов выравнивания перед ИСИ
Бюджет: $100, 150M инициально, готовность к увеличению в разы, если успешны параллельные исследовательские направления
Sequent планирует исследовать масштабируемый надзор, теорию обучения, эвристические доводы, теорию игр и персоны, ища принципиальные гарантии обобщения выравнивания
В отличие от фронтирных лабораторий, ориентированных на реактивные методы, Sequent ищет теоретическую основу для уверенности в безопасности при рекурсивном самоулучшении
Sequent планирует независимое исследование и готовность поднять тревогу, если посчитает действия фронтирных лабораторий опасными

Почему это важно

Исследователи публично заявили, что выравнивание ИИ не готово к разработке потенциальной ИСИ на текущих сроках. Рекурсивное самоулучшение (когда системы автономно строят всё большие части себя) требует высокой уверенности в выравнивании, текущие реактивные методы фронтирных лабораторий не дают принципиального понимания их границ. Sequent создана как независимая организация, способная исследовать параллельные стратегии и говорить правду о рисках, если фронтирные лабораторий считают опасными.

Кому это важно

Рискам подвергаются все: разработчики ИИ, которые должны осознавать, что текущих методов выравнивания недостаточно; исследователи безопасности и alignment, которые получат новые направления и финансирование; государства и регуляторы, которые должны знать, готовы ли мир к ИСИ; и широкая публика, которая зависит от безопасности будущих систем.

Как это применить

Для лабораторий и компаний: отслеживать работу Sequent и её методологию (масштабируемый надзор, теория обучения) как дополнение к собственным подходам; рассмотреть сотрудничество с Sequent на исследовательских направлениях. Для исследователей: Sequent потенциально предоставит финансирование и независимую платформу для alignment-исследований. Для пользователей ИИ: понимание, что безопасность требует долгосрочной инвестиции в теорию, а не только инженерии.

Можно ли доверять

Sequent создана в сотрудничестве с UK AI Security Institute (государственной организацией Великобритании) и Timaeus (известной alignment-теории компанией). Их язык честен: они не обещают гарантии, но говорят, что в идеальном мире они разрабатывали бы теоретическое доказательство безопасности перед разработкой ИСИ, а в текущем мире «скорее всего придётся согласиться с намного меньшим». Их готовность к финансированию и масштабированию, плюс в сторону серьёзности. Однако их способность действительно решить alignment-проблему неизвестна.

Риски и подводные камни

Sequent может оказаться неспособна решить фундаментальные проблемы alignment (проблема может быть неразрешима в принципе). Независимость Sequent может быть скомпрометирована, если она будет финансироваться из источников, связанных с фронтирными лабораториями. Риск: даже успешные методы Sequent могут быть проигнорированы фронтирными лабораториями, если те посчитают их неэффективными на практике. Наконец, сама разработка ИСИ может произойти быстрее, чем Sequent успеет провести исследования.

«Искусственная ИСИ может быть разработана в ближайшие годы. Неясно, готово ли выравнивание на одинаковый срок. В минимуме, эмпирические программы лабораторий вряд ли дадут априорную уверенность до обучения ИСИ, что всё будет хорошо.»

— Sequent