Появилась краудсорсная платформа для доклада об ошибках в ИИ-системах

Исследователи из HuggingFace, включая Avijit Ghosh, запустили FLARE-AI, краудсорсный веб-сайт для доклада и отслеживания проблем с AI системами. Платформа разработана в сотрудничестве с 49 экспертами из 32 организаций и позволяет пользователям докладывать о случаях, когда чатботы генерируют малware, утекают личные данные, генерируют инструкции по созданию взрывчатых веществ или провоцируют деперсонализацию. Открытый исходный код платформы позволяет другим верифицировать проблемы и маршрутизировать доклады создателям моделей и организациям вроде MITRE. По функционалу система похожа на Downdetector, который собирает отчёты об сбоях сервисов в реальном времени. До сих пор не было централизованного, подотчётного способа докладывать об ошибках AI. Разные компании используют разные стандарты для оценки психологического вреда, дискриминации и распространения дезинформации, из-за этого многие проблемы остаются незамеченными. Недавние инциденты демонстрируют актуальность: LayerX раскрыла способ обхода guardrails в AI-браузерах вроде OpenAI Atlas и Perplexity Comet (убедив модель, что это игра, можно заставить её попытаться захакировать сайт). Исследователь Johann Rehberger показал способ обмана Claude с помощью изображений ChatGPT для утечки личных данных. Конгрессный билль, представленный в июне, предусматривает, что NIST разработает стандарты доклада об ошибках ИИ и будет поддерживать централизованную базу таких докладов.

Ключевые факты

FLARE-AI, первая централизованная платформа для доклада об ошибках AI; открытый код позволяет другим верифицировать проблемы
Разработана в сотрудничестве 49 экспертов из 32 организаций; поддержана грядущим конгрессным биллем NIST
Проблемы охватывают генерацию малware, утечки данных, психологический вред и распространение дезинформации, нет единых стандартов оценки
Недавние примеры: LayerX обошла guardrails AI-браузеров, Claude можно обманом заставить утечь личные данные
Регулирование и прозрачность растут по мере того, как AI становится более способным и мощным

Почему это важно

AI системы генерируют разнообразные проблемы: от технических (утечки данных, выполнение вредоносного кода) до психологических (поощрение деперсонализации) и социальных (дискриминация, дезинформация). Каждая компания оценивает эти проблемы по своим стандартам, отчего многие остаются незамеченными и необработанными. Отсутствие централизованного механизма доклада означает, что нет внешних проверок прозрачности. По мере того как AI становится мощнее и автономнее (агентивные системы, способность к хакингу), риски растут экспоненциально.

Кому это важно

Разработчикам AI моделей, для раннего выявления проблем и репутационной защиты. Исследователям безопасности, получают централизованный доступ к конкретным инцидентам. Регуляторам, могут собирать данные о проблемах и вырабатывать стандарты. Конечным пользователям, могут проверить безопасность конкретной модели перед использованием. Организациям наподобие MITRE, отслеживают систематические проблемы.

Как это применить

Если вы обнаружили, что AI-система ведёт себя странно или опасно (генерирует вредоносный код, утекает данные, генерирует опасные инструкции), можете докладить на FLARE-AI. Открытый исходный код позволяет организациям развертывать собственные версии платформы. Компании-разработчики моделей могут интегрировать FLARE-AI в свои процессы обработки проблем. Грядущий стандарт NIST предложит унифицированный подход к классификации и оценке проблем.

Можно ли доверять

Платформа разработана в сотрудничестве 49 экспертов из 32 организаций, включая представителей MITRE и центра безопасности Center for Security and Emerging Technology. Исследование опубликовано с полным описанием методологии. Один из рецензентов, Jessica Ji из CSET, положительно оценила инициативу. Конгрессный билль (не принят, но в обсуждении) указывает на общепризнанную необходимость централизации. Однако реальная эффективность зависит от того, используют ли её разработчики и регуляторы.

Риски и подводные камни

Управление наводнением докладов, многие из них могут быть несущественны или дублировать друг друга. Необходимость инвестиций и поддержки долгосрочно; краудсорсные системы часто недофинансированы. Разработчики моделей могут игнорировать доклады если к ним не будет применяться регуляторное давление. Определение границы между обоснованной проблемой и нормальным поведением системы может быть спорным. Риск, что платформа станет целью для спама или дезинформационных кампаний.

«Прямо сейчас нет централизованного, подотчётного способа докладывать об ошибках в AI системах.»

— Avijit Ghosh, исследователь политики ИИ в HuggingFace