Использование DSPy для оценки и улучшения системных промптов Datasette Agent

Simon Willison провел исследование, как DSPy может помочь улучшить системные промпты в Datasette Agent, инструменте, который выполняет SQL-запросы для ответа на вопросы о данных. Он инициировал асинхронную исследовательскую задачу в Claude Code, в которой требовалось установить последнюю версию Datasette, datasette-agent и dspy, а затем определить, как применить dspy для оценки и совершенствования основных системных промптов. Claude Fable 5 провел тестирование с использованием GPT 4.1 mini и nano, выявив несколько перспективных направлений улучшений. Ключевая находка: список схемы даёт только названия таблиц, что при сочетании с рекомендацией не вызывать describe_table приводит к ошибочному угадыванию имён столбцов и циклам повторных попыток. Решение, либо включить названия столбцов в описание схемы в промпте, либо смягчить рекомендацию по использованию describe_table.

Ключевые факты

DSPy позволяет систематически оценивать и улучшать системные промпты ИИ-агентов
Неполное описание схемы БД (только названия таблиц) вызывает ошибки при выполнении SQL-запросов
Расширенный контекст в промпте (названия столбцов) может уменьшить циклы ошибок и повторных попыток
Тестирование проводилось на открытых и компактных моделях (GPT 4.1 mini/nano)
Метод позволяет найти конкретные улучшения в инструкциях для генеративных систем

Почему это важно

Системные промпты ИИ-агентов критичны для их надёжной работы. DSPy предоставляет методологию и инструменты для объективной оценки эффективности промптов и выявления конкретных недостатков. Это позволяет разработчикам не полагаться на интуицию, а исправлять ошибки на основе эмпирических данных. Конкретный результат этого исследования показывает, что часто проблемы скрыты в деталях описания контекста.

Кому это важно

Разработчикам ИИ-агентов и систем, работающих с базами данных или другими внешними источниками данных. Тем, кто использует Datasette Agent или собирается его использовать. Широче, всем, кто разрабатывает или совершенствует системные промпты для больших языковых моделей и нуждается в способах объективной оценки их эффективности.

Как это применить

Установить DSPy, дополнительные пакеты Datasette и агента. Сформулировать метрики для оценки качества (правильность SQL, количество ошибок, число повторных попыток). Провести тестирование текущих промптов с получением базовых показателей. Затем итеративно улучшать промпты, проверяя влияние каждого изменения на метрики. В конкретном случае Datasette Agent рекомендуется сначала попробовать расширить контекст схемы, добавив названия столбцов в описание таблиц в системном промпте.

Можно ли доверять

Simon Willison, авторитетный разработчик, создатель Datasette, его записи о технических экспериментах обычно точны и хорошо документированы. Исследование было проведено с использованием популярных моделей (GPT 4.1). Однако это предварительные результаты одного исследования, проведённого на конкретном инструменте и специфичном наборе данных. Рекомендации требуют проверки на собственных данных и задачах перед производственным внедрением.

Риски и подводные камни

Улучшения, найденные для одного набора данных или задач, могут не переноситься на другие наборы. Изменение промпта может исправить одну проблему, создав другую. Различные модели (GPT 4.1, Claude, другие) могут по-разному реагировать на одни и те же изменения промптов. Автоматическая оценка может упустить важные качественные аспекты работы системы. Рекомендуется комбинировать автоматическую оценку с ручной проверкой результатов.