FUTO Swipe: свайп-типинг с помощью открытого датасета из 1 млн образцов

В августе 2024 года FUTO запустила сбор датасета на сайте swipe.futo.org, приглашая пользователей добровольно участвовать в эксперименте. Они объясняли людям цель проекта, запрашивали согласие, а затем предлагали им вводить текст свайп-методом на мобильных телефонах. Предложения в основном брались из Википедии. Собрали более 1 млн образцов свайпа.

После фильтрации низкокачественных данных в марте 2025 года выпустили финальный датасет из 1 млн свайпов под MIT лицензией. Он открыто доступен на HuggingFace. Эта коллекция послужила основой для обучения собственных моделей FUTO и сравнения разных систем распознавания свайп-типинга.

Ключевые факты

  • FUTO собрала датасет из 1 млн образцов свайп-типинга с добровольных участников через веб-интерфейс
  • После фильтрации низкокачественных примеров выпустили датасет из 1 млн свайпов в открытом доступе под MIT лицензией
  • Датасет опубликован на HuggingFace и доступен для любых исследователей и разработчиков
  • FUTO использовала собственный датасет для обучения моделей свайп-типинга и оценки качества разных систем
  • Проект демонстрирует возможность создания качественных ML-датасетов через добровольное участие сообщества

Почему это важно

Открытые датасеты - это основа для воспроизводимости в машинном обучении. Любой может взять свайп-датасет от FUTO и обучить свою модель, вместо того чтобы запрашивать данные у больших корпораций. Это разрушает монополию компаний на обучающие данные и позволяет лучше понять, как работают алгоритмы распознавания ввода.

Кому это важно

Разработчикам клавиатурных приложений, исследователям, работающим с распознаванием жестов, и создателям моделей обработки ввода текста. Также это полезно для людей, которые хотят обучить свайп-моделей под нестандартные языки или использовать случаи.

Как это применить

Если вы создаете клавиатурное приложение - можно скачать датасет и обучить на нем собственную модель вместо использования чужих. Если вы занимаетесь НЛП - датасет может служить источником информации о том, как люди на самом деле вводят текст (с опечатками, паузами, коррекциями). Если вы учите ИИ взаимодействовать с пользовательским интерфейсом - свайп-данные помогут лучше понять человеческие паттерны взаимодействия.

Можно ли доверять

Информация от самого FUTO, официально опубликована. Датасет физически существует на HuggingFace и может быть проверен. Единственный вопрос - насколько репрезентативен датасет (скорее всего, смещен в сторону английского языка и европейского/североамериканского использования интернета).

Риски и подводные камни

Датасет из добровольцев может содержать смещения в сторону определенных демографических групп. Свайп-модели, обученные на этих данных, могут работать хуже для людей с нестандартным способом ввода текста или нестандартными телефонами. Никто не гарантирует, что данные не содержат чувствительную информацию (хотя в теории это просто движения пальца).

«We made heavy use of this data to train our models and to evaluate different swipe typing systems.»

— FUTO