FUTO Swipe: свайп-типинг с помощью открытого датасета из 1 млн образцов
В августе 2024 года FUTO запустила сбор датасета на сайте swipe.futo.org, приглашая пользователей добровольно участвовать в эксперименте. Они объясняли людям цель проекта, запрашивали согласие, а затем предлагали им вводить текст свайп-методом на мобильных телефонах. Предложения в основном брались из Википедии. Собрали более 1 млн образцов свайпа.
После фильтрации низкокачественных данных в марте 2025 года выпустили финальный датасет из 1 млн свайпов под MIT лицензией. Он открыто доступен на HuggingFace. Эта коллекция послужила основой для обучения собственных моделей FUTO и сравнения разных систем распознавания свайп-типинга.
Ключевые факты
- FUTO собрала датасет из 1 млн образцов свайп-типинга с добровольных участников через веб-интерфейс
- После фильтрации низкокачественных примеров выпустили датасет из 1 млн свайпов в открытом доступе под MIT лицензией
- Датасет опубликован на HuggingFace и доступен для любых исследователей и разработчиков
- FUTO использовала собственный датасет для обучения моделей свайп-типинга и оценки качества разных систем
- Проект демонстрирует возможность создания качественных ML-датасетов через добровольное участие сообщества
Почему это важно
Открытые датасеты - это основа для воспроизводимости в машинном обучении. Любой может взять свайп-датасет от FUTO и обучить свою модель, вместо того чтобы запрашивать данные у больших корпораций. Это разрушает монополию компаний на обучающие данные и позволяет лучше понять, как работают алгоритмы распознавания ввода.
Кому это важно
Разработчикам клавиатурных приложений, исследователям, работающим с распознаванием жестов, и создателям моделей обработки ввода текста. Также это полезно для людей, которые хотят обучить свайп-моделей под нестандартные языки или использовать случаи.
Как это применить
Если вы создаете клавиатурное приложение - можно скачать датасет и обучить на нем собственную модель вместо использования чужих. Если вы занимаетесь НЛП - датасет может служить источником информации о том, как люди на самом деле вводят текст (с опечатками, паузами, коррекциями). Если вы учите ИИ взаимодействовать с пользовательским интерфейсом - свайп-данные помогут лучше понять человеческие паттерны взаимодействия.
Можно ли доверять
Информация от самого FUTO, официально опубликована. Датасет физически существует на HuggingFace и может быть проверен. Единственный вопрос - насколько репрезентативен датасет (скорее всего, смещен в сторону английского языка и европейского/североамериканского использования интернета).
Риски и подводные камни
Датасет из добровольцев может содержать смещения в сторону определенных демографических групп. Свайп-модели, обученные на этих данных, могут работать хуже для людей с нестандартным способом ввода текста или нестандартными телефонами. Никто не гарантирует, что данные не содержат чувствительную информацию (хотя в теории это просто движения пальца).
«We made heavy use of this data to train our models and to evaluate different swipe typing systems.»
— FUTO