Как Wayback Machine спасает мёртвую паутину: 38% страниц 2013-го уже недоступны

Проблема разрыва ссылок (link rot), когда веб-страницы навсегда исчезают, известна давно, но масштаб шокирует. Pew Research Center изучила 5,4 млн уникальных ссылок и обнаружила, что 38% страниц, существовавших в 2013 году, больше недоступны. Если смотреть шире, на весь период 2013, 2023, то четверть всех когда-либо существовавших страниц уже мертвы. Jonathan Zittrain в статье в Atlantic (2021) показал, что 25% глубоких ссылок из New York Times потеряны, а из статей 1998 года, целые 72%. Исследование Old Dominion University проанализировало 27,3 млн URLs из архива Wayback Machine и нашло, что 65% из них «мертвы» на живом интернете (проверено в 2023).

Хорошая новость: Wayback Machine спасает положение. Internet Archive проверила мёртвые ссылки из исследования Pew и обнаружила, что 72% всего набора данных архивированы, при этом 16%, это именно «спасённые» мёртвые ссылки. Если брать только мёртвые URLs 2013 года, то примерно половина из них восстановлена в архиве. Для 88 тысяч внешних ссылок из NYTimes за 2013-й Wayback Machine архивировал 96% мёртвых ссылок, осталось только 2% полностью потерянных. Это значит, что без архивов информационные потери были бы намного катастрофичнее. Internet Archive подчёркивает: хотя архивы не могут спасти всё, они играют критическую роль в сохранении знаний. Но есть класс безнадёжно потерянных URLs (vanished), их не архивировали, и контент исчезнул навсегда. Количество таких потерь растёт с каждым годом из-за закрытия сайтов, смены доменов, пейволлов и других барьеров для архивирования.

Ключевые факты

  • 38% веб-страниц из 2013 года больше недоступны; четверть всех страниц периода 2013, 2023 мертвы
  • Wayback Machine архивировала 72% набора данных Pew Research, включая 16% спасённых мёртвых ссылок
  • Для статей NYTimes 2013 года 96% мёртвых внешних ссылок хранятся в архиве, только 2% полностью потеряны
  • Проблема ускоряется: большинство URLs умирают в первые годы, 65% проверенных в 2023 году уже неживы
  • Причины: исчезновение доменов (65%), paywalls, JavaScript-heavy страницы, блокировка ботов, устаревание контента

Почему это важно

Веб, хрупкая система. Каждый день тысячи страниц исчезают без восстановления, унося с собой информацию, исторические записи, исследования, свидетельства. Если полагаться на живой интернет, то 25% всей когда-либо существовавшей информации потеряна. Это потеря культурного наследия, научных данных и памяти человечества. Без архивирования будущие поколения потеряют доступ к тому, что создано сегодня. Internet Archive давно указывает: средний век веб-страницы, 40, 100 дней. После этого она может исчезнуть.

Кому это важно

Исследователям, журналистам, историкам, когда ссылка в источнике мертва, теряется доказательная база. Библиотекам и архивам, они отвечают за сохранение культурного наследия. Разработчикам и инженерам, потеря документации и примеров кода. Пользователям интернета в целом, каждый рискует, что значимая для него информация исчезнет.

Как это применить

Wayback Machine, простой инструмент: вбей мёртвую ссылку в archive.org, и часто найдёшь снимок страницы. Internet Archive рекомендует: 1) использовать Wayback Machine как fallback для мёртвых ссылок; 2) сохранять важные страницы в 'Save Page Now' сервис (его девиз: 'See Something, Save Something'); 3) вики-проекты могут использовать InternetArchiveBot и WaybackMedic для автоматического исправления тысяч мёртвых ссылок; 4) проект Turn All References Blue (TARB) уже исправил более 30 млн мёртвых ссылок на сотнях вики. Для веб-архиваторов: подключиться к инициативам MediaCloud, GDELT, Wikipedia EventStream, IndexNow.

Можно ли доверять

Wayback Machine фильтрует по HTTP status code (200 OK = живо, 4xx/5xx/TCP/DNS errors = мертво), но авторы исследования признают ограничения: не учитывали soft-404s (страницы, возвращающие 200 OK, но содержащие ошибку), не проверяли содержимое на релевантность. Возможно, реальные числа немного другие. Также: для NYTimes исследование смещено в сторону больших архивирований (используется выборка из самого Wayback Machine, что создаёт bias). Несмотря на это, тренд неоспорим: половина мёртвых ссылок восстановлена, это факт.

Риски и подводные камни

Не всё можно архивировать: JavaScript-heavy SPA-приложения архивируются только как статический HTML; loginwalls, paywalls, контент за ними недоступен; некоторые сайты активно блокируют ботов. Vanished URLs, полностью потеряны (мертвы и не архивированы), это 10% от всех ссылок. Endangered URLs, живы сейчас, но не архивированы, могут стать vanished в любой момент. Internet Archive имеет ограничения по ресурсам, поэтому на 100% архивировать всё невозможно. Также: архив может быть недоступен из некоторых стран, имеет лаги обновления, ненулевой процент повреждённых снимков.

«38% веб-страниц, которые существовали в 2013 году, больше не доступны через десять лет. Четверть всех веб-страниц, существовавших в какой-то момент между 2013 и 2023 годами, больше не доступна.»

— Pew Research Center, исследование «When Online Content Disappears»