Qualcomm ставит на интегрированную память в чипах для ИИ-датацентров

Qualcomm разворачивает наступление на рынок ИИ-ускорителей, представив высокополосную память со встроенными вычислениями (HBC). Технология предусматривает размещение слоёв DRAM поверх XPU-вычислителя, образуя единый модуль compute-and-memory.

По заявлениям Qualcomm, AI250 будет поддерживать 768 ГБ объёма памяти и эффективную полосу пропускания памяти 133 ТБ/с на карту, для сравнения, Groq 3 LPU предлагает только 500 МБ SRAM. Однако компания широко использует слово «effective» (эффективная); по сути, прибыль в полосе достигается благодаря архитектуре HBC, а не только физическим характеристикам LPDDR5x.

Ключевое преимущество HBC, размещение части логики вычислений под DRAM через переходы через кремний (TSV). Это сокращает расстояние между процессором и памятью, что снижает энергопотребление, тепловыделение и исключает дорогостоящий кремниевый интерпозер, необходимый для обычных HBM-решений. Компания позиционирует это как «жить и работать в одном здании» вместо коммутирования между отдалёнными районами.

Квалкомм заявляет, что AI250 окажется оптимизирована для операций, интенсивных по памяти, особенно для decode (авторегрессивной потоковой передачи весов модели). Система может работать как самостоятельный ускоритель и как часть разделённой архитектуры, где GPUs обрабатывают prefill, а AI250, decode.

В дополнение к HBC Qualcomm приобрела Modular (компанию создателя LLVM Криса Латтнера), которая разработала Mojo, язык и платформу для разработки ИИ-приложений, не привязанные к CUDA. Платформа Max позиционируется как конкурент vLLM и SGLang для сервинга LLM. Qualcomm надеется, что Mojo и Max помогут ей обойти монополию CUDA, которая долгие годы связывала AMD.

Первые системы на базе AI250 с HBC выйдут в 2027 году, AI300, в 2028. Однако Qualcomm пока не раскрыла пиковые FLOPS для AI250.

Ключевые факты

Qualcomm представила HBC, встраивание вычислений в слои DRAM для снижения задержки доступа к памяти и энергопотребления
AI250 заявляет 768 ГБ памяти и 133 ТБ/с эффективной полосы пропускания, но эти цифры достигаются через архитектуру, а не только физикой LPDDR5x
Встраивание через-кремниевых переходов (TSV) исключает дорогостоящий интерпозер и улучшает эффективность тепловыделения
Qualcomm приобрела Modular и язык Mojo, чтобы избежать привязки к CUDA; платформа Max конкурирует с vLLM для сервинга больших моделей
Первые системы AI250 выходят в 2027 году, AI300 (с 54x эффективной полосой относительно AI200), в 2028 году

Почему это важно

Qualcomm долгие годы отставала от Nvidia и AMD в датацентровой инфраструктуре ИИ, несмотря на преуспевание в мобильных NPU. HBC, решительная ставка на архитектуру, адаптированную к узкому месту ИИ-вывода: передаче больших объёмов весов моделей из памяти. Интеграция вычислений и памяти обещает значительное снижение энергопотребления и задержки, что может изменить экономику вывода. Приобретение Modular и Mojo, кроме того, снимает проблему привязки к CUDA, из-за которой AMD годами оставалась в тени Nvidia.

Кому это важно

Операторам датацентров и облачным провайдерам, ищущим более дешёвый вывод ИИ-моделей; стартапам и компаниям, разрабатывающим ИИ-приложения на базе LLM; Qualcomm и её инвесторам, которые теперь видят путь, как конкурировать с Nvidia на базе не цены, а архитектуры; стеку Nvidia CUDA, который теперь получит альтернативу в лице Mojo.

Как это применить

Компании могут развёртывать HBC в разделённых архитектурах, где GPU и Qualcomm чипы работают в паре: GPU обрабатывают prefill (вычисление скрытых состояний для входных токенов), Qualcomm AI250, decode (потоковая передача следующих токенов). Это особенно выгодно для высоконагруженных сервисов типа ChatGPT, где decode, узкое место. Mojo и Max могут упростить портирование существующих vLLM-моделей на новые чипы без переписывания.

Можно ли доверять

Qualcomm тщательно маркирует метрики как «effective», это натяжка. 133 ТБ/с, это не просто физическая полоса LPDDR5x (Qualcomm назвала это «чистой физической полосой», но отказалась дать детали на вопрос, как она достигнута). Возможно, полоса считается через распределение нагрузки между слоями и логикой. Nvidia для достижения 150 ТБ/с в Groq 3 использовала восемь стеков HBM3e, Qualcomm это отрицает, но доказательство в производстве. На вопрос о пиковых FLOPS Qualcomm вообще не ответила. Тем не менее технология near-memory compute известна и применяется (AMD и Nvidia над ней работают), и заявления о снижении энергопотребления физически обоснованы.

Риски и подводные камни

Успех Qualcomm зависит от двух неопределённостей: (1) технология HBC должна доказать себя в production; пока это только слайды инвестдня; (2) приобретение Modular может не пройти регуляторов (Qualcomm уже под давлением антимонопольных органов). Даже если HBC успешна, экосистема вокруг Mojo и Max должна вызревать, CUDA имеет 15-летнее преимущество. Qualcomm также риск ставит на disaggregated inference (работа с GPU для prefill), но экосистема инструментов вокруг этой практики ещё формируется.

«Представьте, что вы живёте и работаете в одном здании, вы ездите только вверх и вниз. Что происходит с автострадами и дорогами, соединяющими пригород с городом? Правильно, дороги свободны. Ценность, которую это даёт отрасли, меньше энергопотребления, меньше тепла, и дорогостоящая кремниевая интерпозерная дорога, которую используют HBM-решения, больше не нужна.»

— Тони Пиалис, старший вице-президент Qualcomm по датацентрам