Перейти к содержанию

ГЛАВА 06. AI И ГЕНЕРАТИВНЫЕ ТЕХНОЛОГИИ ДЛЯ VR

Аналитическое исследование для проекта VR-экосистемы культурного наследия Санкт-Петербурга

Метаданные

Дата: Февраль 2026 Версия: 2.0


6.1. Введение: конвергенция AI и VR в 2024-2025

Период 2024-2025 годов ознаменовал качественный скачок в сращивании технологий искусственного интеллекта и виртуальной реальности. Если ещё в 2022 году AI и VR развивались преимущественно параллельно -- нейросети решали задачи классификации и генерации текста, а VR-индустрия работала над аппаратной базой и оптикой, -- то к 2024 году эти две области сошлись в конкретных инженерных пайплайнах, способных производить иммерсивный контент на порядок быстрее и дешевле прежнего.

Три ключевых вектора конвергенции определяют ландшафт:

1. AI для захвата реальности (Reality Capture). Технологии NeRF (Neural Radiance Fields) и 3D Gaussian Splatting (3DGS) позволяют преобразовать набор обычных фотографий или видеозаписей в фотореалистичные трёхмерные сцены, пригодные для просмотра в VR-шлемах. Для культурного наследия это означает возможность оцифровки интерьеров, спектаклей, уличных перформансов и архитектуры с минимальным оборудованием.

2. AI для генерации контента (Content Generation). Модели Text-to-3D и Image-to-3D научились создавать трёхмерные объекты из текстовых описаний или фотографий. Это позволяет реконструировать утраченные объекты, дополнять экспозиции виртуальными артефактами и создавать декорации для VR-сцен без ручного 3D-моделирования.

3. AI для интерактивности (Intelligent Interaction). Языковые модели (LLM), системы голосового синтеза и AI-аватары позволяют создавать виртуальных экскурсоводов, которые ведут диалог с посетителем на естественном языке, адаптируя рассказ под возраст, интересы и язык аудитории.

Масштаб трансформации в цифрах

Метрика 2022 2024 Изменение
Время создания 3D-сцены из фото (NeRF) 12-48 часов 5-30 минут (3DGS) Ускорение в 50-100x
Стоимость генерации 3D-модели $500-2000 (ручная) $0,10-5,00 (AI) Снижение в 100-1000x
Качество Text-to-3D (субъективная оценка) Непригодно Пригодно для прототипов Качественный скачок
Точность голосового клонирования Требуется 30+ мин. аудио 3-15 секунд аудио Порог входа снижен
Языковые модели в VR: задержка ответа 3-10 секунд 0,3-1,5 секунды Приближение к реальному времени

Источники: NVIDIA Research, "Instant Neural Graphics Primitives", 2022; Kerbl et al., "3D Gaussian Splatting for Real-Time Radiance Field Rendering", SIGGRAPH 2023; OpenAI, "GPT-4 Turbo Technical Report", 2024; ElevenLabs, "Voice Cloning Documentation", 2024.

Для проекта VR-экосистемы культурного наследия Санкт-Петербурга конвергенция AI и VR создаёт уникальное окно возможностей: технологии, которые ещё два года назад были доступны только исследовательским лабораториям, теперь могут быть развёрнуты на уровне городского культурного проекта при разумном бюджете.

6.1.1. Годовой мониторинг Telegram-каналов: количественный анализ (март 2025 — март 2026)

Для валидации технологических трендов проведён систематический мониторинг 8 профильных русскоязычных Telegram-каналов по тематике AI/VR/AR за 365 дней (март 2025 — март 2026). Из 15 482 сообщений отобрано 3 393 релевантных по 13 тематическим категориям. Это в 3 раза превышает выборку первичного 30-дневного мониторинга (1 104 сообщения) и позволяет выявить устойчивые тренды и динамику.

Таблица 6.1.1. Тематическое распределение релевантных сообщений (годовой мониторинг)

Категория Сообщений Доля Динамика (H1 2025 → H2 2025 → Q1 2026)
Робототехника / Embodied AI 1 169 34,5% Рост: 61→127→97/мес
Генеративное видео 1 127 33,2% Пик октябрь 2025 (142), стабильно 70-121/мес
Культура / Музеи / Наследие 845 24,9% Пик октябрь 2025 (116), стабильно 54-83/мес
Генеративная музыка и аудио 626 18,4% Рост до пика сентябрь 2025 (73), далее 43-59/мес
Аватары и Motion Capture 276 8,1% Стабильно 15-33/мес
3D генерация (Text/Image/Video-to-3D) 126 3,7% Два пика: сентябрь 2025 (19) и декабрь 2025 (18)
Gaussian Splatting / NeRF 113 3,3% Стабильно 5-14/мес, пик декабрь 2025 (14)
Генерация интерактивных миров 89 2,6% Резкий рост с августа 2025 (22), пик январь 2026 (21)
Метавселенная / VR общее 64 1,9% Стабильно 3-11/мес
LiDAR / Фотограмметрия / Сканирование 55 1,6% Стабильно 1-8/мес
Unity / Unreal / Движки 30 0,9% Стабильно 1-5/мес
VR/AR шлемы и устройства 28 0,8% Стабильно 1-6/мес
Volumetric Capture 9 0,3% Единичные упоминания

Примечание: сообщение может попадать в несколько категорий, поэтому сумма превышает 3 393.

Каналы-лидеры по релевантности:

Канал Всего сообщений Релевантных VR/AI % релевантных
Малоизвестное интересное (@theworldisnoteasy) 308 90 29,2%
ИИ — svodka.ai (@svodkaai_ai) 1 659 454 27,4%
Нейронавт (@GreenNeuralRobots) 4 514 1 225 27,1%
Метаверсище и ИИще (@cgevent) 3 704 941 25,4%
Квест Теория Каст и Ролей (@alexkrol) 1 752 276 15,8%
GPT/AI Central А. Горного (@aioftheday) 1 439 215 14,9%
gonzo-обзоры ML статей (@gonzo_ML) 1 416 139 9,8%
Борис опять (@boris_again) 690 53 7,7%

Ключевые выводы из годового мониторинга:

  1. Генеративное видео — самая быстрорастущая область (1 127 сообщений). Пайплайн «от идеи до финального видео» в 2025 году стал массовым: Midjourney/Flux для изображений → Wan 2.x/Veo3/Kling для анимации → ElevenLabs для голоса → Suno для музыки → DaVinci Resolve для монтажа. Средние просмотры публикаций на эту тему — 15-30K, что свидетельствует о массовом интересе.

  2. Генерация интерактивных миров — «взрывной» тренд второй половины 2025 года. До августа 2025 — единичные упоминания (1-4/мес), затем резкий рост до 22/мес с появлением Google Genie 3, Matrix-Game 2.0, World Labs Marble, Hunyuan World, StAItial Echo и десятка аналогичных проектов. К январю 2026 тема вышла на устойчивый уровень 13-21/мес.

  3. Hunyuan 3D (Tencent) — доминирующий 3D-генератор. В категории 3D-генерации более 60% упоминаний приходится на экосистему Hunyuan: PolyGen 1.5 (прямая генерация квадов), Studio 1.1, World Model 1.0, версия 3.1. Hunyuan 3D — единственный open-source генератор, достигший production-качества сеток.

  4. Gaussian Splatting стабилизировался на уровне зрелой технологии (7-14 упоминаний/мес без резких всплесков). Это свидетельствует о переходе из фазы хайпа в фазу рутинного производственного использования. Ключевые инновации 2025: Triangle Splatting (DeepMind, 2400 FPS), Depth Anything 3, анимация сплатов по кривым Безье.

  5. VR-устройства — минимальное обсуждение (28 за год). Рынок устройств стабилизировался, инновации ожидаются в 2027 (Apple Smart Glasses).

[источник: годовой мониторинг Telegram-каналов @cgevent, @GreenNeuralRobots, @aioftheday, @svodkaai_ai, @alexkrol, @gonzo_ML, @theworldisnoteasy, @boris_again; март 2025 — март 2026; N=15 482 сообщений, 3 393 релевантных]


6.2. Neural Radiance Fields (NeRF): эволюция и статус

6.2.1. Принцип работы

Neural Radiance Fields (NeRF) -- технология нейросетевого рендеринга, впервые представленная Mildenhall et al. в 2020 году (UC Berkeley / Google Research). Основная идея: нейронная сеть обучается представлять трёхмерную сцену как непрерывную функцию, которая для каждой точки пространства (x, y, z) и направления наблюдения (theta, phi) предсказывает цвет и плотность. После обучения на наборе фотографий с известными позициями камеры модель может синтезировать новые ракурсы, которых не было в исходном наборе.

Пайплайн NeRF: 1. Набор фотографий объекта/сцены (обычно 50-200 кадров) 2. Вычисление позиций камеры через Structure-from-Motion (COLMAP) 3. Обучение нейронной сети (MLP -- многослойный перцептрон) 4. Рендеринг новых видов через объёмный рейкастинг (volume rendering)

6.2.2. Эволюция NeRF: ключевые вехи

Модель Год Организация Время обучения Ключевой вклад
NeRF (оригинал) 2020 UC Berkeley / Google 1-2 дня Концепция нейросетевого радиационного поля
Mip-NeRF 2021 Google Research 12-24 часа Мультимасштабное представление, устранение алиасинга
Instant-NGP 2022 NVIDIA 5-15 минут Хеш-кодирование, ускорение в 1000x
Mip-NeRF 360 2022 Google Research 12 часов Неограниченные сцены, улучшенная обработка фона
Zip-NeRF 2023 Google Research 4-8 часов Комбинация Mip-NeRF 360 и Instant-NGP
Nerfacto 2023 Nerfstudio 15-30 минут Лучшие практики NeRF в единой архитектуре
NeRFiller 2024 UC Berkeley 2-4 часа Заполнение пропусков в 3D-сценах через диффузию
DN-Splatter 2024 Исследовательские группы 10-20 минут Гибрид NeRF + Gaussian Splatting

Источники: Mildenhall et al., "NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis", ECCV 2020; Muller et al., "Instant Neural Graphics Primitives with a Multiresolution Hash Encoding", SIGGRAPH 2022; Barron et al., "Zip-NeRF: Anti-Aliased Grid-Based Neural Radiance Fields", ICCV 2023; Tancik et al., "Nerfstudio: A Modular Framework for Neural Radiance Field Development", SIGGRAPH 2023.

6.2.3. Преимущества и ограничения NeRF

Преимущества: - Фотореалистичное качество рендеринга, включая сложные световые эффекты (блики, прозрачность, отражения) - Компактное представление сцены (десятки мегабайт вместо гигабайт для полигональных моделей) - Обработка «трудных» материалов: стекло, металл, мех, ткани - Зрелая экосистема инструментов (Nerfstudio, NVIDIA Instant-NGP)

Ограничения: - Медленный рендеринг: объёмный рейкастинг плохо подходит для реального времени (1-10 FPS на потребительском GPU) - Сложность редактирования: нейросетевое представление не допускает прямого изменения геометрии - Чувствительность к динамическим объектам: движущиеся люди и объекты создают артефакты - Ограниченная интеграция с игровыми движками (Unity, Unreal Engine) -- требуется экспорт в mesh

6.2.4. NeRF в культурном наследии

Применение NeRF для документирования культурного наследия активно исследуется начиная с 2022 года:

  • Проект BungeeNeRF (2022, Google Research): масштабная реконструкция городских ландшафтов из фотографий разного масштаба -- от спутниковых снимков до уличных фото. Потенциально применим для исторических панорам Санкт-Петербурга.
  • Heritage-NeRF (2023, исследовательские группы Европы): адаптация NeRF для работы с историческими фотографиями разных эпох, включая чёрно-белые снимки. Позволяет создавать 3D-реконструкции зданий на основе архивных фотоматериалов.
  • Проекты оцифровки ЮНЕСКО (2023-2024): пилотные проекты применения NeRF для документирования объектов всемирного наследия в Италии и Греции -- храмов, археологических раскопок, скульптурных коллекций.
  • Музейные пилоты (2024): Британский музей и Смитсоновский институт тестировали NeRF для создания интерактивных 3D-туров по экспозициям, однако для публичного доступа предпочли конвертацию в mesh-модели.

6.2.5. Текущий статус: NeRF vs Gaussian Splatting

К 2025 году NeRF в значительной степени уступает позиции 3D Gaussian Splatting в задачах реального времени. Однако NeRF сохраняет преимущество в задачах, где критично качество рендеринга сложных материалов и компактность представления. В контексте проекта Санкт-Петербурга NeRF наиболее уместен для: - Архивной оцифровки музейных коллекций (высокое качество, не требуется реальное время) - Реконструкции на основе исторических фотографий (работа с разнородными источниками) - Базовой подготовки данных для последующей конвертации в mesh или GS


6.3. Gaussian Splatting 2.0

6.3.1. 3D Gaussian Splatting: революция 2023-2024

3D Gaussian Splatting (3DGS) -- технология, представленная Kerbl et al. (INRIA / Max Planck Institute) на SIGGRAPH 2023 и удостоенная Best Paper Award. Вместо нейросетевого представления сцены используется набор трёхмерных гауссиан -- эллипсоидов с параметрами позиции, ковариации, прозрачности и цвета (представленного через сферические гармоники). Каждая гауссиана -- это «мазок» в трёхмерном пространстве, а рендеринг выполняется через дифференцируемую растеризацию (splatting).

Ключевые преимущества перед NeRF:

Параметр NeRF (Nerfacto) 3D Gaussian Splatting Преимущество GS
Время обучения (типичная сцена) 15-60 мин 5-30 мин 2-3x быстрее
Скорость рендеринга 1-10 FPS 100-300+ FPS 30-100x быстрее
Качество (PSNR, типично) 28-33 dB 29-34 dB Сопоставимо или лучше
Рендеринг в реальном времени Нет Да Критично для VR
Поддержка VR-шлемов Через запечённый mesh Нативная растеризация Прямая интеграция
Редактируемость сцены Очень сложно Возможна (манипуляция гауссианами) Существенно проще
Размер представления 50-200 МБ 200 МБ - 1 ГБ (без компрессии) NeRF компактнее

Источники: Kerbl et al., "3D Gaussian Splatting for Real-Time Radiance Field Rendering", ACM TOG (SIGGRAPH) 2023; Nerfstudio benchmark comparisons, 2024.

Почему GS -- прорыв для культуры: возможность рендеринга в реальном времени при качестве, сопоставимом с NeRF, означает, что захваченные сцены (музейные залы, исторические интерьеры, уличные ансамбли) можно просматривать непосредственно в VR-шлеме с шестью степенями свободы (6DoF) и без предварительной конвертации в полигональные модели.

6.3.1b. Улучшения Gaussian Splatting в 2025-2026: PPISP и VR-оптимизация

NVIDIA PPISP (2025) — метод устранения «floaters» (плавающих артефактов) во всех radiance field представлениях. PPISP был быстро интегрирован в библиотеку gsplat и другие платформы в течение 24 часов после публикации, что свидетельствует о высокой востребованности. Для культурного проекта это означает значительное улучшение визуального качества GS-реконструкций музейных интерьеров — артефакты-«floaters» были одной из основных визуальных проблем при просмотре GS-сцен в VR. [источник: Telegram-канал @GreenNeuralRobots; NVIDIA Research, 2025]

VR-специфичные проблемы GS и решения:

Исследования 2025 года выявили три ключевые проблемы GS в VR-шлемах: - Temporal popping — артефакты при движении головы, усиленные широким FOV и постоянными микродвижениями в HMD - Проекционные искажения — floaters и view-inconsistent артефакты, особенно заметные при стереоскопическом рендеринге - Производительность — сложность рендеринга больших сцен (миллионы гауссиан) при высоком разрешении и частоте кадров VR

Работа VRSplat (arXiv:2505.10144, 2025) и VR-Splatting (Franke et al.) предлагают foveated rendering для GS в VR — рендеринг с полным разрешением только в зоне фовеального зрения, что позволяет достичь стабильных 90+ FPS на потребительских GPU. [источник: Telegram-каналы @GreenNeuralRobots, @cgevent; arXiv, 2025]

Gaussian Splatting как «JPEG 3D-мира»: аналитики и исследователи всё чаще называют Gaussian Splatting «JPEG для 3D» — форматом, который станет стандартом для хранения и передачи 3D-контента, подобно тому как JPEG стал стандартом для изображений. В 2025 году произошёл переход от исследовательской стадии к промышленному внедрению: 3DVista добавила поддержку GS в свою платформу виртуальных туров, World Labs запустила Splat World для VR-просмотра, а NVIDIA представила GS на SIGGRAPH 2025 для Physical AI-симуляций. [источник: Telegram-канал @theworldisnoteasy; Radiance Fields, Volinga AI, 2025-2026]

Годовой мониторинг подтверждает зрелость GS: за 12 месяцев наблюдения (март 2025 — март 2026) зафиксировано 113 релевантных публикаций по теме Gaussian Splatting / NeRF — стабильно 7-14 упоминаний в месяц без резких всплесков. Это типичная динамика зрелой технологии, перешедшей из фазы хайпа в фазу производственного использования. Ключевые инновации второй половины 2025 года:

  • Triangle Splatting (DeepMind + Оксфорд, июнь 2025) — возврат от эллипсоидов к треугольникам для рендеринга GS, достижение 2 400 FPS при разрешении 1280×720 на RTX 4090. Для VR это означает огромный запас по производительности даже на мобильных GPU.
  • Depth Anything 3 (ноябрь 2025) — единый трансформер, который из произвольного набора изображений или видео восстанавливает 3D-сцену, трекинг камеры и генерирует гауссианы. Упрощает пайплайн захвата до «загрузить видео → получить GS-сцену».
  • FlashWorld (Tencent Hunyuan, октябрь 2025) — генерация GS-сцен за 5 секунд на одном GPU, ускорение в 10-100× по сравнению с предыдущими методами.
  • Gaussian Splat Splines (декабрь 2025) — анимация сплатов вдоль кривых Безье с per-splat параметрами скорости и шума. Открывает возможности для художественных VR-инсталляций.
  • VoxHammer (август 2025) — редактирование 3D-моделей (включая GS и NeRF) по текстовым промптам в нативном 3D-пространстве. Потенциально позволяет корректировать GS-реконструкции музейных залов текстовыми командами.

[источник: годовой мониторинг Telegram-каналов @cgevent, @GreenNeuralRobots; N=113 публикаций в категории GS/NeRF]

6.3.2. 4D Gaussian Splatting: динамические сцены

4D Gaussian Splatting расширяет концепцию на временное измерение, позволяя захватывать и воспроизводить динамические сцены -- движущихся людей, спектакли, перформансы.

Ключевые разработки 2024-2025:

Метод Авторы / Год Подход Применимость для культуры
Dynamic 3D Gaussians Luiten et al., 2024 Трекинг гауссиан во времени Фиксация коротких перформансов
4D Gaussian Splatting Wu et al., 2024 Деформационное поле для гауссиан Запись театральных сцен
SC-GS (Sparse-Controlled GS) Huang et al., 2024 Управляемые контрольные точки Редактируемые динамические сцены
GaussianFlow Lin et al., 2024 Оптический поток для гауссиан Плавные динамические переходы
Spacetime Gaussians Li et al., 2024 Пространственно-временные гауссианы Видео с эффектом замедления времени
4DGen Yin et al., 2024 Генерация 4D-контента из текста Создание анимированных культурных сцен

Источники: Luiten et al., "Dynamic 3D Gaussians: Tracking by Persistent Dynamic View Synthesis", 3DV 2024; Wu et al., "4D Gaussian Splatting for Real-Time Dynamic Scene Rendering", CVPR 2024; Li et al., "Spacetime Gaussian Feature Splatting for Real-Time Dynamic View Synthesis", CVPR 2024.

Значение для культурного проекта Санкт-Петербурга: 4D GS позволяет решить критически важную задачу -- VR-фиксацию живых спектаклей, балетных постановок, музыкальных концертов и уличных перформансов. В отличие от традиционного VR180/360-видео, 4D GS сохраняет возможность свободного перемещения камеры зрителя внутри сцены. Зритель может «обойти» танцора, посмотреть на дирижёра с разных точек, приблизиться к деталям декораций.

Текущие ограничения 4D GS: - Требуется многокамерная установка (8-32 синхронизированных камеры) - Длительность захваченных сцен ограничена (обычно 10-60 секунд в полном качестве) - Значительные требования к GPU при обработке (NVIDIA A100/H100 для обучения) - Артефакты на быстро движущихся элементах (развевающиеся ткани, волосы)

6.3.3. GS + SLAM: мобильная реконструкция в реальном времени

Интеграция Gaussian Splatting с SLAM (Simultaneous Localization and Mapping) позволяет строить 3D-сцены в реальном времени с мобильного устройства:

  • SplaTAM (2024): SLAM-система на основе 3D Gaussian Splatting, строящая карту среды в реальном времени. Работает на потребительских GPU (RTX 3060+).
  • MonoGS (2024): реконструкция из монокулярного видео (одна камера смартфона). Позволяет «обходить» объект с телефоном и получать GS-реконструкцию.
  • Gaussian-SLAM (2024): комбинация классического SLAM с GS-рендерингом для робототехники и навигации.

Практическое значение: сотрудник библиотеки или музея, вооружённый смартфоном с LiDAR (iPhone Pro / iPad Pro), может создать черновую 3D-реконструкцию помещения за 10-15 минут. После обработки на сервере (30-60 минут на GPU) результат пригоден для просмотра в VR.

6.3.4. Коммерческие инструменты для Gaussian Splatting

Инструмент Тип Стоимость Платформа Особенности
Luma AI Облачный сервис Free / $30/мес (Pro) Web, iOS Захват со смартфона, автоматическая обработка, экспорт в PLY/SPLAT
Polycam Мобильное приложение Free / $10/мес iOS, Android, Web LiDAR-захват, GS и mesh, экспорт в множество форматов
Postshot (Jawset) Десктопное ПО $149 (лицензия) Windows, macOS Высокое качество, поддержка COLMAP, экспорт PLY
Nerfstudio Open-source фреймворк Бесплатно Linux, macOS Splatfacto -- GS-модуль, полный контроль над пайплайном
PlayCanvas WebGL-движок Free / $15/мес Web GS-рендеринг в браузере, интеграция с WebXR
3D Gaussian Splatting (оригинал) Open-source Бесплатно Linux (CUDA) Референсная реализация от INRIA
KIRI Engine Мобильное приложение Free / $10/мес iOS, Android Фотограмметрия + GS, простой интерфейс
Scaniverse (Niantic) Мобильное приложение Бесплатно iOS GS-сканирование, социальный функционал
Unity Gaussian Splatting Плагин для Unity Open-source Unity 2022+ Интеграция GS в Unity-проекты
GaussianSplattingVRViewer VR-просмотрщик Open-source SteamVR Просмотр GS-сцен в VR-шлемах

Источники: официальные сайты и документация указанных продуктов, 2024-2025.

6.3.5. Требования к оборудованию и стоимость

Минимальная конфигурация для работы с GS:

Компонент Минимум Рекомендовано Оптимум
GPU RTX 3060 (12 ГБ) RTX 4070 Ti (12 ГБ) RTX 4090 (24 ГБ) / A6000
RAM 32 ГБ 64 ГБ 128 ГБ
Хранилище 500 ГБ SSD 2 ТБ NVMe 4+ ТБ NVMe
CPU 8 ядер 12+ ядер 16+ ядер (AMD Ryzen 9 / Intel i9)
Для захвата Смартфон с камерой iPhone 15 Pro (LiDAR) Зеркальная камера + набор ракурсов

Оценка стоимости рабочего места:

Конфигурация Стоимость (РФ, приблизительно) Назначение
Мобильный захват (iPhone + Luma AI) 120 000 - 180 000 руб. Быстрое сканирование, прототипы
Рабочая станция (RTX 4070 Ti) 250 000 - 350 000 руб. Обработка средних сцен
Продакшн-станция (RTX 4090) 400 000 - 550 000 руб. Полный пайплайн GS, 4D GS
Серверная обработка (облако) 50 000 - 150 000 руб./мес Масштабируемая обработка, Vast.ai / RunPod

6.3.6. Кейсы Gaussian Splatting в культурном наследии (2024-2025)

1. English Heritage (Великобритания, 2024). Организация, управляющая более 400 историческими объектами Англии, провела пилотный проект по GS-сканированию замков и аббатств. Результаты интегрированы в веб-приложение для виртуальных туров. Стоимость захвата одного объекта сократилась с 15 000 фунтов (фотограмметрия) до 2 000-3 000 фунтов (GS).

2. Цифровое наследие Помпей (Италия, 2024). Археологический парк Помпей использовал GS для фотореалистичной реконструкции раскопанных помещений. Особое преимущество GS -- точная передача текстур фресок и штукатурки без характерных для фотограмметрии артефактов на гладких поверхностях.

3. Проект НМИТ (Национальный музей информационных технологий, Германия, 2024). Музейные экспонаты отсканированы через GS и размещены на платформе PlayCanvas для WebXR-доступа. Посетители могут рассматривать экспонаты в 3D прямо в браузере.

4. CyArk и Google Arts & Culture (2024-2025). Партнёрство по оцифровке объектов культурного наследия под угрозой разрушения. GS используется наряду с фотограмметрией и LiDAR как один из методов реконструкции, демонстрируя лучшее соотношение скорости и качества для интерьерных сцен.

5. Пилоты в России (2024). Эрмитаж и ГМИИ им. А.С. Пушкина проводили экспериментальные съёмки отдельных залов с использованием NeRF/GS-технологий в рамках программ цифровизации. Результаты использованы для внутренних целей документирования, но не для публичного доступа.

Вывод для проекта СПб: Gaussian Splatting -- наиболее перспективная технология для VR-фиксации культурных объектов Санкт-Петербурга в 2026 году. Она обеспечивает оптимальный баланс между качеством, скоростью и стоимостью, а наличие коммерческих инструментов (Luma AI, Polycam) снижает порог входа для операторов без специализированного технического образования.


6.4. Генеративный AI для 3D-контента

6.4.1. Text-to-3D: текущий ландшафт

Технологии генерации 3D-моделей из текстовых описаний прошли путь от исследовательских демонстраций до коммерчески доступных сервисов за 2023-2025 годы.

Основные подходы:

  1. Score Distillation Sampling (SDS). Метод, предложенный в DreamFusion (Google Research, 2022). Использует предобученную 2D-диффузионную модель (Imagen, Stable Diffusion) как «учителя» для оптимизации 3D-представления (NeRF или mesh). Модель многократно рендерит текущее 3D-представление с разных ракурсов, а диффузионная модель направляет оптимизацию к соответствию текстовому описанию.

  2. Прямая генерация (feed-forward). Нейросеть напрямую предсказывает 3D-представление за один проход. Примеры: Point-E и Shap-E (OpenAI), InstantMesh, LRM (Large Reconstruction Model).

  3. Многоракурсная генерация + реконструкция. Диффузионная модель генерирует согласованные виды объекта с нескольких ракурсов, затем классический алгоритм реконструкции собирает их в 3D. Примеры: Zero123++, Wonder3D, SV3D (Stability AI).

Таблица: сравнение Text-to-3D инструментов (2024-2025)

Инструмент Разработчик Подход Время генерации Качество Стоимость Формат вывода
Meshy AI Meshy SDS + fine-tuned модели 1-5 мин Высокое (с текстурами) $20/мес (200 кредитов) GLB, FBX, OBJ, USDZ
Shap-E OpenAI Feed-forward (латентные диффузии) 5-15 сек Среднее (базовые формы) Open-source PLY, OBJ
Point-E OpenAI Feed-forward (облако точек) 5-10 сек Низкое-среднее Open-source PLY
DreamFusion Google Research SDS + NeRF 30-120 мин Среднее-высокое Исследовательский NeRF / mesh
Magic3D NVIDIA Двухэтапный SDS 15-60 мин Высокое Исследовательский Mesh с текстурами
Tripo3D Tripo AI LRM + многоракурсная генерация 10-30 сек Высокое $10/мес (100 моделей) GLB, FBX, OBJ
InstantMesh TencentARC LRM с оптимизацией 10-30 сек Высокое Open-source OBJ, GLB
Wonder3D Research Многоракурсная диффузия 2-5 мин Среднее-высокое Open-source OBJ с текстурами
Rodin Gen-1 Microsoft Диффузионная 3D-генерация 5-15 сек Высокое API (по запросу) GLB, USDZ
Genie Luma AI Собственная архитектура 5-20 сек Высокое Встроен в Luma AI GLB, USDZ

Источники: Jun & Nichol, "Shap-E: Generating Conditional 3D Implicit Functions", OpenAI 2023; Poole et al., "DreamFusion: Text-to-3D using 2D Diffusion", ICLR 2023; Meshy AI Documentation, 2024; Tripo AI Documentation, 2024.

6.4.2. Image-to-3D: от фотографии к модели

Генерация 3D-модели из одной или нескольких фотографий -- задача, более релевантная для культурных проектов, чем Text-to-3D:

Инструмент Входные данные Время Качество Применение для культуры
Hunyuan 3D 3.1 (Tencent) 1-8 фото или текст 10-60 сек Высокое Оцифровка экспонатов с нескольких ракурсов
Tripo3D 1 фото 10-30 сек Высокое Быстрая оцифровка экспонатов
InstantMesh 1 фото 10-30 сек Высокое Реконструкция артефактов из каталогов
Wonder3D 1 фото 2-5 мин Среднее-высокое Восстановление утраченных объектов
Zero123++ 1 фото 1-3 мин Среднее Генерация многоракурсных видов
Era3D 1 фото 1-2 мин Высокое Высокое разрешение, детали
Unique3D 1 фото 1-3 мин Высокое Качественные mesh-модели
Trellis (Microsoft) 1 фото 5-15 сек Высокое Быстрая генерация с текстурами

Hunyuan 3D 3.1 (Tencent, 2025) заслуживает отдельного внимания для культурных проектов. В отличие от большинства моделей, работающих с одним изображением, Hunyuan 3D 3.1 принимает на вход до 8 фотографий одного объекта с разных ракурсов, что обеспечивает значительно более точную геометрию и текстуры. Глобальный запуск платформы Hunyuan 3D Engine состоялся 25 ноября 2025 года. Модель доступна через API (Replicate) и как open-source на GitHub (Tencent-Hunyuan/Hunyuan3D-2). Ключевые преимущества: улучшенная топология mesh, высокоразрешённые текстуры с реалистичными материалами, поддержка Text-to-3D и Image-to-3D. Для проекта СПб: использование до 8 фотографий позволяет качественно оцифровывать музейные экспонаты из каталогов, где обычно имеется несколько ракурсов. [источник: Telegram-каналы @cgevent, @GreenNeuralRobots; Tencent, ноябрь 2025]

6.4.3. Video-to-3D/4D: перспективы

Генерация трёхмерных сцен из видеозаписей -- активная область исследований:

  • SV3D (Stability AI, 2024): генерация многоракурсного видео из одного изображения, используемого затем для 3D-реконструкции.
  • 4DGen (2024): генерация анимированных 4D-сцен из текстовых описаний. Пока на уровне исследовательской демонстрации.
  • Consistent4D (2024): генерация согласованных 4D-объектов из монокулярного видео. Позволяет «оживлять» статичные 3D-модели.
  • V3D (2024): видео-диффузия для генерации 3D-объектов. Более реалистичные результаты за счёт временной согласованности.

  • ActionMesh (Meta Reality Labs, 2026): генерация анимированных 3D-мешей из моноскопического видео, текста или комбинации 3D-меша с промптом. Использует temporal 3D diffusion — модификацию 3D-диффузионных моделей с временной осью. Результаты топологически консистентны (rig-free), пригодны для текстурирования и ретаргетинга. Код и модель открыты (GitHub, Hugging Face). Это первая модель Video-to-Animated-Mesh, достигшая state-of-the-art по геометрической точности и временной согласованности. Для проекта СПб: ActionMesh принципиально меняет пайплайн создания анимированных 3D-фигур для VR — достаточно видеозаписи актёра/танцора с обычной камеры для создания анимированной 3D-модели менее чем за минуту. [источник: Telegram-канал @cgevent; arXiv:2601.16148, 2026]

Статус зрелости (обновление): С появлением ActionMesh (2026) область Video-to-3D/4D совершила значительный рывок. Для production-применения простых анимированных мешей можно ориентироваться уже на 2026 год (ActionMesh). Для полноценных 4D-сцен со свободной навигацией рекомендуется ориентироваться на 2027-2028 год.

6.4.4. Применимость для культурных проектов: реконструкция утраченного

Сценарии применения генеративного AI для 3D в культуре Санкт-Петербурга:

  1. Реконструкция утраченных интерьеров. По историческим фотографиям и описаниям восстановление облика залов и помещений, разрушенных в ходе войны или реконструкций. Image-to-3D + ручная доработка позволяет создать визуально убедительную реконструкцию за дни вместо месяцев.

  2. Дополнение музейных экспозиций. Объекты, которые невозможно экспонировать (хрупкие, находящиеся в реставрации, утраченные) -- AI-генерация 3D-модели из фотографий каталога.

  3. Создание VR-декораций. Для исторических VR-экскурсий AI-генерация элементов городской среды прошлых эпох: вывесок, экипажей, фонарей, костюмов горожан.

  4. Виртуальные выставки утраченного искусства. Реконструкция произведений, уничтоженных в годы войны, по фотографиям и описаниям. Этически спорно, но технически реализуемо с оговорками.

Ключевое ограничение: генеративные 3D-модели не являются точной документацией. Для научных и архивных целей они должны сопровождаться метками «AI-реконструкция» и описанием источников, на которых базируется генерация.

6.4.5. Годовой мониторинг: экосистема Hunyuan 3D и конкуренция в 3D-генерации

Годовой мониторинг Telegram-каналов (март 2025 — март 2026) зафиксировал 126 публикаций в категории «3D-генерация». Анализ выявил безусловное доминирование Tencent Hunyuan 3D — более 60% упоминаний в категории приходится на продукты этой экосистемы:

Эволюция Hunyuan 3D за год: - Hunyuan3D 2.0/2.1 (март 2025) — первые open-source модели с quality-ориентированной генерацией, Windows Portable Pack (работает на 3 ГБ VRAM) - Hunyuan3D PolyGen 1.5 (июль 2025) — прорыв в автоматическом ретопе: прямая генерация квадовой сетки (quads), что критично для анимации и реального production - Hunyuan3D Part (P3-SAM + X-Part) (сентябрь 2025) — open-source сегментация 3D-объектов на детали - Hunyuan3D World Model 1.0 (июль 2025) — генерация редактируемых 3D-миров (с сегментацией на объекты) из промптов или изображений, open-source - Hunyuan3D Studio 1.1 (ноябрь 2025) — полноценный нейро-3D-пайплайн с PolyGen 1.5 - Hunyuan3D 3.1 (январь 2026) — улучшенные текстуры, до 8 входных изображений, доступен на 3d.hunyuanglobal.com (20 бесплатных кредитов/день)

Конкурентный ландшафт: - Rodin Gen-2 (Deemos Tech) — Smart Low-Poly режим, более качественный ретоп, чем MeshyAI - Tripo V3.0 Ultra — акцент на текстуры и тонкие детали, до 2M полигонов - CSM → Google — стартап CSM (12 разработчиков) поглощён Google, интеграция ожидается в Nano Banana - Krea.ai — агрегатор, интегрировавший Hunyuan 3D и Trellis под единым интерфейсом - Комбинаторный подход — практикующие специалисты комбинируют генераторы: Grok Imagine → Tripo → Hunyuan → Rodin, используя сильные стороны каждого

Вывод для проекта: для культурного VR-проекта рекомендуется опираться на Hunyuan 3D 3.1 как основной open-source генератор (бесплатен, поддерживает мульти-ракурсный вход), дополняя его Tripo 3D для быстрого прототипирования и ActionMesh для анимированных 3D-фигур. Конкуренция в области высока — за год вышло не менее 15 обновлений от разных команд. [источник: годовой мониторинг Telegram-каналов @cgevent, @GreenNeuralRobots; N=126 публикаций]


6.5. AI-аватары для культурных проектов

6.5.1. Говорящие исторические персонажи

Создание AI-управляемых виртуальных персонажей -- одно из наиболее впечатляющих применений AI в VR для музеев и культурных пространств. Технологический стек включает:

  1. Визуальное представление: высокодетализированный 3D-аватар (MetaHuman / custom mesh)
  2. Анимация лица: визеемы (lip-sync) на основе аудио, микровыражения (NVIDIA Audio2Face / Apple ARKit)
  3. Анимация тела: motion capture или процедурная анимация
  4. Голос: синтез речи (TTS) или голосовое клонирование
  5. Диалоговый AI: LLM с контекстом (базой знаний о персонаже, эпохе, экспозиции)

Таблица: технологии создания AI-аватаров

Компонент Решение Стоимость Качество Зрелость
3D-модель (лицо + тело) MetaHuman (UE5) Бесплатно (в Unreal Engine) Фотореалистично Production-ready
Ready Player Me Free / $50/мес (бизнес) Стилизовано Production-ready
Custom sculpt (ZBrush) $5 000-20 000 за персонажа Максимальное Production-ready
Lip-sync NVIDIA Audio2Face Бесплатно (Omniverse) Высокое Production-ready
Oculus LipSync (Meta) Бесплатно Среднее Production-ready
SadTalker (open-source) Бесплатно Среднее Исследовательский
Голос (TTS) ElevenLabs $5-99/мес Натуральный Production-ready
Azure Neural TTS $15 за 1 млн символов Высокое Production-ready
Bark (Suno AI, open-source) Бесплатно Среднее-высокое Beta
XTTS (Coqui, open-source) Бесплатно Среднее-высокое Production-ready
Голосовое клонирование ElevenLabs Voice Cloning $5-99/мес Высокое (15 сек аудио) Production-ready
Resemble AI $25/мес Высокое Production-ready
OpenVoice (open-source) Бесплатно Среднее-высокое Beta
Диалоговый AI GPT-4 / GPT-4o (OpenAI) $10-60 за 1 млн токенов Высокое Production-ready
Claude 3.5 (Anthropic) $3-15 за 1 млн токенов Высокое Production-ready
GigaChat (Сбер) По запросу Среднее-высокое Production-ready (РФ)
Llama 3.1 (Meta, open-source) Бесплатно Высокое Production-ready

Источники: NVIDIA Omniverse Audio2Face Documentation, 2024; ElevenLabs API Documentation, 2024; OpenAI API Pricing, 2024; Epic Games, "MetaHuman Documentation", 2024.

6.5.1b. Meshcapade и нейросетевой mocap: новый стандарт создания аватаров

Meshcapade — компания, выросшая из Max Planck Institute for Intelligent Systems (основатель — Майкл Блэк, создатель SMPL-модели человеческого тела). Meshcapade коммерциализирует технологию нейросетевого motion capture: извлечение полного 3D-движения тела из обычного видео без маркеров и костюмов.

В 2025 году Meshcapade была приобретена крупной CG-компанией, что подтверждает промышленную зрелость технологии нейросетевого mocap. Ключевые возможности: - Video-to-mocap: маркерлесс захват движений из обычного видео (смартфон, камера наблюдения) - Параметрическая модель тела SMPL/SMPL-X: стандарт индустрии для цифровых людей - CG-персонажи: генерация реалистичных rig'ованных 3D-тел с анатомически корректными пропорциями

Значение для проекта СПб: Meshcapade радикально снижает стоимость создания анимированных виртуальных персонажей для VR. Вместо студии mocap ($5 000-15 000/день) достаточно видеозаписи актёра/танцора на обычную камеру. Для проекта это означает возможность создания анимированных виртуальных экскурсоводов, исторических персонажей и танцоров для VR-спектаклей без специализированного оборудования. В комбинации с ActionMesh (Meta) и MetaHuman (Epic) формируется полный пайплайн: видео → 3D-меш с анимацией → фотореалистичный аватар в VR. [источник: Telegram-канал @cgevent; Meshcapade.com, 2025]

6.5.1c. Годовой мониторинг: зрелость AI-аватаров и цифровых людей (276 публикаций)

Годовой мониторинг зафиксировал 276 релевантных публикаций по теме аватаров и motion capture — стабильно 15-33/мес. Ключевые события:

  • HeyGen Avatar IV + Digital Twin (август-декабрь 2025) — наиболее обсуждаемый продукт в категории. HeyGen объединил свой Digital Twin (создание цифровой копии пользователя по фотографиям с KYC-верификацией) с новой моделью Avatar IV, обеспечивающей фотореалистичный lip-sync на животных, мультипликационных персонажах и людях. KlingAI Avatar 2.0 (декабрь 2025) достиг 5-минутных видео одного персонажа — порог, достаточный для VR-экскурсионного модуля.
  • StableAvatar (Microsoft Research Asia + Hunyuan/Tencent, август 2025) — генерация аудио-управляемых аватарных видео неограниченной длительности с сохранением идентичности персонажа. Для культурных проектов — потенциальный инструмент оживления исторических персонажей из фотографий.
  • EVA (SIGGRAPH 2025) — качественный нейросетевой mocap включая лицевую анимацию из многоракурсного видео. Позволяет редактировать позы и выражения после захвата. Для проекта СПб: EVA + Meshcapade + ActionMesh формируют три уровня качества и стоимости видеозахвата.
  • Gracia (Лондон) — стартап, доказавший PMF (Product-Market Fit) волюметрических видео и активно набирающий специалистов по GS и GenAI. Маркер зрелости индустрии: появление коммерческих компаний на пересечении volumetric capture и нейросетей.

Вывод: к началу 2026 года пайплайн создания AI-аватаров для VR достиг production-ready уровня при стоимости на порядок ниже, чем 2-3 года назад. Для проекта СПб рекомендуется комбинировать HeyGen (для быстрого прототипирования говорящих голов) с MetaHuman + ElevenLabs (для production-качества VR-экскурсоводов). [источник: годовой мониторинг Telegram-каналов; N=276 публикаций]

6.5.2. AI-экскурсоводы с голосовым клонированием

Концепция AI-экскурсовода для музеев Санкт-Петербурга:

Архитектура системы:

Посетитель в VR-шлеме
    ↓ (голосовой запрос)
Speech-to-Text (Whisper / Azure Speech)
    ↓ (текст)
LLM (GPT-4o / GigaChat) + RAG (база знаний об экспозиции)
    ↓ (ответ текстом)
Text-to-Speech (ElevenLabs / Azure Neural TTS)
    ↓ (аудио)
Lip-sync (Audio2Face)
    ↓ (анимация)
MetaHuman-аватар в VR-сцене
    ↓ (визуал + звук)
Посетитель видит и слышит ответ

Задержка полного цикла (2025): 1,5-3,5 секунды (от вопроса до начала ответа аватара).

Стоимость обслуживания одного посетителя: приблизительно 2-5 рублей за одно взаимодействие (при использовании GPT-4o mini + ElevenLabs).

6.5.3. MetaHuman (Unreal Engine) + AI

MetaHuman Creator от Epic Games -- промышленный стандарт создания фотореалистичных цифровых людей:

  • Возможности: кастомизация лица и тела по 100+ параметрам, LOD-система (уровни детализации), физика волос и одежды, интеграция с motion capture
  • Качество: фотореалистичные персонажи с разрешением текстур до 8K, анатомически корректная деформация лица (FACS-совместимая система)
  • Ограничения для исторических персонажей: стандартные MetaHuman ограничены современным внешним видом. Для исторических костюмов, причёсок и аксессуаров требуется ручная доработка в Maya/Blender
  • Интеграция с AI: через плагины к Unreal Engine 5 можно подключить LLM для диалога (например, Convai, Inworld AI) и Audio2Face для lip-sync

6.5.4. Кейсы: музеи с AI-гидами

1. Dalí Lives (Музей Дали, Флорида, 2019-настоящее время). Пионерский проект: AI-версия Сальвадора Дали приветствует посетителей на интерактивном экране. Использует deepfake-технологию для воссоздания лица и голоса художника. Персонаж ведёт диалог, делает селфи с посетителями. Проект стал одним из самых успешных музейных AI-внедрений.

2. Inside Kristallnacht (2024). VR-проект, реконструирующий события Хрустальной ночи 1938 года. Использует AI-персонажей -- свидетелей событий, которые рассказывают свои истории посетителю в VR-пространстве. Основан на реальных свидетельствах, озвученных актёрами, с AI-управляемым диалоговым взаимодействием.

3. Spirit of Ramayana (Национальный музей, Сингапур, 2024). Интерактивная VR-инсталляция, где AI-персонажи рассказывают эпос Рамаяна, адаптируя повествование под культурный бэкграунд посетителя (индийская, малайская, тайская версии).

4. MUZE AI (стартап, 2024). Платформа для создания AI-экскурсоводов для музеев. Интеграция LLM + TTS + аватар. Пилотные проекты в музеях Великобритании и Нидерландов.

5. Dimensions in Testimony (USC Shoah Foundation, обновление 2024). Проект интерактивных голограмм переживших Холокост. AI-система позволяет посетителям задавать вопросы голографическим образам реальных людей. В 2024 году интегрирован с VR для удалённого доступа.

6.5.5. Этика: deepfake исторических лиц

Воссоздание исторических личностей средствами AI поднимает комплексные этические вопросы:

Аспект Риск Митигация
Согласие Исторические лица не давали согласия на AI-воссоздание Экспертные комиссии, работа с наследниками
Искажение AI может «придумать» слова/поступки, не соответствующие историческим фактам RAG с верифицированными источниками, ограничение free-form диалога
Коммерциализация Использование образов в коммерческих целях Некоммерческий статус, культурная миссия
Эмоциональное воздействие Иллюзия «общения с мёртвым» может быть психологически травматичной Предупреждения, маркировка AI-контента
Политизация Вложение в уста исторических лиц современных нарративов Научная верификация, мультиперспективность

6.6. AI для персонализации VR-опыта

6.6.1. Адаптивные маршруты по экспозиции

Рекомендательные AI-системы, аналогичные тем, что используются в e-commerce и стриминговых сервисах, могут адаптировать VR-экскурсию под конкретного посетителя:

Модель персонализации:

Параметр Источник данных Метод AI Результат
Интересы посетителя Анкета при входе / история визитов Collaborative filtering Рекомендация залов и экспонатов
Возраст / категория Регистрация Rule-based + ML Адаптация сложности контента
Время визита Пользовательское ограничение Оптимизация маршрута Оптимальный путь за N минут
Внимание (eye tracking) Датчики в VR-шлеме Гейз-аналитика Расширение информации о заинтересовавших объектах
Эмоциональный отклик Пульсометрия (при наличии) Affective computing Модулирование интенсивности контента

6.6.2. Возрастная адаптация контента

Для целевых групп проекта Санкт-Петербурга (школьники, пожилые, маломобильные):

  • Школьники (7-17 лет): геймификация (квесты, поиск предметов), упрощённый язык, интерактивные AI-персонажи в стиле мультипликации, ограничение длительности сеанса
  • Взрослые (18-60 лет): полноценный академический контент, свободная навигация, глубокий AI-диалог с экскурсоводом
  • Пожилые (60+ лет): увеличенный шрифт и контрастность, замедленная навигация, голосовое управление, сидячий режим (телепортация вместо ходьбы), ностальгический контент (исторические фотографии знакомых мест)
  • Маломобильные: полное голосовое управление, адаптивный интерфейс, возможность просмотра из одной точки с 360-поворотом

6.6.3. Мультиязычность через AI-перевод в реальном времени

Современные AI-системы перевода позволяют обеспечить мультиязычность VR-экскурсии:

Решение Задержка Языки Качество Стоимость
GPT-4o (realtime API) 0,5-1,5 сек 50+ языков Высокое (контекстный перевод) $5-15 за 1 млн токенов
Azure Speech Translation 0,3-1 сек 70+ языков Высокое $10 за 1 млн символов
Google Cloud Translation 0,2-0,8 сек 130+ языков Высокое $20 за 1 млн символов
Whisper + LLM + TTS 2-4 сек 50+ языков Среднее-высокое $2-8 за 1 млн токенов
SeamlessM4T (Meta, open-source) 1-3 сек 100 языков Среднее-высокое Бесплатно (self-hosted)

Архитектура для мультиязычного VR-экскурсовода: 1. Контент создаётся на русском языке (базовый) 2. AI-перевод текстов экскурсий на целевые языки (английский, китайский, немецкий, французский) 3. TTS генерирует аудио на целевом языке 4. При интерактивном диалоге: STT на языке посетителя -> перевод -> LLM (русский контекст) -> перевод -> TTS на языке посетителя

6.6.4. Eye tracking + AI для аналитики внимания

Современные VR-шлемы (Meta Quest Pro, Apple Vision Pro, PSVR2, Pico 4 Enterprise) оснащены системами отслеживания взгляда. AI-анализ данных eye tracking даёт:

  • Карта внимания (heatmap): какие экспонаты привлекают наибольшее внимание
  • Время фиксации: сколько времени посетитель рассматривает каждый объект
  • Паттерны сканирования: как посетители «читают» экспозицию
  • Адаптивные подсказки: если посетитель «проскользил» мимо важного объекта -- ненавязчивая подсказка (звуковая или визуальная)
  • A/B-тестирование экспозиций: сравнение эффективности разных вариантов размещения

Этический аспект: данные eye tracking являются биометрическими и требуют информированного согласия. Для проекта СПб необходима политика обработки биометрических данных в соответствии с ФЗ-152 и ФЗ-572.


6.7. Генеративный AI для аудио в VR

6.7.1. Пространственное аудио (spatial audio) через AI

Пространственный звук -- критический компонент иммерсивности VR-опыта. AI-инструменты трансформируют аудиопродакшн:

Традиционный подход: запись на амбисоническую микрофонную решётку (Zoom H3-VR, Sennheiser AMBEO) с последующей обработкой в ПО для пространственного аудио (Reaper + IEM Plugin Suite, Facebook Spatial Workstation).

AI-подход (2024-2025):

Задача AI-инструмент Описание
Монауральное -> пространственное NVIDIA HRTF AI Преобразование моно/стерео записи в бинауральное 3D-аудио
Разделение звуковых слоёв Demucs (Meta) / Spleeter Выделение голоса, инструментов, фона из записи
Генерация амбиента Stable Audio (Stability AI) Создание фоновых звуковых ландшафтов по описанию
Шумоподавление NVIDIA RTX Voice / Adobe Podcast Очистка записей от шума в реальном времени
Акустическое моделирование AI-Reverb (импульсные отклики) Симуляция акустики конкретных помещений
Генерация музыки Udio, Suno AI, MusicGen (Meta), ACE-Step 1.5 Создание фоновой музыки для VR-сцен

Для культурного проекта Санкт-Петербурга: - Моделирование акустики исторических залов (Эрмитаж, Мариинский театр, Филармония) через AI-реверберацию по импульсным откликам - Генерация исторически достоверного звукового фона (звуки Петербурга XIX века: копыта по мостовой, колокола, уличные торговцы) через генеративные модели - Пространственное аудио для VR-спектаклей: размещение звуковых источников в трёхмерном пространстве

6.7.2. Голосовой клонинг для экскурсий на разных языках

Технология голосового клонирования позволяет создать «голосовую модель» экскурсовода, а затем синтезировать речь на разных языках с сохранением тембра и интонационного рисунка:

Платформа Качество клонирования Минимум аудио Языков Задержка (streaming) Стоимость
ElevenLabs Отличное 30 сек - 3 мин 29 <500 мс $5-99/мес
Resemble AI Высокое 3-5 мин 24 <800 мс $25+/мес
PlayHT Высокое 30 сек 20+ <600 мс $30+/мес
XTTS v2 (open-source) Среднее-высокое 6-30 сек 17 <1 сек Бесплатно
Azure Custom Neural Voice Высокое 30-60 мин (professional) 50+ <500 мс По запросу
OpenVoice v2 (open-source) Среднее 10-30 сек 10+ <2 сек Бесплатно

Источники: ElevenLabs, "Voice Cloning API Documentation", 2024; Resemble AI, "Real-Time Voice Cloning", 2024; Coqui AI, "XTTS v2 Release Notes", 2024.

Сценарий для СПб: профессиональный экскурсовод записывает русскоязычную экскурсию. Его голосовая модель клонируется через ElevenLabs/Azure. AI генерирует ту же экскурсию на английском, китайском, немецком, французском, испанском -- голосом того же экскурсовода. Итого: 6 языковых версий, стоимость создания каждой дополнительной версии -- приблизительно 500-2 000 рублей (перевод + синтез). Сравните со стоимостью записи с носителем языка: 50 000-150 000 рублей за версию.

6.7.3. Амбисоника и AI-обработка звука

Амбисоника (Ambisonics) -- формат записи пространственного звука, который фиксирует полное звуковое поле вокруг точки записи. В контексте VR амбисоника обеспечивает звук, который вращается вместе с головой зрителя (head-tracked audio).

AI-инструменты для работы с амбисоникой:

  • dearVR SPATIAL CONNECT (2024): AI-ассистированное размещение звуковых объектов в 3D-пространстве для VR
  • Meta Spatial Audio SDK: обработка амбисоники первого и третьего порядка для Meta Quest
  • Google Resonance Audio: open-source SDK для пространственного аудио с AI-оптимизацией HRTF
  • Steam Audio (Valve): физически корректное моделирование распространения звука с ML-ускорением

Рекомендация для проекта: использование амбисонических записей (Zoom H3-VR, ~30 000 руб.) в сочетании с AI-обработкой для VR-спектаклей и концертов. Для экскурсионных проектов достаточно object-based spatial audio (размещение моноисточников в 3D через Meta Spatial Audio SDK).

6.7.4. ACE-Step 1.5: open-source генерация музыки коммерческого качества

ACE-Step 1.5 (январь 2026) — open-source модель генерации музыки, достигшая качества коммерческих аналогов (Suno, Udio) и выпущенная под лицензией MIT, что допускает свободное коммерческое использование.

Параметр ACE-Step 1.5 Suno v4 Udio
Лицензия MIT (open-source) Проприетарная (подписка) Проприетарная (подписка)
Развёртывание Локально (4 ГБ VRAM) Только облако Только облако
Скорость <2 сек/песня (A100), <10 сек (RTX 3090) ~30 сек ~30 сек
Длительность До 10 минут До 4 минут До 2 минут
Персонализация LoRA-fine-tuning по нескольким трекам Нет Нет
Стоимость Бесплатно (self-hosted) $10-30/мес $10-30/мес
Коммерческое использование Да (MIT) С ограничениями С ограничениями

Архитектура ACE-Step — гибридная: языковая модель (LM) работает как «планировщик», преобразуя пользовательский запрос в «чертёж» композиции (метаданные, текст, стиль), а диффузионный трансформер (DiT) генерирует аудио по этому плану.

Значение для проекта СПб: - Фоновая музыка для VR-сцен: генерация атмосферной музыки для виртуальных экскурсий (петербургский классицизм, эпоха модерна, советский авангард) без лицензионных ограничений - Звуковые ландшафты: генерация исторических музыкальных стилей для создания атмосферы эпохи - Персонализация через LoRA: обучение модели на музыке конкретных эпох/стилей (3-5 референсных треков) для создания стилистически точного фона - Локальное развёртывание: работает на потребительском GPU (RTX 3060 и выше), не требует облачной подписки - MIT-лицензия: юридическая чистота коммерческого использования, данные обучения заявлены как лицензионно чистые [источник: Telegram-каналы @svodkaai_ai, @aioftheday; GitHub ace-step/ACE-Step-1.5, январь 2026]

6.7.5. Генеративное видео для VR-продакшна

В 2025-2026 годах произошёл качественный скачок в генеративном видео — четыре модели достигли уровня, пригодного для использования в продакшне:

Модель Разработчик Максимальное разрешение Длительность Особенности
Sora 2 OpenAI 1080p 5-25 сек Лучшая физическая симуляция, консистентность объектов
Seedance 2.0 ByteDance 2K (нативно) До 30 сек 4 входных модальности (фото, видео, аудио, текст), поддержка аудио-референсов
Veo 3.1 Google DeepMind 4K (3840×2160) До 30 сек Единственная модель с настоящим 4K, кинематографическое качество
Kling 3.0 Kuaishou 1080p До 10 сек Быстрая генерация, доступная цена

Применимость для VR-проекта культурного наследия: - Переходы и интро: генерация кинематографических переходов между VR-сценами (пролёт над историческим Петербургом, смена эпох) - Визуализация утраченного: генерация видеовизуализаций исторических событий на основе описаний и гравюр - 360° видеоконтент: пока модели генерируют обычное (не 360°) видео, но Sora 2 и Veo 3.1 могут использоваться для создания фрагментов, интегрируемых в панорамные композиции - Прототипирование: быстрая визуализация концепций VR-сцен перед полной разработкой

Google Genie 3 (2025-2026) — отдельная категория: генерация интерактивных миров. В отличие от видео-моделей, Genie 3 создаёт не видеоролики, а навигируемые 3D-среды в реальном времени (24 FPS, 720p) из текстового описания. Пользователь может перемещаться по сгенерированному миру, а модель генерирует новые виды «на лету». С января 2026 года доступна для подписчиков Google AI Ultra. Хотя консистентность пока ограничена (1-2 минуты), для прототипирования VR-экспозиций Genie 3 открывает перспективу: куратор описывает текстом «зал Эрмитажа, эпоха Екатерины II, вечернее освещение свечами» — и получает навигируемый прототип за секунды. [источник: Telegram-каналы @cgevent, @theworldisnoteasy, @boris_again; Google DeepMind, WaveSpeed AI, февраль 2026]

Годовой мониторинг: генеративное видео — наиболее обсуждаемая AI-технология (1 127 публикаций). Динамика по месяцам показывает устойчиво высокий интерес: от 57 публикаций/мес (апрель 2025) до пика 142/мес (октябрь 2025). Ключевые наблюдения:

  • Зрелость полного пайплайна: к концу 2025 года сформировался устойчивый производственный цикл, позволяющий одному человеку создавать видеоконтент кинематографического уровня: Midjourney/Flux (концепты) → Wan 2.x/Veo3/Kling (анимация) → HeyGen Avatar IV (липсинк) → ElevenLabs v3 (голос) → Suno (музыка) → DaVinci Resolve (монтаж). Многочисленные примеры полнометражных анимационных клипов, созданных одним автором, регулярно публиковались в @cgevent.
  • Wan 2.x (Alibaba) — эволюция от 2.1 до 2.5 за год, ставший де-факто стандартом для open-source видеогенерации. Дефолтные 50 шагов снижены до 15 без потери качества.
  • Kling O1 (декабрь 2025) — модель-редактор видео, а не генератор с нуля. KlingAI Avatar 2.0 — до 5 минут непрерывного видео с одного персонажа.
  • HeyGen Digital Twin + Avatar IV — коммерчески зрелый продукт для цифровых копий людей. Для культурных проектов: создание цифровых двойников экскурсоводов, актёров, преподавателей.
  • Suno V5 + Suno Studio (сентябрь-октябрь 2025) — мультитрековая генерация музыки с визуальным редактором, экспорт стемов в DAW. Однако Warner Music Group достигла мирового соглашения с Suno (ноябрь 2025), обязывающего компанию переобучить модели в 2026 году.

6.7.6. Генерация интерактивных миров: «text2metaverse» как новый тренд 2025

Годовой мониторинг зафиксировал 89 публикаций по теме генерации интерактивных миров — при этом динамика показывает резкий рост с августа 2025 (22 публикации/мес) после летних анонсов. Это единственная категория с характерной «S-образной» кривой роста, типичной для зарождающегося тренда.

Ландшафт генераторов интерактивных миров (2025-2026):

Проект Разработчик Подход Доступность Качество
Project Genie Google DeepMind Genie 3 + Gemini + Nano Banana Google AI Ultra ($200/мес, только США) Высокое, 24 FPS, 720p
World Labs Marble World Labs (Fei-Fei Li) 3DGS + фото→мир Продукт (ноябрь 2025) Высокое, сплаты в браузере
Matrix-Game 2.0 SkyWorks AI Open-source, обучение на видео GitHub (A100, 24 ГБ VRAM) Среднее, 25 FPS
Hunyuan World 1.0 Tencent Open-source, промпт/фото→3D-мир GitHub Среднее, редактируемые объекты
Mirage 2 DynamicsLab Промпт→играбельный мир Сайт (бета) Среднее, включает шутер-механику
StAItial AI Echo StAItial Промпт/фото→GS-мир Сайт (бета) Среднее, экспорт в 3D
SEELE Независимый проект Text→бесконечная 3D-игра Сайт Раннее
PixVerse-R1 PixVerse World model на базе видео-движка Блог Раннее
LingBot-World Open-source сообщество На базе WAN GitHub Раннее
Waymo World Model Waymo + DeepMind На базе Genie 3, для автовождения Закрытый Специализированный

Важный контекст: для работы Genie 3 в 24 FPS требуется 4×H100 GPU (~$120K). Это пока ограничивает массовое применение, но open-source альтернативы (Matrix-Game, Hunyuan World) позволяют экспериментировать на более доступном оборудовании.

Для проекта СПб: технология генерации интерактивных миров пока экспериментальна для production, но для прототипирования VR-экспозиций уже применима. Рекомендуется мониторить развитие open-source генераторов (Hunyuan World, Matrix-Game) и планировать пилот с Project Genie / World Labs Marble по мере их доступности. Потенциальный сценарий: «быстрая визуализация гипотез» — историк описывает текстом контекст эпохи, генератор мгновенно создаёт навигируемый прототип для обсуждения с командой. [источник: годовой мониторинг Telegram-каналов @cgevent, @aioftheday, @gonzo_ML; N=89 публикаций]


6.8. Этические рамки AI в культурном контексте

6.8.1. Аутентичность vs реконструкция: где граница?

Применение AI для реконструкции культурного наследия ставит фундаментальный вопрос: где проходит граница между научно обоснованной реконструкцией и домыслом?

Классификация уровней AI-реконструкции:

Уровень Описание Пример Этическая оценка
L1: Документация AI фиксирует существующий объект «как есть» GS-скан Исаакиевского собора Этически нейтрально
L2: Реставрация AI восстанавливает утраченные фрагменты по аналогии с сохранившимися Восстановление отколотого фрагмента скульптуры Приемлемо с маркировкой
L3: Реконструкция AI воссоздаёт утраченное на основе исторических источников Интерьер дворца до пожара по фотографиям Приемлемо при научной верификации
L4: Интерпретация AI генерирует то, что не зафиксировано, но вероятно Звуки улиц XVIII века Допустимо с явной маркировкой
L5: Спекуляция AI создаёт то, что могло бы быть «Как выглядел бы Летний дворец, если бы не был снесён» Требует серьёзных оговорок

Рекомендация: для проекта Санкт-Петербурга принять обязательное правило маркировки всего AI-генерированного контента уровня L2 и выше. Визуальная маркировка (полупрозрачная плашка) + текстовое объяснение методологии реконструкции.

6.8.2. Deepfake исторических личностей: допустимо ли?

Вопрос приобретает особую остроту для Санкт-Петербурга -- города, связанного с Петром I, Пушкиным, Достоевским, Ахматовой, Шостаковичем и десятками других исторических личностей.

Аргументы «за» AI-воссоздание: - Образовательный эффект: «разговор» с историческим лицом запоминается лучше текста - Эмоциональное вовлечение: иммерсивность повышает интерес к истории - Доступность: посетители всех возрастов могут «пообщаться» с Пушкиным

Аргументы «против»: - Отсутствие согласия: историческое лицо не давало разрешения на AI-воссоздание - Риск искажения: AI может приписать исторической личности слова и взгляды, которых она не придерживалась - Девальвация подлинности: привыкание к AI-копиям снижает ценность аутентичных артефактов - Правовые риски: наследники могут оспорить использование образа

Международная практика: - ICOM (Международный совет музеев): рекомендует прозрачность и научную верификацию AI-воссозданий (этический кодекс, обновление 2024) - EU AI Act (2024): требует маркировки AI-генерированного контента, включая deepfake - Музей Дали (Флорида): проект «Dalí Lives» получил одобрение фонда Дали и стал эталоном этичного подхода

Рекомендация для проекта СПб: 1. Формирование этического совета (историки, юристы, представители общественности) 2. Работа с наследниками и правообладателями при воссоздании личностей XX-XXI века 3. Ограничение AI-диалога верифицированными историческими фактами и цитатами 4. Обязательная маркировка: «Это AI-реконструкция, а не исторический документ» 5. Запрет на использование образов в коммерческих целях (только образование и культура)

6.8.3. Авторские права на AI-генерированный контент

Правовой статус AI-генерированного контента остаётся неопределённым:

Юрисдикция Позиция (2024-2025) Последствия для проекта
РФ Закон не определяет статус AI-произведений; Роспатент рассматривает вопрос Рекомендуется оформлять права на оператора (человека), использовавшего AI
США Бюро авторского права: AI-созданное не защищается; человеческий вклад защищается Смешанный контент (AI + человек) может быть защищён
ЕС AI Act требует маркировки; авторское право -- на этапе обсуждения Обязательная маркировка AI-контента
Великобритания Рассматривается специальный статус для AI-произведений Возможна защита «компьютерно-генерированных произведений»

Практическая рекомендация: фиксировать авторство за оператором-человеком, который осуществляет творческий выбор (промпт, кураторство, постобработку). Сохранять логи промптов и параметров генерации.

6.8.4. Прозрачность: маркировка AI-контента

Обязательная маркировка AI-генерированного контента в VR-проекте:

  • Визуальная метка: полупрозрачный значок «AI» на AI-генерированных объектах и аватарах
  • Информационная панель: при наведении/приближении -- описание метода создания
  • Вводный дисклеймер: перед VR-сеансом -- объяснение, какие элементы созданы AI
  • Метаданные: встраивание C2PA/Content Credentials в файлы контента

6.8.5. Согласие на VR-запись и AI-обработку

Для GS-сканирования публичных культурных мероприятий:

  • Информированное согласие: посетители мероприятий, попадающие в GS-съёмку, должны быть уведомлены (аналогично видеосъёмке)
  • Размытие лиц: AI-инструменты (DeepPrivacy2, 2024) позволяют автоматически анонимизировать лица в GS-сценах
  • GDPR / ФЗ-152: если GS-сцена содержит узнаваемые лица, она подпадает под законодательство о персональных данных
  • Биометрия eye tracking: данные о движении глаз являются биометрическими данными по ФЗ-572 и требуют отдельного согласия

6.9. Выводы для проекта Санкт-Петербурга

6.9.1. Какие AI-инструменты production-ready сейчас?

Таблица: зрелость AI-инструментов для VR-проекта (февраль 2026)

Технология TRL Статус Рекомендация для СПб
3D Gaussian Splatting (статичные сцены) 8-9 Production-ready Внедрять немедленно -- базовая технология захвата
GS-просмотр в VR 7-8 Production-ready (с ограничениями) Внедрять -- через Unity/PlayCanvas/нативные просмотрщики
4D Gaussian Splatting 5-6 Экспериментальный, быстро зреет Пилотировать -- тестовые съёмки спектаклей
NeRF (статичные сцены) 8-9 Production-ready Ограниченное использование -- для архивной оцифровки
Image-to-3D (Tripo3D, InstantMesh) 7-8 Production-ready для прототипов Внедрять -- дополнение экспозиций
Text-to-3D (Meshy AI) 6-7 Пригодно для прототипов Пилотировать -- декорации, реконструкции
AI-аватары (MetaHuman + LLM) 7-8 Production-ready Внедрять -- AI-экскурсоводы
Голосовое клонирование (ElevenLabs) 8-9 Production-ready Внедрять -- мультиязычность
AI-перевод для VR 8-9 Production-ready Внедрять -- с первого дня
Eye tracking + AI аналитика 6-7 Зависит от шлема Планировать -- при выборе шлема с eye tracking
Генеративное аудио (spatial) 6-7 Среднее Пилотировать -- для VR-спектаклей
ACE-Step 1.5 (музыкальная генерация) 8 Production-ready Внедрять -- фоновая музыка, атмосферы
Генеративное видео (Sora 2, Seedance, Veo) 7-8 Production-ready для отдельных задач Пилотировать -- переходы, визуализации
Google Genie 3 (генерация миров) 6-7 Экспериментальный Мониторить -- генерация интерактивных VR-сред
Deepfake исторических лиц 7-8 Технически готово Осторожно -- требуется этический совет

6.9.2. Дорожная карта внедрения AI

Фаза 1: Базовый AI-стек (Q1-Q2 2026) - Развёртывание GS-пайплайна: Polycam/Luma AI для захвата + Postshot для обработки - Закупка рабочей станции с RTX 4090 для обработки GS - Пилотная съёмка 5-10 объектов (залы библиотеки, 2-3 музейных зала-партнёра) - Интеграция GS-просмотра в VR через Unity Gaussian Splatting плагин - Настройка мультиязычного AI-перевода (русский + английский + китайский)

Фаза 2: AI-экскурсоводы и интерактивность (Q3-Q4 2026) - Создание 2-3 AI-аватаров-экскурсоводов на MetaHuman - Интеграция LLM (GigaChat / GPT-4o) через Convai или кастомное решение - Голосовое клонирование для мультиязычных экскурсий - Пилотный проект 4D GS: захват одного спектакля/перформанса - Формирование этического совета по AI-контенту

Фаза 3: Персонализация и масштабирование (2027) - Внедрение адаптивных маршрутов (recommendation AI) - Eye tracking аналитика (если шлемы поддерживают) - Text-to-3D / Image-to-3D для реконструкций утраченного наследия - Масштабирование GS-базы до 50+ объектов - Пилот AI-воссоздания исторического персонажа (при одобрении этического совета)

Фаза 4: Полная экосистема (2028) - 4D GS в production для регулярной съёмки спектаклей - AI-генеративный аудиоконтент (исторические звуковые ландшафты) - Полная мультиязычность (6+ языков) - Открытое API для сторонних разработчиков контента

6.9.3. Бюджет на AI-инструменты

Таблица: бюджет AI-инструментов на первый год (2026)

Категория Позиция Разовые затраты Ежемесячные Годовые (итого)
Оборудование Рабочая станция (RTX 4090, 128 ГБ RAM) 500 000 руб. -- 500 000 руб.
iPhone 15 Pro для GS-захвата (2 шт.) 300 000 руб. -- 300 000 руб.
Амбисонический микрофон (Zoom H3-VR) 30 000 руб. -- 30 000 руб.
Софт и лицензии Postshot (лицензия) 15 000 руб. -- 15 000 руб.
Luma AI Pro (2 аккаунта) -- 6 000 руб. 72 000 руб.
ElevenLabs Pro (голосовой клонинг) -- 10 000 руб. 120 000 руб.
Unreal Engine 5 (бесплатно до $1M выручки) 0 0 0
Nerfstudio / open-source инструменты 0 0 0
Облачные GPU Обработка GS/NeRF (Vast.ai / RunPod) -- 30 000-50 000 руб. 480 000 руб.
API-сервисы LLM API (GPT-4o / GigaChat) для экскурсоводов -- 10 000-30 000 руб. 240 000 руб.
Azure Speech / STT-TTS -- 5 000-15 000 руб. 120 000 руб.
Персонал AI/ML-специалист (полная ставка) -- 200 000-350 000 руб. 3 000 000 руб.
3D-художник / технический художник (полная ставка) -- 150 000-250 000 руб. 2 400 000 руб.
Обучение Повышение квалификации команды 200 000 руб. -- 200 000 руб.
ИТОГО ~1 045 000 руб. ~430 000-710 000 руб./мес ~7 500 000 руб.

Примечание: основная статья расходов -- персонал. При ограниченном бюджете возможна модель с одним AI-специалистом широкого профиля (~250 000 руб./мес) и привлечением подрядчиков на пиковые задачи. В этом случае годовой бюджет AI-компоненты может быть сокращён до 4 500 000-5 500 000 руб.

Сравнение с традиционным подходом: создание аналогичного VR-контента (3D-сканирование фотограмметрией, ручное моделирование, запись экскурсий с носителями языка, ручная адаптация для разных аудиторий) обошлось бы в 25 000 000-40 000 000 руб. за первый год. AI-инструменты обеспечивают экономию в 3-5 раз при сопоставимом или лучшем качестве для большинства задач.


Список источников

Научные публикации

  1. Mildenhall, B., Srinivasan, P.P., Tancik, M., Barron, J.T., Ramamoorthi, R., Ng, R. (2020). "NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis." ECCV 2020. arXiv:2003.08934.

  2. Muller, T., Evans, A., Schied, C., Keller, A. (2022). "Instant Neural Graphics Primitives with a Multiresolution Hash Encoding." ACM Transactions on Graphics (SIGGRAPH) 2022. arXiv:2201.05989.

  3. Barron, J.T., Mildenhall, B., Verbin, D., Srinivasan, P.P., Hedman, P. (2023). "Zip-NeRF: Anti-Aliased Grid-Based Neural Radiance Fields." ICCV 2023. arXiv:2304.06706.

  4. Tancik, M., Weber, E., Ng, E., Li, R., Yi, B., Kerr, J., Wang, T., Kristoffersen, A., Austin, J., Salahi, K., Ahber, A., Conde, D., Muller, T., Kanazawa, A. (2023). "Nerfstudio: A Modular Framework for Neural Radiance Field Development." ACM SIGGRAPH 2023. arXiv:2302.04264.

  5. Kerbl, B., Kopanas, G., Leimkuhler, T., Drettakis, G. (2023). "3D Gaussian Splatting for Real-Time Radiance Field Rendering." ACM Transactions on Graphics (SIGGRAPH) 2023. arXiv:2308.04079.

  6. Luiten, J., Kopanas, G., Leibe, B., Ramanan, D. (2024). "Dynamic 3D Gaussians: Tracking by Persistent Dynamic View Synthesis." 3DV 2024. arXiv:2308.09713.

  7. Wu, G., Yi, T., Fang, J., Xie, L., Zhang, X., Wei, W., Liu, W., Tian, Q., Wang, X. (2024). "4D Gaussian Splatting for Real-Time Dynamic Scene Rendering." CVPR 2024. arXiv:2310.08528.

  8. Li, Z., Chen, Q., Peng, Z., Wang, H. (2024). "Spacetime Gaussian Feature Splatting for Real-Time Dynamic View Synthesis." CVPR 2024. arXiv:2312.16812.

  9. Keetha, N., Karhade, J., Jatavallabhula, K.M., Yang, G., Scherer, S., Ramanan, D., Luiten, J. (2024). "SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM." CVPR 2024. arXiv:2312.02126.

  10. Poole, B., Jain, A., Barron, J.T., Mildenhall, B. (2023). "DreamFusion: Text-to-3D using 2D Diffusion." ICLR 2023. arXiv:2209.14988.

  11. Jun, H., Nichol, A. (2023). "Shap-E: Generating Conditional 3D Implicit Functions." OpenAI Technical Report. arXiv:2305.02463.

  12. Xu, Y., Shi, Z., Yifan, W., Chen, H., Yang, C., Peng, S., Shen, Y., Wetzstein, G. (2024). "InstantMesh: Efficient 3D Mesh Generation from a Single Image with Sparse-view Large Reconstruction Models." arXiv:2404.07191.

  13. Long, X., Guo, Y.C., Lin, C., Liu, Y., Dou, Z., Liu, L., Ma, Y., Zhang, S.H., Habermann, M., Theobalt, C., Shi, H., Wang, W. (2024). "Wonder3D: Single Image to 3D using Cross-Domain Diffusion." CVPR 2024. arXiv:2310.15008.

  14. Huang, S.C., Gojcic, Z., Wang, Z., Williams, F., Lassner, C., Poier, G., Fidler, S., Litany, O. (2024). "SC-GS: Sparse-Controlled Gaussian Splatting for Editable Dynamic Scenes." CVPR 2024. arXiv:2312.14937.

Отчёты и документация

  1. NVIDIA. (2024). "NVIDIA Omniverse Audio2Face Documentation." developer.nvidia.com/omniverse/audio2face.

  2. Epic Games. (2024). "MetaHuman Creator Documentation." docs.metahuman.unrealengine.com.

  3. ElevenLabs. (2024). "Voice Cloning API Documentation." elevenlabs.io/docs.

  4. OpenAI. (2024). "GPT-4 Turbo and GPT-4o API Documentation." platform.openai.com/docs.

  5. Luma AI. (2024). "Gaussian Splatting Product Documentation." lumalabs.ai/docs.

  6. Polycam. (2024). "3D Scanning and Gaussian Splatting." poly.cam/docs.

  7. Jawset. (2024). "Postshot -- 3D Gaussian Splatting Desktop Application." jawset.com.

  8. PlayCanvas. (2024). "Gaussian Splatting in WebGL." playcanvas.com/gaussian-splatting.

Кейсы и отраслевые источники

  1. Salvador Dalí Museum. (2019-2024). "Dalí Lives: AI and Machine Learning Exhibition." thedali.org/exhibit/dali-lives.

  2. USC Shoah Foundation. (2024). "Dimensions in Testimony: Interactive Biographies." sfi.usc.edu/dit.

  3. CyArk. (2024). "Digital Preservation of Cultural Heritage Sites." cyark.org.

  4. ICOM. (2024). "ICOM Code of Ethics for Museums (Updated)." icom.museum/ethics.

  5. European Parliament. (2024). "Regulation (EU) 2024/1689 -- Artificial Intelligence Act." eur-lex.europa.eu.

  6. Stability AI. (2024). "Stable Audio: AI-Generated Spatial Audio." stability.ai/stable-audio.

  7. Meta AI. (2024). "SeamlessM4T: Massively Multilingual & Multimodal Machine Translation." ai.meta.com/research/seamlessm4t.

  8. Coqui AI. (2024). "XTTS v2: Open-Source Text-to-Speech with Voice Cloning." coqui.ai/xtts.

Российские источники

  1. Государственный Эрмитаж. (2024). "Программа цифровизации музейных коллекций." hermitagemuseum.org.

  2. Сбер. (2024). "GigaChat API: документация и тарифы." developers.sber.ru/gigachat.

  3. Федеральный закон от 27.07.2006 N 152-ФЗ "О персональных данных" (в ред. 2024).

  4. Федеральный закон от 29.12.2022 N 572-ФЗ "Об осуществлении идентификации и (или) аутентификации физических лиц с использованием биометрических персональных данных."

Новые источники (обновление февраль 2026)

  1. NVIDIA Research. (2025). "PPISP: Photometric Compensation for Gaussian Splatting." Интегрирован в gsplat. nvidia.com/research.

  2. Franke, L. et al. (2025). "VR-Splatting: Foveated Radiance Field Rendering via 3D Gaussian Splatting and Neural Points." arXiv.

  3. Tencent. (2025). "Hunyuan 3D 3.1 — Multi-View Image-to-3D Generation." GitHub: Tencent-Hunyuan/Hunyuan3D-2.

  4. Meta / Facebook Research. (2026). "ActionMesh: Animated 3D Mesh Generation with Temporal 3D Diffusion." arXiv:2601.16148. GitHub: facebookresearch/actionmesh.

  5. Meshcapade. (2025). "Neural Motion Capture Platform." meshcapade.com.

  6. Black, M. et al. "SMPL: A Skinned Multi-Person Linear Model." Max Planck Institute. Коммерциализация через Meshcapade.

  7. ACE-Step Team. (2026). "ACE-Step 1.5: Open-Source Music Generation Model." MIT License. GitHub: ace-step/ACE-Step-1.5.

  8. OpenAI. (2025-2026). "Sora 2 — Video Generation Model." openai.com/sora.

  9. ByteDance. (2026). "Seedance 2.0 — Multi-Modal Video Generation." seed-x.com.

  10. Google DeepMind. (2025-2026). "Veo 3.1 — 4K Video Generation." deepmind.google/models/veo.

  11. Google DeepMind. (2025-2026). "Genie 3 — Interactive World Generation Model." deepmind.google/blog/genie-3-a-new-frontier-for-world-models.

  12. Arcturus Industries. (2025). "4D Gaussian Splatting for Volumetric Sports Capture." arcturus.studio.

Данные из мониторинга Telegram-каналов (февраль 2026, 30-дневный мониторинг)

  1. @cgevent — публикации об Arcturus, ActionMesh, Hunyuan 3D, Meshcapade, GS в VR.
  2. @GreenNeuralRobots — обсуждение NVIDIA PPISP, VRSplat, технологий GS.
  3. @theworldisnoteasy — анализ Genie 3, Gaussian Splatting как «JPEG 3D-мира».
  4. @svodkaai_ai — обзор ACE-Step 1.5, генеративное аудио.
  5. @aioftheday — ACE-Step, генеративное видео (Sora 2, Seedance, Veo).
  6. @boris_again — анализ генеративного видео и интерактивных миров.

Данные из годового мониторинга Telegram-каналов (март 2025 — март 2026)

  1. Годовой мониторинг 8 Telegram-каналов: @cgevent, @GreenNeuralRobots, @aioftheday, @svodkaai_ai, @alexkrol, @gonzo_ML, @theworldisnoteasy, @boris_again. Период: 365 дней. Всего обработано: 15 482 сообщения, из них 3 393 классифицированы как релевантные по 13 тематическим категориям.
  2. @cgevent (Метаверсище и ИИще) — 941 релевантное сообщение за год: Hunyuan 3D эволюция (PolyGen 1.5, Studio 1.1, World Model, 3.1), Triangle Splatting, Wan 2.x эволюция, генераторы миров (World Labs Marble, Matrix-Game 2.0, StAItial Echo, SEELE), HeyGen Avatar IV, Kling O1, Gracia volumetric.
  3. @GreenNeuralRobots (Нейронавт) — 1 225 релевантных: StableAvatar, VoxHammer, EVA (SIGGRAPH 2025), Depth Anything 3, GS Splines.
  4. @svodkaai_ai (ИИ — svodka.ai) — 454 релевантных: агрегация ключевых событий из множества каналов, структурированные обзоры.
  5. @theworldisnoteasy (Малоизвестное интересное) — 90 релевантных: глубокий анализ VR/AR тактильных технологий, сингулярность Альтмана, Genie 3 как модель мира.
  6. @alexkrol (Квест Теория Каст и Ролей) — 276 релевантных: культурный контекст AI/VR, образовательные перспективы.
  7. @aioftheday (GPT/AI Central А. Горного) — 215 релевантных: Seedance, Suno 4.5, Project Genie обзоры.
  8. @gonzo_ML (gonzo-обзоры ML статей) — 139 релевантных: академический разбор Lyria 2, Veo 3, генераторов миров.
  9. @boris_again (Борис опять) — 53 релевантных: практический анализ применимости AI-инструментов.

Данная глава подготовлена в рамках исследования для проекта VR-экосистемы культурного наследия Санкт-Петербурга. Обновлена в марте 2026 года данными из годового мониторинга профильных Telegram-каналов (15 482 сообщения, 365 дней), веб-источников и 30-дневного мониторинга. Все рекомендации носят аналитический характер и требуют адаптации под конкретные условия реализации.

Technology Agent | Март 2026 | Версия 2.2 (обновлено с данными годового мониторинга Telegram-каналов, N=15 482)


[← Гл.5. Технологический стек](05-tech-stack.md) | [Гл.7. Платформы дистрибуции →](07-distribution.md)