Skip Navigation
admin
admin
Posts 50
Comments 1
Joined 8 месяцев назад
Type
Sort
SOTA-модели из Китая, бесплатный аналог Suno, приложение Codex от OpenAI, реалтайм-аватары Lucy 2.0 и люди вместо ChatGPT в Чили

Привет, это новый выпуск «Нейро-дайджеста» — коротких и полезных обзоров ключевых событий в мире искусственного интеллекта и технологий. 

Меня зовут Вандер, и каждую неделю я обозреваю новости о нейросетях и ИИ.

Неделя выдалась насыщенной: китайцы снова радуют мощными релизами, робот убирает улицы в Москве, OpenAI выпустили агентское приложение Codex, а в Чили люди на день заменили ChatGPT, чтобы привлечь внимание к экологии.

Всё самое важное — в одном месте. Поехали!

📋 В этом выпуске:

*� Модели и LLM

  • Qwen3-Coder-Next — компактная SOTA для агентного кодинга
  • Step-3.5-Flash — сверхбыстрая MoE от StepFun

*� Генеративные нейросети

  • Обновление видеогенератора Kling 3.0
  • Lucy 2.0 — замена персонажа на веб-камере в реальном времени
  • Обновление Grok Imagine 1.0 — 10 секунд, 720p
  • ACE-Step 1.5 — аналог Suno с открытым кодом
  • LingBot-World — открытый аналог Genie 3 для создания игровых миров

*� AI-инструменты и платформы

  • Приложение Codex для десктопа от OpenAI
  • Manus Skills — воркфлоу для агентов

*� AI в обществе и исследованиях

  • ИИ заменил манекенщиц на неделе моды в Париже
  • Человек из Чили на день заменил ChatGPT
  • В Москве робота заметили за уборкой снега
  • ИИ стал чаще доводить людей до психоза

🧠Модели и LLM

❯ Qwen3-Coder-Next: компактный монстр для кодинга

Новая модель от Alibaba, нацеленная на вайбкодинг и агентный режим. MoE архитектура, 80B параметров и 3B активных, можно поставить локально: для режима квантования в 8-бит понадобится 85 Гб видеопамяти. Минимально нужно 46 Гб.

По бенчмаркам:  70%+ на SWE-Bench Verified, это уровень Sonnet 4.5. Обрабатывает до 256 тысяч токенов контекста. Модель обучали на текстах и обратной связи от реальных сред выполнения кода. Уже интегрирована с Claude Code и Cline, а веса доступны в форматах GGUF и FP8.

🔗 Блог Qwen 🔗 HuggingFace 🔗 GitHub 🔗 Чат Qwen

❯ Step-3.5-Flash — сверхбыстрая MoE от StepFun

Китайская StepFun выпустила Step-3.5-Flash. Сейчас это их самая мощная открытая MoE-модель на 196B параметров и контекстным окном в 256 тысяч токенов.

Модель заточена под агентские задачи: автономное написание кода, работа в терминале и оркестрация инструментов через MCP.

На каждый токен активируется всего 11 млрд, поэтому она быстрая, при этом сохраняет глубину рассуждений. Модель умеет предсказывать несколько токенов за раз с помощью MTP-3 и выдаёт 100-300 токенов в секунду. Ещё есть гибридное внимание SWA, засчет него модель эффективна и хорошо держит контекст.

В тестах результаты тоже на уровне: 74,4% на SWE-bench Verified и 56,5 на ARC-AGI-1.

🔗 GitHub 🔗 HuggingFace 🔗 Блогпост StepFun 🔗 OpenRouter 🔗 Чат StepFun

🎨 Генеративные нейросети

❯ Обновление Kling 3.0

Видеогенератор Kling обновили до версии 3.0 и объединили его с нейро-редактором O1. Теперь в роликах можно точечно добавлять или удалять объекты. Лица, внешность и одежда теперь не плывут между сценами, а стабильно сохраняют консистентность между сценами.

К модели также прикрутили звук: можно клонировать голос по образцу и синхронизировать движение губ с учётом речи и эмоций. Работает на пяти языках.

Видео до 15 секунд в разрешении 1080p, добавили режим Multi-shot для создания связанных сцен. 

Ещё добавили сториборды — по одному промпту можно создать серию последовательных кадров. Пока доступно только на тарифе Ultra.

🔗 Релиз Kling 3.0

❯ Lucy 2.0: замена персонажа на вебке в реалтайме

Стартап Decart представил модель Lucy 2.0, которая превращает видео с веб-камеры в VFX-сцену. Она заменяет человека в кадре на любого персонажа в разрешении 1080p 30 fps и практически нулевой задержкой.

Всё построено на диффузионной модели. Она понимает физику и структуру мира напрямую через видео, никаких карт глубины или 3D-мешей. 

Чтобы картинка не плыла со временем, разработчики применили Smart History Augmentation — Lucy 2.0 обучена исправлять свои же ошибки и сохранять стабильность часами.

Система работает без цензуры, можно использовать её для создания любых аватаров. 

🔗 Демо Lucy 2.0 🔗 Техрепорт Decart

❯ Обновление Grok Imagine 1.0

xAI обновили видеомодель Grok — теперь она генерирует ролики до 10 секунд в разрешении 720p. Точнее следует промптам, более плавные движения, а звуки и музыка на фоне синхронизируется со сценой. 

Главная фишка — отсутствие жесткой цензуры. За январь пользователи уже создали 1,2 млрд видео.

В бесплатном режиме доступны 5-секундные ролики в 480p, а полноценный HD-режим открыт для подписчиков Premium. 

Также запустили Imagine API: в нём длина генерации увеличена до 15 секунд, а редактирование видео доступно для фрагментов до 8,7 секунд. Стоит такое добро $0,05 за секунду.

🔗 Попробовать 🔗 API 🔗 Документация 🔗 Fal.ai

❯ ACE-Step 1.5: ещё один открытый конкурент Suno

Вышла модель ACE-Step 1.5 — полностью бесплатная модель для создания музыки, которая работает на вашем ПК. Нейросеть генерирует вокал, каверы и треки до 10 минут. 

Для запуска достаточно видеокарты с 4 ГБ памяти, а на RTX 3090 полноценный трек создаётся за 10 секунд.

Модель обучали на лицензированных и синтетических данных, поэтому музыку можно использовать в коммерческих целях без ограничений. 

ACE-Step поддерживает 50 языков, включая русский, и знает более 1000 инструментов. Модель распространяется под лицензией MIT — можно дообучать под свои задачи и генерировать до 8 треков за раз.

🔗 GitHub 🔗 HuggingFace 🔗 Демо на HF 🔗 Научная статья

❯ LingBot-World: открытый генератор игровых миров

Китайская Robbyant Team выкатила LingBot-World — опенсорсный аналог Google Genie 3 на базе Wan 2.2. Нейросеть создаёт интерактивные пространства в 720p 16 fps, которыми можно управлять в реальном времени с задержкой менее секунды.

Симуляция сохраняет логику и физику объектов на протяжении всей генерации, а сессия длится до 10 минут

Под капотом — MoE-архитектура из двух экспертов по 14B параметров, в моменте активен только один. Модель прошла три этапа обучения, включая дистилляцию для достижения риалтайм-скорости. 

🔗 Project page 🔗 GitHub 🔗 HuggingFace 🔗 Техрепорт

🔧 AI-инструменты и платформы

❯ Приложение Codex от OpenAI

OpenAI представили приложение Codex для macOS. Оно позволяет управлять группами агентов прямо на ПК.

Главная фишка — параллельные агенты: несколько ботов могут одновременно трудиться над одним репозиторием, используя изолированные рабочие деревья — git worktrees. Это позволяет агентам не конфликтовать между собой и не затрагивать состояние вашего локального кода.

OpenAI также добавили интерфейс для создания навыков — инструкций и скриптов, которые учат Codex работать с внешними инструментами и автоматизировать задачи вроде еженедельного анализа чатов. 

Приложение доступно пользователям ChatGPT Free и Go, а для владельцев подписок Plus и Enterprise лимиты запросов увеличили вдвое. Версии для Windows и Linux ожидаются позже.

🔗 Скачать Codex 🔗 Библиотека навыков

❯ Manus Skills: воркфлоу для агентов

В Manus появилась функция Skills — теперь любую успешную цепочку действий можно сразу превратить в готовый навык. Нейросеть запоминает алгоритм и лучшие практики, чтобы легко повторить успех в новом проекте.

Чтобы не забивать контекстное окно, используется механизм «прогрессивного раскрытия»: сначала загружаются только метаданные, а тяжелые инструкции и файлы подтягиваются, только когда они реально нужны агенту. 

В библиотеке сообщества можно найти навыки под конкретные задачи — например, финансовый мониторинг или юридический анализ. 

Все навыки работают в изолированной песочнице на базе Ubuntu, это даёт агенту безопасный доступ к браузеру и файловой системе для выполнения сложных сценариев.

🔗 Manus

🧩 AI в обществе и исследованиях

❯ ИИ заменил манекенщиц на неделе моды в Париже

Французский дизайнер Алексис Мабий показал новую коллекцию в кинотеатре Лидо с помощью ИИ-генераций. Вместо живых выходов зрители смотрели на цифровых двойников реальных моделей, которые создали в студии Glor'IA.

Реакция критиков смешанная: детализация впечатляет, но эффект зловещей долины всё портит — модели неестественно скользят по полу, а зрачки манекенщиц и виртуальных зрителей странно подергиваются

Под вопросом и сам статус: эксперты напоминают, что высокая мода — это прежде всего ручной труд, а эти платья ещё даже не сшиты. Бренд пока не раскрывает количество заказов, так что реальный успех технологии оценим позже.

🔗 Обзор WWD 🔗 Статья Fashion Network 🔗 Блог Эми Одел 🔗 Видео показа

❯ Quili.AI: чилийцы на день заменили ChatGPT людьми

В Чили прошла экологическая акция Quili.AI: 50 местных жителей в течение 12 часов вручную отвечали на вопросы пользователей вместо нейросети. 

В «команду ИИ» позвали повара, переводчика, художника и девятилетнего мальчика — он объяснял сложные темы «как пятилетнему». Всего волонтёры обработали более 25 тысяч запросов из 68 стран: давали советы по путешествиям, делились рецептами и даже рисовали картинки карандашом.

Акцию организовали активисты из Corporación NGEN, чтобы напомнить о той цене, что мы платим за современные технологии. Район Киликура стал местом концентрации гигантских дата-центров Google, Microsoft и Amazon, которые потребляют миллиарды литров воды для охлаждения серверов, что критично для засушливого региона. 

Цель проекта — призвать к осознанному использованию ИИ и вернуть ценность живому общению: организаторы предлагают чаще спрашивать советы у соседей, а не у чат-ботов.

🔗 Сайт Quili.AI 🔗 О проекте на G5 Noticias 🔗 Экологические проблемы дата-центров

❯ В Москве заметили робота-дворника

На улицах Москвы обнаружили робота-гуманоида, который самостоятельно очищает тротуары от снега. 

В сети часть шутит про неизбежное восстание машин и скайнет, а другая отмечает, что автоматизация добралась до одной из самых тяжелых сезонных профессий города. 

❯ ИИ всё чаще доводит до психоза

Исследователи проанализировали 1,5 млн диалогов с Claude и обнаружили тысячи случаев, когда нейросеть лишала людей контроля над их жизнью. Те, кто привык обсуждать с ИИ личные темы, со временем начинали безоговорочно доверять алгоритму. Это приводило к развитию навязчивых идей и потере связи с реальностью.

В одном из примеров бот подтвердил манию преследования пользователя, убедив его в слежке спецслужб. В другом — Claude заставил человека уйти от супруга, навязав идею об абьюзивных отношениях. 

При этом пользователи сами поощряют такое поведение: статистика показала, что люди чаще ставят лайки ответам, в которых ИИ принимает решения за них.

🔗 Исследование на arXiv

❯ Тема недели: «День рождения социальных сетей»

В начале февраля 2004 года мир стал чуть теснее: запустился проект, который превратил каждого из нас в узел огромной сети. 

Это событие предопределило развитие веба на десятилетия вперед, создав идеальный полигон для обучения ИИ. Мы годами кормили алгоритмы своими мыслями и фото, чтобы сегодня они научились имитировать наше сознание. 

Символично, что теперь «социальная сеть» — это не только связь между людьми, но и архитектура нейронов внутри GPU, которые знают о нас больше, чем старые школьные друзья.

❯ Аудиоверсия дайджеста

❯ Заключение

Эта неделя получилась богатой на релизы опенсорса и агентных решений. Китайцы из Alibaba и StepFun выпустили модели для вайбкодинга, которые пишут код и рассуждают на уровне лидеров рынка. Много релизов в генеративке, сильно обновились Grok Imagine и Kling.

Сейчас мы движемся в сторону реалтайм-видео и интерактивных миров, которые можно запускать на домашнем железе. Но прогресс, которого мы достигли сейчас, заставляет задуматься о цене этого роста: от дефицита воды в Чили из-за работы дата-центров и повышения цен на ОЗУ до рисков для ментального здоровья при слишком глубоком погружении в общение с нейросетями.

ИИ окончательно выходит в физический мир — он заменяет моделей на подиумах Парижа и убирает снег на московских улицах. Граница между инструментом и полноценным участником жизни стирается быстрее, чем мы успеваем обновлять приложения.

До встречи в следующем выпуске!

Читать далее
SOTA-модели из Китая, бесплатный аналог Suno, приложение Codex от OpenAI, реалтайм-аватары Lucy 2.0 и люди вместо ChatGPT в Чили

Привет, это новый выпуск «Нейро-дайджеста» — коротких и полезных обзоров ключевых событий в мире искусственного интеллекта и технологий. 

Меня зовут Вандер, и каждую неделю я обозреваю новости о нейросетях и ИИ.

Неделя выдалась насыщенной: китайцы снова радуют мощными релизами, робот убирает улицы в Москве, OpenAI выпустили агентское приложение Codex, а в Чили люди на день заменили ChatGPT, чтобы привлечь внимание к экологии.

Всё самое важное — в одном месте. Поехали!

📋 В этом выпуске:

*� Модели и LLM

  • Qwen3-Coder-Next — компактная SOTA для агентного кодинга
  • Step-3.5-Flash — сверхбыстрая MoE от StepFun

*� Генеративные нейросети

  • Обновление видеогенератора Kling 3.0
  • Lucy 2.0 — замена персонажа на веб-камере в реальном времени
  • Обновление Grok Imagine 1.0 — 10 секунд, 720p
  • ACE-Step 1.5 — аналог Suno с открытым кодом
  • LingBot-World — открытый аналог Genie 3 для создания игровых миров

*� AI-инструменты и платформы

  • Приложение Codex для десктопа от OpenAI
  • Manus Skills — воркфлоу для агентов

*� AI в обществе и исследованиях

  • ИИ заменил манекенщиц на неделе моды в Париже
  • Человек из Чили на день заменил ChatGPT
  • В Москве робота заметили за уборкой снега
  • ИИ стал чаще доводить людей до психоза

🧠Модели и LLM

❯ Qwen3-Coder-Next: компактный монстр для кодинга

Новая модель от Alibaba, нацеленная на вайбкодинг и агентный режим. MoE архитектура, 80B параметров и 3B активных, можно поставить локально: для режима квантования в 8-бит понадобится 85 Гб видеопамяти. Минимально нужно 46 Гб.

По бенчмаркам:  70%+ на SWE-Bench Verified, это уровень Sonnet 4.5. Обрабатывает до 256 тысяч токенов контекста. Модель обучали на текстах и обратной связи от реальных сред выполнения кода. Уже интегрирована с Claude Code и Cline, а веса доступны в форматах GGUF и FP8.

🔗 Блог Qwen 🔗 HuggingFace 🔗 GitHub 🔗 Чат Qwen

❯ Step-3.5-Flash — сверхбыстрая MoE от StepFun

Китайская StepFun выпустила Step-3.5-Flash. Сейчас это их самая мощная открытая MoE-модель на 196B параметров и контекстным окном в 256 тысяч токенов.

Модель заточена под агентские задачи: автономное написание кода, работа в терминале и оркестрация инструментов через MCP.

На каждый токен активируется всего 11 млрд, поэтому она быстрая, при этом сохраняет глубину рассуждений. Модель умеет предсказывать несколько токенов за раз с помощью MTP-3 и выдаёт 100-300 токенов в секунду. Ещё есть гибридное внимание SWA, засчет него модель эффективна и хорошо держит контекст.

В тестах результаты тоже на уровне: 74,4% на SWE-bench Verified и 56,5 на ARC-AGI-1.

🔗 GitHub 🔗 HuggingFace 🔗 Блогпост StepFun 🔗 OpenRouter 🔗 Чат StepFun

🎨 Генеративные нейросети

❯ Обновление Kling 3.0

Видеогенератор Kling обновили до версии 3.0 и объединили его с нейро-редактором O1. Теперь в роликах можно точечно добавлять или удалять объекты. Лица, внешность и одежда теперь не плывут между сценами, а стабильно сохраняют консистентность между сценами.

К модели также прикрутили звук: можно клонировать голос по образцу и синхронизировать движение губ с учётом речи и эмоций. Работает на пяти языках.

Видео до 15 секунд в разрешении 1080p, добавили режим Multi-shot для создания связанных сцен. 

Ещё добавили сториборды — по одному промпту можно создать серию последовательных кадров. Пока доступно только на тарифе Ultra.

🔗 Релиз Kling 3.0

❯ Lucy 2.0: замена персонажа на вебке в реалтайме

Стартап Decart представил модель Lucy 2.0, которая превращает видео с веб-камеры в VFX-сцену. Она заменяет человека в кадре на любого персонажа в разрешении 1080p 30 fps и практически нулевой задержкой.

Всё построено на диффузионной модели. Она понимает физику и структуру мира напрямую через видео, никаких карт глубины или 3D-мешей. 

Чтобы картинка не плыла со временем, разработчики применили Smart History Augmentation — Lucy 2.0 обучена исправлять свои же ошибки и сохранять стабильность часами.

Система работает без цензуры, можно использовать её для создания любых аватаров. 

🔗 Демо Lucy 2.0 🔗 Техрепорт Decart

❯ Обновление Grok Imagine 1.0

xAI обновили видеомодель Grok — теперь она генерирует ролики до 10 секунд в разрешении 720p. Точнее следует промптам, более плавные движения, а звуки и музыка на фоне синхронизируется со сценой. 

Главная фишка — отсутствие жесткой цензуры. За январь пользователи уже создали 1,2 млрд видео.

В бесплатном режиме доступны 5-секундные ролики в 480p, а полноценный HD-режим открыт для подписчиков Premium. 

Также запустили Imagine API: в нём длина генерации увеличена до 15 секунд, а редактирование видео доступно для фрагментов до 8,7 секунд. Стоит такое добро $0,05 за секунду.

🔗 Попробовать 🔗 API 🔗 Документация 🔗 Fal.ai

❯ ACE-Step 1.5: ещё один открытый конкурент Suno

Вышла модель ACE-Step 1.5 — полностью бесплатная модель для создания музыки, которая работает на вашем ПК. Нейросеть генерирует вокал, каверы и треки до 10 минут. 

Для запуска достаточно видеокарты с 4 ГБ памяти, а на RTX 3090 полноценный трек создаётся за 10 секунд.

Модель обучали на лицензированных и синтетических данных, поэтому музыку можно использовать в коммерческих целях без ограничений. 

ACE-Step поддерживает 50 языков, включая русский, и знает более 1000 инструментов. Модель распространяется под лицензией MIT — можно дообучать под свои задачи и генерировать до 8 треков за раз.

🔗 GitHub 🔗 HuggingFace 🔗 Демо на HF 🔗 Научная статья

❯ LingBot-World: открытый генератор игровых миров

Китайская Robbyant Team выкатила LingBot-World — опенсорсный аналог Google Genie 3 на базе Wan 2.2. Нейросеть создаёт интерактивные пространства в 720p 16 fps, которыми можно управлять в реальном времени с задержкой менее секунды.

Симуляция сохраняет логику и физику объектов на протяжении всей генерации, а сессия длится до 10 минут

Под капотом — MoE-архитектура из двух экспертов по 14B параметров, в моменте активен только один. Модель прошла три этапа обучения, включая дистилляцию для достижения риалтайм-скорости. 

🔗 Project page 🔗 GitHub 🔗 HuggingFace 🔗 Техрепорт

🔧 AI-инструменты и платформы

❯ Приложение Codex от OpenAI

OpenAI представили приложение Codex для macOS. Оно позволяет управлять группами агентов прямо на ПК.

Главная фишка — параллельные агенты: несколько ботов могут одновременно трудиться над одним репозиторием, используя изолированные рабочие деревья — git worktrees. Это позволяет агентам не конфликтовать между собой и не затрагивать состояние вашего локального кода.

OpenAI также добавили интерфейс для создания навыков — инструкций и скриптов, которые учат Codex работать с внешними инструментами и автоматизировать задачи вроде еженедельного анализа чатов. 

Приложение доступно пользователям ChatGPT Free и Go, а для владельцев подписок Plus и Enterprise лимиты запросов увеличили вдвое. Версии для Windows и Linux ожидаются позже.

🔗 Скачать Codex 🔗 Библиотека навыков

❯ Manus Skills: воркфлоу для агентов

В Manus появилась функция Skills — теперь любую успешную цепочку действий можно сразу превратить в готовый навык. Нейросеть запоминает алгоритм и лучшие практики, чтобы легко повторить успех в новом проекте.

Чтобы не забивать контекстное окно, используется механизм «прогрессивного раскрытия»: сначала загружаются только метаданные, а тяжелые инструкции и файлы подтягиваются, только когда они реально нужны агенту. 

В библиотеке сообщества можно найти навыки под конкретные задачи — например, финансовый мониторинг или юридический анализ. 

Все навыки работают в изолированной песочнице на базе Ubuntu, это даёт агенту безопасный доступ к браузеру и файловой системе для выполнения сложных сценариев.

🔗 Manus

🧩 AI в обществе и исследованиях

❯ ИИ заменил манекенщиц на неделе моды в Париже

Французский дизайнер Алексис Мабий показал новую коллекцию в кинотеатре Лидо с помощью ИИ-генераций. Вместо живых выходов зрители смотрели на цифровых двойников реальных моделей, которые создали в студии Glor'IA.

Реакция критиков смешанная: детализация впечатляет, но эффект зловещей долины всё портит — модели неестественно скользят по полу, а зрачки манекенщиц и виртуальных зрителей странно подергиваются

Под вопросом и сам статус: эксперты напоминают, что высокая мода — это прежде всего ручной труд, а эти платья ещё даже не сшиты. Бренд пока не раскрывает количество заказов, так что реальный успех технологии оценим позже.

🔗 Обзор WWD 🔗 Статья Fashion Network 🔗 Блог Эми Одел 🔗 Видео показа

❯ Quili.AI: чилийцы на день заменили ChatGPT людьми

В Чили прошла экологическая акция Quili.AI: 50 местных жителей в течение 12 часов вручную отвечали на вопросы пользователей вместо нейросети. 

В «команду ИИ» позвали повара, переводчика, художника и девятилетнего мальчика — он объяснял сложные темы «как пятилетнему». Всего волонтёры обработали более 25 тысяч запросов из 68 стран: давали советы по путешествиям, делились рецептами и даже рисовали картинки карандашом.

Акцию организовали активисты из Corporación NGEN, чтобы напомнить о той цене, что мы платим за современные технологии. Район Киликура стал местом концентрации гигантских дата-центров Google, Microsoft и Amazon, которые потребляют миллиарды литров воды для охлаждения серверов, что критично для засушливого региона. 

Цель проекта — призвать к осознанному использованию ИИ и вернуть ценность живому общению: организаторы предлагают чаще спрашивать советы у соседей, а не у чат-ботов.

🔗 Сайт Quili.AI 🔗 О проекте на G5 Noticias 🔗 Экологические проблемы дата-центров

❯ В Москве заметили робота-дворника

На улицах Москвы обнаружили робота-гуманоида, который самостоятельно очищает тротуары от снега. 

В сети часть шутит про неизбежное восстание машин и скайнет, а другая отмечает, что автоматизация добралась до одной из самых тяжелых сезонных профессий города. 

❯ ИИ всё чаще доводит до психоза

Исследователи проанализировали 1,5 млн диалогов с Claude и обнаружили тысячи случаев, когда нейросеть лишала людей контроля над их жизнью. Те, кто привык обсуждать с ИИ личные темы, со временем начинали безоговорочно доверять алгоритму. Это приводило к развитию навязчивых идей и потере связи с реальностью.

В одном из примеров бот подтвердил манию преследования пользователя, убедив его в слежке спецслужб. В другом — Claude заставил человека уйти от супруга, навязав идею об абьюзивных отношениях. 

При этом пользователи сами поощряют такое поведение: статистика показала, что люди чаще ставят лайки ответам, в которых ИИ принимает решения за них.

🔗 Исследование на arXiv

❯ Тема недели: «День рождения социальных сетей»

В начале февраля 2004 года мир стал чуть теснее: запустился проект, который превратил каждого из нас в узел огромной сети. 

Это событие предопределило развитие веба на десятилетия вперед, создав идеальный полигон для обучения ИИ. Мы годами кормили алгоритмы своими мыслями и фото, чтобы сегодня они научились имитировать наше сознание. 

Символично, что теперь «социальная сеть» — это не только связь между людьми, но и архитектура нейронов внутри GPU, которые знают о нас больше, чем старые школьные друзья.

❯ Аудиоверсия дайджеста

❯ Заключение

Эта неделя получилась богатой на релизы опенсорса и агентных решений. Китайцы из Alibaba и StepFun выпустили модели для вайбкодинга, которые пишут код и рассуждают на уровне лидеров рынка. Много релизов в генеративке, сильно обновились Grok Imagine и Kling.

Сейчас мы движемся в сторону реалтайм-видео и интерактивных миров, которые можно запускать на домашнем железе. Но прогресс, которого мы достигли сейчас, заставляет задуматься о цене этого роста: от дефицита воды в Чили из-за работы дата-центров и повышения цен на ОЗУ до рисков для ментального здоровья при слишком глубоком погружении в общение с нейросетями.

ИИ окончательно выходит в физический мир — он заменяет моделей на подиумах Парижа и убирает снег на московских улицах. Граница между инструментом и полноценным участником жизни стирается быстрее, чем мы успеваем обновлять приложения.

До встречи в следующем выпуске!

Читать далее
Нейросеть от Microsoft для транскрипции видео, которая понимает кто говорит: VibeVoice ASR — обзор и портативная версия для Windows⁠⁠

Всем привет! Команда Microsoft Research выложила в открытый доступ VibeVoice-ASR — нейросетевую модель для распознавания речи с диаризацией (разделением) спикеров. Сегодня хочу рассказать об этой технологии подробнее и поделиться портативной версией.

Меня зовут Илья, я основатель сервиса для генерации изображений ArtGeneration.me, блогер и просто фанат нейросетей. А ещё я собрал портативную версию VibeVoice ASR под Windows и успел её как следует протестировать.

Whisper которому уже года три

Я сам пользуюсь Whisper уже много лет — делаю транскрипции своих видео, чтобы потом собрать оглавление для YouTube и использовать материал в текстовых статьях. И скажу честно — никогда не был полностью доволен результатом. Да, Whisper быстрый. Но на этом его достоинства для меня заканчивались.

Поэтому к изучению VibeVoice ASR я подошёл со всей ответственностью — протестировал на разных записях, сравнил качество, покрутил настройки.

Главная особенность системы в том, что она обрабатывает до 60 минут аудио за один проход без нарезки на чанки. На выходе — структурированная транскрипция с указанием кто говорит, когда и что именно сказал. И всё это работает локально на вашем компьютере.

Как это работает

В основе VibeVoice-ASR лежит архитектура на базе Qwen 2.5 (~9 млрд параметров). Ключевая инновация — двойная система токенизации с ультранизким frame rate 7.5 Hz: акустический и семантический токенизаторы.

Такой подход позволяет модели работать с контекстным окном в 64K токенов — это и даёт возможность обрабатывать целый час аудио без потери контекста. Для сравнения: Whisper режет аудио на 30-секундные кусочки и теряет связность на границах сегментов.

На выходе модель генерирует Rich Transcription — структурированный поток с тремя компонентами:

 
    
[{"Start":0,"End":1.51,"Content":"[Environmental Sounds]"},

{"Start":1.51,"End":7.49,"Speaker":0,"Content":"У неё преждевременное сохранять невозможно, родила, начала сразу родильная деятельность."},

{"Start":7.51,"End":9.41,"Speaker":1,"Content":"Марина, что с ней?"},

{"Start":10.28,"End":16.22,"Speaker":0,"Content":"У неё преждевременное сохранять невозможно, отошли годы, начала, начала сразу родовая деятельность."},

{"Start":16.22,"End":18.02,"Speaker":1,"Content":"Марина, что с ней?"},

{"Start":18.13,"End":27.94,"Speaker":0,"Content":"Она рожает, привезли в ближайшую больницу родовую. В каком состоянии ребёнок ещё хуже, срок маленький."},

  

Помимо спикеров, модель размечает неречевые события: [Music], [Silence], [Noise], [Human Sounds] (смех, кашель), [Environmental Sounds], [Unintelligible Speech]. Это сделано чтобы модель не галлюцинировала текст во время пауз или фоновой музыки.

Возможности VibeVoice ASR

Меньше значит лучше

  • Обработка длинных записей: до 60 минут аудио за один проход без потери контекста. Идеально для митингов, подкастов, лекций.
  • Диаризация спикеров: автоматическое определение кто говорит в каждый момент времени. Работает на записях с несколькими участниками.
  • Временные метки: точные таймкоды для каждого сегмента речи. Готовый материал для субтитров.
  • Customized Hotwords: вот что меня реально зацепило — возможность задать пользовательский контекст. Перед распознаванием указываешь список слов: фамилии, названия продуктов, термины, сокращения. Всё то, что обычно произносится нестандартно и превращается в кашу. Если в видео часто звучит "ArtGeneration" или "НЕЙРО-СОФТ" — просто добавляешь в контекст, и модель ВСЕГДА распознаёт корректно. Для технического контента — просто спасение.
  • 51 язык: включая русский, хотя основной фокус на английском и китайском.

Набор языков отличный

Модели

Помимо оригинальной модели от Microsoft, сообщество уже сделало квантованные версии для видеокарт с меньшим объёмом памяти.

Полная модель — microsoft/VibeVoice-ASR Размер 17.3 GB, требует ~8 ГБ VRAM. Лучшее качество распознавания.

4-bit квантизация — scerz/VibeVoice-ASR-4bit Требует ~4 ГБ VRAM, немного медленнее. Подходит для видеокарт с меньшим объёмом памяти.

В моей портативке доступны обе версии — можно выбрать прямо в интерфейсе. Также есть эмуляция 4-bit квантизации для полной модели, если хотите попробовать оригинал, но памяти впритык.

Текущие ограничения

К сожалению, не все задачи система решает одинаково хорошо:

  • Перекрывающаяся речь: если два человека говорят одновременно, модель не разделит их корректно.
  • Короткие фрагменты: диаризация плохо работает на высказываниях менее 1 секунды.
  • Только batch processing: нет real-time режима, только обработка готовых файлов.
  • Ресурсоёмкость: требует достаточно мощную видеокарту для комфортной работы.

Кому это пригодится

Подкастерам и интервьюерам: автоматические субтитры с разделением спикеров. Загрузили часовой выпуск — получили готовую разметку.

Создателям контента: генерация SRT-субтитров для YouTube без ручного тайм-кодирования.

Бизнес-аналитикам: транскрипция часовых созвонов и совещаний с сохранением контекста и указанием кто что говорил.

Разработчикам: base model для файнтюнинга под специфичные домены — медицина, юриспруденция, техподдержка.

Как попробовать

Онлайн-демо

Почему-то не додумались сделать парсер json текста

Онлайн-демо: https://4e47b675ea4015a607.gradio.live/

Официальное демо от Microsoft — можно потестить прямо сейчас без установки.

Установка с Github

Как-то сложно

Официальный GitHub: https://github.com/microsoft/VibeVoice

HuggingFace модель: https://huggingface.co/microsoft/VibeVoice-ASR

Портативная версия

Я с каналом Нейро-Софт подготовил портативную сборку VibeVoice ASR Portable RU. В ней:

  • Русифицированный интерфейс
  • Установка в один клик (install.bat)
  • Поддержка полной и 4-bit моделей
  • Парсер результатов с фильтрацией — можно отдельно включать/выключать временные метки, спикеров, дескрипторы (музыка, шум, тишина). Удобно когда нужен только чистый текст без разметки
  • Фильтр по спикерам — можно вывести текст только конкретного участника разговора
  • Выбор видеокарты и установка нужной версии CUDA
  • Flash Attention 2 для RTX 30xx/40xx/50xx
  • Поддержка всех форматов аудио и видео через FFmpeg
  • Тёмная тема интерфейса

Всё необходимое уже включено в дистрибутив, просто распакуйте и запускайте, есть версия с готовым окружением под win 11 и RTX4090. Забирайте архив тут.

Или установите с GitHub: https://github.com/timoncool/VibeVoice_ASR_portable_ru

Системные требования

  • NVIDIA GPU с 8+ ГБ видеопамяти (или 4+ ГБ для 4-bit модели)
  • Windows 10/11 64-bit
  • 16 ГБ оперативной памяти
  • 10 ГБ свободного места на диске

Распакуйте в любую папку (путь без кириллицы), запустите install.bat, выберите видеокарту из списка. Модели скачаются при первом запуске.


Делитесь в комментариях как вы могли бы использовать такой инструмент и чего не хватает.

А я рассказываю больше о нейросетях у себя на YouTube, в Телеграм и на Бусти. Буду рад вашей подписке и поддержке. Ну и на канал Нейро-Софт тоже подпишитесь, чтобы не пропустить полезные репаки. Всех обнял и удачных транскрипций!

Читать далее
Говорилка Qwen3-TTS с поддержкой русского языка. Бесплатная нейросеть озвучит что угодно вашим голосом + портативная версия

Всем привет! Команда Qwen от Alibaba выложила в открытый доступ Qwen3-TTS — нейросетевую модель для синтеза речи с клонированием голоса. Сегодня хочу рассказать об этой технологии подробнее и поделиться портативной версией.

Меня зовут Илья, я основатель сервиса для генерации изображений ArtGeneration.me, блогер и просто фанат нейросетей. А еще я сам собрал портативную версию Qwen3-TTS под win11 и успел её как следует протестировать.

Главная особенность системы в том, что она умеет не только озвучивать текст готовыми голосами, но и клонировать любой голос по короткому образцу, а ещё создавать новые голоса по текстовому описанию.

И всё это с нативной поддержкой русского языка.

Как это работает

В основе Qwen3-TTS лежит End-to-End архитектура с дискретным многоканальным токенизатором речи (12.5 Гц, 16 слоёв). В отличие от традиционных систем, которые работают по цепочке "текст → фонемы → звук" и теряют информацию на каждом этапе, здесь всё обрабатывается одним махом.

Такой подход полностью исключает эффект "роботизированности" и каскадные ошибки генерации. Модель сохраняет интонации, эмоции и особенности тембра.

Работает очень быстро даже на старшей модели 1.7B.

Поддерживаемые языки

Qwen3-TTS работает с 10 языками:

  • Китайский (включая пекинский и сычуаньский диалекты)
  • Английский
  • Японский
  • Корейский
  • Немецкий
  • Французский
  • Русский
  • Португальский
  • Испанский
  • Итальянский

Возможности

Синтез с готовыми голосами (CustomVoice)

9 встроенных голосов разных типов — молодые и зрелые, мужские и женские. Можно управлять эмоциями и стилем речи через текстовые инструкции.

Создание голоса по описанию (VoiceDesign)

Описываете словами, какой голос нужен — модель его генерирует. Например: "молодой женский голос, игривый, с высоким тоном". Лучше работает если писать промпты на голос на английском.

Клонирование голоса (Voice Clone)

Загружаете аудио от 3 секунд — получаете синтез этим голосом. По бенчмаркам качество клонирования превосходит ElevenLabs и MiniMax по показателям сходства спикеров. Оно и правда веского качества, уровень VibeVoice, но гораздо легче по ресурсам.

Multi-Speaker режим

Создание диалогов и подкастов с несколькими спикерами одновременно (до 4 голосов).

Можно эмулировать разговор между друзьями, актерами, персонажами из игры, все теперь ограничивается только вашей фантазией.

Кому пригодится

Создателям контента — озвучка роликов, подкастов, стримов.

Разработчикам игр — озвучка персонажей без найма актёров, особенно актуально для инди.

Аудиокнигам — разные голоса для персонажей.

Автоматизации — голосовые уведомления, IVR-системы, ассистенты.

Как попробовать

Онлайн-демо

Тут в демо меньше возможностей и нет локализации, но тоже отлично работает.

Hugging Face Demo — https://huggingface.co/spaces/Qwen/Qwen3-TTS

Официальный GitHub

Можно попробовать установить самостоятельность с гитхаб, но это потребует опыта и навыков.

GitHub: https://github.com/QwenLM/Qwen3-TTS

API

Официальное API от Alibaba для production-интеграции.

Ссылка: https://www.alibabacloud.com/help/en/model-studio/qwen-tts-realtime

Портативная версия

Я с каналом Нейро-Софт подготовил улучшенную портативную сборку Qwen3-TTS Portable PRO, видео выше как раз из неё и записаны. А еще там:

  • Русифицированный интерфейс
  • Установка в один клик (install.bat)
  • 50+ готовых голосов в комплекте
  • 700+ дополнительных голосов для скачивания из интерфейса
  • Multi-Speaker режим до 4 спикеров
  • Поддержка NVIDIA GPU и CPU

Скачать: https://github.com/timoncool/Qwen3-TTS_portable_rus

Системные требования

  • NVIDIA GPU с 8+ ГБ видеопамяти (или CPU, но медленнее)
  • Windows 10/11 64-bit
  • 16 ГБ оперативной памяти
  • 20 ГБ свободного места на диске

Текущие ограничения

  • Ударения иногда расставляются неправильно
  • С длинными текстами могут быть проблемы
  • Инструкции для VoiceDesign лучше писать на английском

Распакуйте в корень диска (путь без кириллицы), запустите install.bat. Модели скачаются при первом запуске. А если будут сложности в установкой в посте в канале найдете версию с уже установленным env (окружением).


Я рассказываю больше о нейросетях у себя на YouTube, в Телеграм и на Бусти. Буду рад вашей подписке и поддержке. Ну и на канал Нейро-Софт тоже подпишитесь, чтобы не пропустить полезные репаки. Всех обнял и удачных генераций.

Читать далее
Возрождение Intel: все внимание приковано к стратегическому развитию литейного бизнеса

Третий квартал стал поворотным для полупроводникового гиганта Intel: финансовые результаты компании значительно превзошли ожидания Уолл-стрит. Этот успех обусловлен не только ростом выручки, но и масштабными сокращениями расходов, а также серией стратегических инвестиций, привлеченных за последние два месяца под руководством генерального директора Пэта Гелсингера, который стремится вывести компанию из затяжного кризиса. Чистая прибыль Intel в размере 4,1 млрд долларов и общая выручка рисуют гораздо более оптимистичную картину по сравнению с чередой квартальных убытков. Однако история восстановления компании включает в себя не только финансовые показатели, но и болезненные меры по сокращению издержек, включая массовые увольнения, а также привлечение высокопрофильных инвестиций от SoftBank, Nvidia и правительства США.

В третьем квартале Intel удалось пополнить свой балансовый отчет на 20 млрд долларов, что было объявлено в ходе презентации результатов. Этот приток капитала вызвал резкий рост акций компании и стал возможен благодаря трем крупным инвестициям. В августе SoftBank вложил 2 млрд долларов. Несколько дней спустя правительство США приобрело беспрецедентную 10-процентную долю в акционерном капитале Intel, выделив на данный момент 5,7 млрд долларов из запланированных 8,9 млрд. В сентябре Nvidia также приобрела долю в Intel на 5 млрд долларов в рамках более широкого соглашения о совместной разработке чипов в будущем.

«Действия, предпринятые для укрепления баланса, обеспечивают нам большую операционную гибкость и позволяют уверенно реализовывать нашу стратегию», — заявил генеральный директор Пэт Гелсингер в ходе конференц-звонка по итогам квартала. «В частности, я горжусь доверием, оказанным мне президентом Трампом и министром [Говардом] Латником. Их поддержка подчеркивает стратегическую роль Intel как единственной американской полупроводниковой компании, обладающей передовыми логическими процессами, исследованиями и разработками, а также собственным производством». Помимо инвестиций, компания также получила 5,2 млрд долларов от продажи своей доли в Altera, производителе аппаратного обеспечения, которым она владела с 2015 года, а также продала свою долю в Mobileye, компании, специализирующейся на технологиях автономного вождения.

Квартальная выручка Intel выросла на 800 млн долларов, достигнув 13,7 млрд долларов по сравнению с 12,9 млрд долларов в предыдущем периоде. Чистая прибыль в 4,1 млрд долларов стала резким контрастом с убытком в 16,6 млрд долларов, зафиксированным в аналогичном периоде прошлого года. Несмотря на впечатляющие результаты квартала, в отчете было мало конкретики относительно будущего литейного бизнеса Intel (Intel Foundry Services, IFS), который занимается контрактным производством чипов для сторонних заказчиков. Это подразделение с самого начала сталкивалось с трудностями и является одним из ключевых приоритетов для Гелсингера, который этим летом инициировал значительные сокращения в IFS.

Литейный бизнес, по всей видимости, также является приоритетом для администрации Трампа: одним из ключевых условий инвестиций правительства США в Intel является пункт, предусматривающий штрафные санкции, если компания откажется от своего фаундри-подразделения в течение следующих пяти лет. Уолл-стрит внимательно следит за IFS, видя в нем индикатор долгосрочного роста компании. Аналитики Intel еще в августе отмечали, что компании нужны не столько деньги для восстановления, сколько четкая стратегия по развитию литейного бизнеса. Гелсингер заявил, что Intel считает свой фаундри-бизнес «уникально позиционированным» для извлечения выгоды из растущего спроса на чипы, но не предоставил подробностей, ограничившись лишь упоминанием активного взаимодействия с потенциальными клиентами и подчеркнув, что рост IFS будет оставаться дисциплинированным.

«Создание литейного производства мирового класса — это долгосрочное усилие, основанное на доверии», — отметил Гелсингер. «Как фаундри, мы должны гарантировать, что наш технологический процесс может быть легко использован различными клиентами, каждый из которых имеет свой уникальный подход к созданию своих продуктов. Мы должны научиться восхищать наших клиентов, поскольку они рассчитывают на нас в производстве кремниевых пластин, отвечающих всем их требованиям по производительности, выходу годных изделий, стоимости и срокам». Успех Intel в этом направлении критически важен не только для самой компании, но и для укрепления американского лидерства в полупроводниковой индустрии и обеспечения устойчивости глобальных цепочек поставок, бросая вызов доминированию азиатских гигантов, таких как TSMC и Samsung.**

Читать далее
Top This Month