Корпорацией BYD представлен Leopard Titanium 7 Flash Charge Edition - предварительная цена 220.000 – 250.000 юаней в Китае, а максимальный запас хода составляет 755 км.
Компания Li Auto выпустила базовую модель автономного вождения нового поколения MindVLA-o1
Чжан Кунь, руководитель группы разработки компании Li Auto, принял участие в конференции NVIDIA GTC 2026 и выступил с программной речью на тему «MindVLA-o1.Открытие всесторонней парадигмы — исследование унифицированной модели автономного вождения нового поколения, включающей зрение, язык и действия», представив базовую модель автономного вождения нового поколения MindVLA-o1.
MindVLA-o1, благодаря пяти основным технологическим инновациям, создает базовую модель интеллектуального автономного вождения, ориентированную на физический мир, позволяя автономному вождению видеть дальше, мыслить глубже, двигаться более стабильно, развиваться быстрее и внедрять более эффективные решения.
Чжан Кун заявил:
«Когда мы объединяем зрение, язык и действия в одну модель, это уже не просто модель автономного вождения, а постепенно развивается в универсального интеллектуального агента, ориентированного на физический мир. На основе той же модели VLA он может не только управлять транспортными средствами, но и роботами.
Поэтому автономное вождение — это лишь отправная точка физического ИИ.
В будущем такие фундаментальные модели определят новую парадигму воплощенного интеллекта».
С момента запуска собственной системы помощи водителю в 2021 году технология помощи водителю Li Auto претерпела множество ключевых итераций.
Непрерывные технологические исследования и инженерная практика позволили Li Auto накопить значительный потенциал фундаментальных исследований и научно-исследовательских разработок в области интегрированной разработки программного и аппаратного обеспечения.

Фото: Источник: Li-Auto
2024 год стал важным поворотным моментом для системы помощи водителю Li Auto. Благодаря массовому производству и поставке комплексной архитектуры, включающей в себя сквозную систему и VLM (визуальную языковую модель), системы помощи водителю впервые достигли по-настоящему единого понимания различных сценариев и задач.
В 2025 году компания Li Auto еще больше объединила пространственное понимание, понимание языка и принятие решений в единую модель, создав большую модель водителя на основе VLA, использующую три основных технологических стека: VLA, модель мира и обучение с подкреплением. Эта модель была официально запущена с поставкой Li i8 в августе 2025 и полностью внедрена для пользователей AD Max в сентябре.
К концу 2025 года ежемесячный уровень использования большой модели на основе VLA достиг 80%, а суммарное количество использований команд VLA составило 12,254 миллиона.
Пять основных технологических инноваций MindVLA-o1:
Видеть дальше, думать глубже, управлять более стабильно, развиваться быстрее, внедрять более эффективно.Компания Li Auto предлагает свою унифицированную архитектуру следующего поколения — MindVLA-o1.
Эта архитектура, основанная на собственном многомодальном MoE Transformer, создает базовую модель интеллектуального автономного вождения, посредством пяти основных технологических инноваций:
трехмерное пространственное понимание, многомодальное мышление унифицированное генерирование поведения, замкнутое обучение с подкреплением (RL) и совместное проектирование аппаратного и программного обеспечения.
На уровне восприятия Li Auto использует ориентированный на зрение 3D ViT-кодировщик (кодировщик 3D-визуальной модели) и применяет LiDAR в качестве 3D-геометрических ориентиров для управления моделью в понимании реальной пространственной структуры, что позволяет ей одновременно обладать возможностями семантического понимания и 3D-восприятия в рамках единого представления.
Одновременно вводится прямое 3D-представление, разделяющее сцену на статическую среду и динамические объекты для отдельного моделирования.
Прогнозирование следующего состояния используется в качестве сигнала самообучения, позволяя модели одновременно изучать информацию о глубине, семантическую структуру и движение объектов, в конечном итоге формируя высококачественное 3D-представление, интегрирующее пространственную структуру и временной контекст. Это обеспечивает возможности 3D-пространственного понимания, позволяя модели видеть дальше.

Фото: Источник: Li-Auto
На когнитивном уровне автономное вождение требует понимания как текущей обстановки, так и прогнозирования развития сценария в ближайшие несколько секунд.
Основываясь на языковых моделях, обрабатывающих семантическое понимание, знания здравого смысла и возможности взаимодействия, компания Li Auto представила прогностическую модель скрытого мира для эффективного моделирования будущего в скрытом пространстве.
Обучение разделено на три этапа:
1. Токены скрытого мира предварительно обучаются с использованием больших объемов видеоданных для построения представлений о будущем;
2. Модель мира непрерывно декодируется в MindVLA-o1 для формирования возможностей рассуждения о будущем в скрытом пространстве.
3. Модель мира, возможности мультимодального рассуждения и поведение водителя совместно обучаются и согласовываются. Таким образом, модель может не только понимать текущую обстановку и выносить логические суждения, но и «представлять» будущие сценарии заранее в скрытом пространстве, конкретизируя решения о вождении. Li Auto определяет эту способность как генеративное мультимодальное мышление. Наличие возможностей мультимодального мышления позволяет модели мыслить глубже.
На поведенческом уровне Li Auto разработала механизм унифицированной генерации действий.
1. MindVLA-o1 использует архитектуру VLA-MoE (гибридная экспертная модель) и включает в себя выделенного эксперта по действиям для извлечения информации из многомерных входных данных, таких как особенности 3D-сцены, навигационные цели и команды управления движением, объединяя мультимодальное мышление для генерации высокоточных траекторий движения. 2. Для соответствия требованиям реального времени система использует параллельное декодирование для одновременной генерации всех точек траектории, что значительно повышает эффективность.
3. Для итеративной оптимизации, аналогичной прогрессивному шумоподавлению, используется дискретная диффузия, обеспечивающая пространственную непрерывность и временную стабильность траектории, при этом соблюдая ограничения динамики транспортного средства. Это формирует единый механизм генерации поведения, делая модель более стабильной.

Фото: Источник: Li-Auto
На уровне итераций модели компания Li Auto разработала замкнутую систему обучения с подкреплением, позволяющую модели обучаться не только на реальных данных, но и непрерывно исследовать и оптимизировать стратегии в симуляторе мира. С этой целью компания Li Auto модернизировала традиционную реконструкцию с помощью прогрессивной оптимизации, перейдя к реконструкции сцены с прямой связью, что позволило системе мгновенно генерировать крупномасштабные, высокоточные сценарии вождения и поддерживать крупномасштабное параллельное обучение.
Одновременно, за счет объединения генеративных моделей, среду моделирования можно расширять, редактировать и использовать для генерации совершенно новых сцен.
Для поддержки крупномасштабного моделирования и обучения компания Li Auto разработала унифицированный 3D-движок рендеринга Gaussian Splatting и распределенную структуру обучения, что позволило увеличить скорость рендеринга почти в 2 раза и снизить общие затраты на обучение примерно на 75%, достигнув низкозатратного и высокоэффективного замкнутого цикла обучения с подкреплением.
В рамках этой замкнутой системы обучения с подкреплением модели развиваются быстрее.

Фото: Источник: Li-Auto
Для решения проблем длительного времени развертывания и частой отладки, связанных с традиционными крупномасштабными моделями периферийных устройств, компания Li Auto предложила принцип совместной разработки аппаратного и программного обеспечения для крупномасштабных моделей периферийных устройств.
Этот принцип моделирует структуру модели и потери при валидации, а также объединяет модель Roofline для характеристики вычислительной мощности оборудования и ограничений пропускной способности памяти, создавая единую аналитическую структуру между производительностью модели и аппаратными ограничениями.
Команда разработчиков базовой модели Li Auto оценила почти 2000 конфигураций архитектуры модели, проверила их на платформах NVIDIA Orin и Thor и определила фронт Парето между точностью модели и задержкой вывода.

Фото: Источник: Li-Auto
Это сократило время исследования архитектуры с месяцев до дней, значительно повысив эффективность проектирования и развертывания моделей VLA на периферии сети.
Благодаря принципу совместного проектирования аппаратного и программного обеспечения развертывание модели становится более эффективным.
Автономное вождение — это только начало.
Создание «цифрового мозга» для воплощенного интеллекта.MindVLA-o1 — важнейший компонент основной платформы ИИ Li Auto для интеллекта в физическом мире.
Эта платформа ИИ состоит из четырех основных модулей: MindData, унифицированного механизма обработки данных VLA, отвечающего за крупномасштабный сбор, очистку и автоматическую разметку данных.
MindVLA-o1, унифицированной собственной мультимодальной модели VLA, способной понимать окружающую среду, выполнять рассуждения и генерировать модели поведения водителя.
MindSim, управляемой мультимодальной модели мира, используемой для генерации сложных сценариев вождения и поддержки крупномасштабного обучения с замкнутым циклом, и RL Infra (инфраструктура обучения с подкреплением), которая позволяет системе саморазвиваться в смоделированных и реальных условиях с помощью моделей вознаграждения и обучения политике.
Эти четыре части работают вместе, образуя полный замкнутый цикл, позволяющий ИИ воспринимать, понимать и действовать автономно в физическом мире и непрерывно обучаться.
Структурно эта система напоминает «цифровой мозг»: слой восприятия соответствует зрительной коре, рассуждения и планирования — префронтальной коре, генерация сцен — моторной коре, а обучение с подкреплением — дофаминовой обратной связи, обеспечивая полный замкнутый цикл восприятия, понимания, действия и непрерывной оптимизации.
Эта структура подходит не только для автомобилей, но и может быть расширена на роботов и различные физические системы.
Для компании Li Auto автомобиль — это самый большой из возможных роботов, по сути, создающий тело и мозг кремниевой формы жизни.

Фото: Источник: Li-Auto
Постоянно развивая технологические инновации, компания Li Auto опубликовала множество результатов исследований на ведущих академических конференциях и в журналах в области искусственного интеллекта.
Несколько статей, посвященных MindVLA-o1, были опубликованы на ведущих международных конференциях, таких как CVPR, ICLR, ICRA и AAAI.

Фото: Источник: Li-Auto
В будущем компания Li Auto продолжит ориентироваться на ценность для пользователя, инвестируя в передовые исследования и собственные базовые технологии, постоянно создавая комплексную систему искусственного интеллекта для работы в физическом мире и уверенно двигаясь к тому, чтобы стать ведущим мировым предприятием в области воплощенного интеллекта.
Источник: Li-Auto
