DeepSeek-V3

DeepSeek-V3 — это революционная открытая модель искусственного интеллекта от китайской компании DeepSeek, которая меняет представление о соотношении цены и качества в мире ИИ. Это универсальная рабочая лошадка с 671 миллиардом параметров, способная конкурировать с лучшими закрытыми моделями при стоимости обучения всего $5.6 миллионов.

Главная особенность DeepSeek-V3 — инновационная архитектура Mixture-of-Experts (MoE), которая активирует только 37 миллиардов параметров на каждый токен, обеспечивая эффективность без потери производительности. Модель использует Multi-head Latent Attention (MLA) и DeepSeekMoE архитектуры с пионерской стратегией балансировки нагрузки без вспомогательных потерь.

Технически модель демонстрирует выдающиеся результаты: 88.5% на MMLU, 75.9% на MMLU-Pro и 59.1% на GPQA, превосходя многие закрытые модели. В программировании модель показывает 82.6% на HumanEval, опережая GPT-4o и Claude 3.5 Sonnet.

Модель обучена на 14.8 триллионах токенов всего за 2.664 миллиона часов GPU H800 с поддержкой контекстного окна в 128K токенов. Стоимость API составляет $0.14 за миллион входных токенов. Идеальна для разработки, исследований, создания ИИ-агентов и коммерческого использования благодаря открытому исходному коду и исключительной эффективности.

DeepSeek-V3

Описание