Рейтинг AI недели — 31 мая – 7 июня 2026

Топ-5 AI-моделей недели

#1 Claude Opus 4.8 →

На этой неделе обсуждали обновление SWE-rebench, в котором Claude Opus 4.8 сравнивался с другими моделями, включая GPT-5.5. Результаты показали, что GPT-5.5 medium более эффективен, чем Claude Opus 4.8 high, несмотря на улучшение стоимости решения задач у последнего.

Claude Opus 4.8 — это модель, которая улучшила стоимость решения задач, но не показала значительного прироста качества по сравнению с предыдущими версиями.

Claude Opus 4.8 Claude Opus 4.8 Max responding to an empty message Claude Opus 4.8 distilled Alibaba Qwen models SWE-rebench

#2 GPT-5.5 NEW

Обсуждение SWE-rebench показало, что GPT-5.5 medium превосходит Claude Opus 4.8 high по эффективности. Это сравнение стало важным для оценки производительности современных coding-агентов.

GPT-5.5 — это новая модель от OpenAI, которая демонстрирует высокую эффективность на длинных контекстах, хотя не всегда достигает лучших результатов.

HWE Bench: A new unbounded Benchmark for LLMs (GPT 5.5 is on top) GitHub Copilot charges GPT 5.5 with a 57x multiplier per request from June first DeepSWE: More and cheaper intelligence from maxed GPT 5.5 than maxed Opus 4.8 Codex for Every Role

#3 Qwen 2-VL NEW

На этой неделе исследователи представили метод VL-DAC, который продемонстрировал успешный перенос навыков из симуляторов в реальные задачи с использованием Qwen 2-VL. Это открывает новые возможности для обучения визуально-языковых моделей.

Qwen 2-VL — это визуально-языковая модель, которая показала значительное улучшение в интерактивной среде благодаря использованию симуляторов.

#4 Gemma 4 12B NEW

Google на этой неделе выпустила Gemma 4 12B, мультимодальную модель, способную обрабатывать текст, изображения и аудио. Это обновление привлекло внимание благодаря своей способности работать на стандартных устройствах с 16 ГБ ОЗУ.

Gemma 4 12B — это модель, которая не требует отдельных энкодеров для обработки различных типов данных, что делает её более универсальной.

Gemma 4 12B: A unified, encoder-free multimodal model A Visual Guide to Gemma 4 12B Google's new Gemma 4 12B model is designed to run on any laptop with 16GB of RAM Gemma 4 collection on Hugging Face

#5 MiniMax M3 NEW

На этой неделе MiniMax M3 привлек внимание как сильная агентная модель, продемонстрировавшая возможности в веб-серфинге и оптимизации CUDA-ядра. Это подчеркивает растущий интерес к мультимодальным и агентным моделям.

MiniMax M3 — это первая модель с открытыми весами, которая сочетает три передовые возможности, что делает её уникальной на рынке.

Minimax M3 MiniMax M3: The First Open-Weights Model to Combine Three Frontier Capabilities MiniMax teased M3 Sparse Attention: 9.7x prefilling, 15.6x decoding at 1M Qwen3.7-Plus Blog

Топ-5 AI-инструментов недели

#1 Claude Code →

На этой неделе обсуждали использование Claude Code в связке с Codex для архитектуры и реализации задач. Сравнения показали, что Claude Code лучше справляется с фронтендом и дизайном, в то время как Codex удобнее для работы со средой.

Claude Code — это инструмент, который позволяет разработчикам эффективно реализовывать задачи, разбивая их на мелкие блоки для лучшего управления.

Using Claude Code: The unreasonable effectiveness of HTML Microsoft starts canceling Claude Code licenses Claude Code as a Daily Driver: Claude.md, Skills, Subagents, Plugins, and MCPs Claude Code

#2 ChatGPT NEW

OpenAI представила механизм Dreaming для памяти ChatGPT, который позволяет синтезировать и обновлять факты из истории чатов. Это обновление значительно улучшает персонализацию и взаимодействие с пользователями.

Dreaming позволяет ChatGPT не только хранить факты, но и синтезировать актуальное состояние пользователя, что повышает его полезность.

A recent experience with ChatGPT 5.5 Pro Codex is now in the ChatGPT mobile app OpenAI and Government of Malta partner to roll out ChatGPT Plus to all citizens ChatGPT Memory: Dreaming

#3 Recursive self-improvement NEW

Anthropic на этой неделе представила концепцию recursive self-improvement для Claude, где модель уже генерирует код для следующей версии. Это подчеркивает важность автоматизации в разработке AI.

Recursive self-improvement — это подход, который позволяет моделям улучшать себя, что может привести к значительным прорывам в производительности.

When AI Builds Itself: Our progress toward recursive self-improvement Sakana AI's Recursive Self-Improvement (RSI) Lab Recursive Self-Improvement Delivers New SOTA Coding Performance

#4 SWE-rebench обновили NEW

Обновление SWE-rebench на этой неделе добавило 110 новых задач и сравнение coding-агентов, что сделало результаты более актуальными для реального использования. Это обновление стало важным для оценки производительности моделей.

SWE-rebench — это инструмент для оценки производительности AI-моделей в задачах программирования, который теперь включает более разнообразные сценарии.

SWE-rebench

#5 ChatGPT Memory NEW

Обсуждение механизма Dreaming для памяти ChatGPT на этой неделе показало, как система может синтезировать и обновлять информацию о пользователе. Это делает взаимодействие более персонализированным.

Механизм Dreaming позволяет ChatGPT более эффективно управлять памятью, что улучшает качество взаимодействия с пользователями.

Dreaming: Better memory for a more helpful ChatGPT ChatGPT warns it may forget long conversations, I save context outside the chat Ask HN: Why do none of the major AI agents persist memory across sessions? ChatGPT Memory: Dreaming

Каждый день получайте такие сигналы в Telegram →