Рейтинг AI недели — 10–17 мая 2026

Топ-5 AI-моделей недели

#1 Claude Mythos Preview ↑1

На этой неделе Claude Mythos Preview активно обсуждали в контексте его применения для поиска уязвимостей в macOS и разработки эксплойтов. Также был представлен проект Glasswing от Anthropic, который использует Mythos для сканирования инфраструктуры на уязвимости.

Claude Mythos Preview продемонстрировал высокую эффективность в нахождении уязвимостей, обойдя GPT-5.5 в оценках offensive-security. Он также показал значительное улучшение в многошаговых атаках по сравнению с предыдущими версиями.

Hardening Firefox with Claude Mythos Preview Behind the Scenes Hardening Firefox with Claude Mythos Preview Automating code security review: Mythos-level capabilities at lower cost Anthropic Mythos and Apple macOS bug report

#2 Claude Opus 4.6 ↑3

Claude Opus 4.6 обсуждали в контексте его сравнительных результатов с Mythos и GPT-5.5 на бенчмарках. Обсуждение также затронуло его недостатки в задачах программирования по сравнению с новыми моделями.

На бенчмарках Claude Opus 4.6 показал 83% нахождения уязвимостей, что ниже, чем у Mythos и GPT-5.5. Это подтверждает сдвиг в предпочтениях пользователей в сторону более новых моделей для кодогенерации.

Changes in the system prompt between Claude Opus 4.6 and 4.7 GitHub Copilot Pro+ not allowing Claude Opus 4.6 XBOW evaluation of Mythos AISI evaluation of GPT-5.5 cyber capabilities

#3 GPT-5.5 NEW

GPT-5.5 на этой неделе привлек внимание благодаря своим достижениям на бенчмарках, включая полное решение задачи cmatrix. Это стало важным сигналом о его способности к агентному программированию.

GPT-5.5 впервые полностью закрыл задачу бенчмарка, что подчеркивает его эффективность в реальных сценариях программирования. Он также показал лучшие результаты по сравнению с Claude Opus 4.7.

GPT-5.5 Kimi K2.6 just beat Claude, GPT-5.5, and Gemini in a coding challenge OpenAI releases GPT-5.5 and GPT-5.5 Pro in the API ProgramBench — GPT 5.5 first solve

#4 Claude Opus 4.7 ↓3

Claude Opus 4.7 обсуждали в контексте его сравнительных результатов с GPT-5.5, где он показал худшие результаты на задачах программирования. Это вызвало вопросы о его актуальности для кодогенерации.

На бенчмарках Claude Opus 4.7 показал низкие результаты по сравнению с GPT-5.5, что подтверждает тенденцию к выбору более новых моделей для задач программирования.

Claude Opus 4.7 Intelligence, Performance and Price Analysis Tell HN: Claude Opus 4.7 quota suddenly changed to 0 TPM in Bedrock GPT-5.5 first solve on ProgramBench

#5 Llama 3.1 NEW

Llama 3.1 обсуждали на этой неделе в контексте создания персональных клонов, что демонстрирует его гибкость и возможности в кастомизации. Это подчеркивает растущий интерес к персонализированным AI-решениям.

Llama 3.1 позволяет создавать персонализированные модели, обученные на индивидуальных данных, что открывает новые возможности для пользователей.

Tracing tokens through Llama 3.1 8B inference on H100s Show HN: GlycemicGPT – Open-source AI-powered diabetes management Tomás‑7B — personal clone example

Топ-5 AI-инструментов недели

#1 Claude Code →

Claude Code активно обсуждали на этой неделе в контексте его применения для агентной разработки и рефакторинга кода. Участники делились успешными примерами использования Claude Code для сложных задач.

Claude Code продемонстрировал высокую эффективность в сложных расчетах и аналитике, а также получил обновления, увеличивающие его лимиты и возможности управления агентами.

Claude Code refuses requests or charges extra if your commits mention "OpenClaw" An update on recent Claude Code quality reports Claude Code to be removed from Anthropic's Pro plan? agents-best-practices

#2 Codex ↑2

Codex обсуждали в контексте новых функций, включая мобильное управление и удаленный доступ, что значительно расширяет его функциональность. Это делает Codex более доступным для пользователей.

Codex теперь доступен через мобильное приложение ChatGPT, что позволяет пользователям управлять агентами и задачами из любого места.

Codex is now in the ChatGPT mobile app A Claude Code and Codex Skill for Deliberate Skill Development Show HN: Ctx – a /resume that works across Claude Code and Codex Work with Codex from anywhere

#3 OpenClaw workflow thread NEW

OpenClaw обсуждали в контексте его масштабируемости и применения сотен агентов для автоматизации разработки. Это привлекло внимание к экономике использования таких систем.

OpenClaw продемонстрировал возможность автоматизации инженерного процесса с высокими расходами на токены, что подчеркивает его сложность и стоимость.

OpenClaw workflow thread

#4 Bun PR NEW

Bun обсуждали в контексте его рефакторинга с Zig на Rust с помощью Claude Code, что стало примером успешного применения агентного программирования в реальных проектах.

Переход на Rust занял около 10 дней и достиг ~99.8% прохождения тестов, что демонстрирует эффективность использования Claude Code в инфраструктурных изменениях.

Analysis of changes in the Bun codebase after the rewrite from Zig to Rust Bun PR: Rust reimplementation

#5 AISI NEW

AISI обсуждали в контексте проекта Glasswing от Anthropic, который использует Claude Mythos для поиска уязвимостей. Это вызвало интерес к вопросам доступа к таким моделям.

Проект Glasswing предоставляет организациям инструменты для сканирования инфраструктуры на уязвимости с координированным раскрытием находок.

Project Glasswing / Mythos Preview AISI: How fast is autonomous AI cyber capability advancing?

Каждый день получайте такие сигналы в Telegram →