Рейтинг AI недели — 24–31 мая 2026
Топ-5 AI-моделей недели
На этой неделе Anthropic анонсировала Claude Opus 4.8, которая улучшает качество агентной разработки, позволяя лучше справляться с длинными задачами и находить собственные ошибки. Модель также предлагает управляемую глубину рассуждений и удешевляет fast mode.
Claude Opus 4.8 включает в себя улучшения, которые делают её более эффективной для команд, не увеличивая базовую цену.
Alibaba представила Qwen-VLA, основанную на Qwen 3.5-4B, которая позволяет управлять различными роботами без необходимости их перенастройки. Это важный шаг в направлении универсальных систем робототехники.
Qwen-VLA включает в себя action decoder на 1.15B параметров и демонстрирует высокие результаты на различных задачах, таких как манипуляция и навигация.
PrismML выпустила Bonsai Image 4B, которая позволяет генерацию изображений на мобильных устройствах и в браузере. Это делает локальную генерацию изображений более доступной и практичной.
Bonsai Image 4B использует 1-битную квантизацию и занимает около 930 MB, что позволяет эффективно работать на устройствах с ограниченными ресурсами.
Яндекс представил Alice AI LLM Flash, ориентированную на B2B-сценарии, что вызвало интерес в сообществе. Однако первые отзывы были сдержанными, отмечая, что модель уступает основной Alice AI LLM.
Alice AI LLM Flash предназначена для задач модерации, поддержки и работы с документами, предлагая более низкую стоимость.
NousResearch выпустила Qwopus3.5-9B-Coder-GGUF, которая предназначена для tool-calling и agent coding. Модель демонстрирует хорошие результаты на различных задачах, что позволяет использовать её в более дешёвых сценариях.
Qwopus3.5-9B-Coder-GGUF имеет 9B параметров и демонстрирует высокую эффективность в задачах SWE-bench.
Топ-5 AI-инструментов недели
На этой неделе в Claude Code обсуждали новые возможности, такие как детерминированные сценарии и динамические workflows. Это привело к сравнению с агентными паттернами и выявлению предпочтений команд к предсказуемости.
Claude Code теперь включает в себя систему Security Guidance для автоматической проверки уязвимостей, что снижает количество замечаний по безопасности.
В Claude Code были представлены динамические workflows, которые позволяют агенту строить план и распараллеливать задачи. Это улучшает процесс оркестрации и делает его более эффективным.
Динамические workflows переводят Claude Code в более полноценную схему оркестрации для длительных инженерных процессов.
DeepSWE представил новый бенчмарк для оценки агентов, что вызвало обсуждение его значимости и точности. Это подчеркивает важность верификации и реальных ошибок интеграции.
Бенчмарк DeepSWE лучше ловит реальные ошибки интеграции, чем более легкие SWE-подобные наборы.
Liquid AI выпустила новую модель LFM2.5-8B-A1B, что привлекло внимание к возможностям локального запуска на различных устройствах. Это подчеркивает тренд на более легкие и эффективные модели.
Модель LFM2.5-8B-A1B имеет 8B параметров и 1.5B активных, что позволяет её использовать на устройствах с ограниченными ресурсами.
Liquid AI также представила LFM2.5-8B-A1B, что подчеркивает их фокус на локальном запуске и доступности для разработчиков. Это соответствует текущим трендам в области AI.
Модель позволяет дообучение под узкие задачи на одной GPU, что делает её удобной для разработчиков.