Развитие разработки Android-приложений с использованием ИИ и совершенствование учебных планов с помощью Android Bench

Мы хотим сделать разработку высококачественных Android-приложений быстрее и проще, и один из способов повышения вашей производительности — это предоставление вам доступа к искусственному интеллекту. Мы знаем, что вам нужен ИИ, который действительно понимает нюансы платформы Android, поэтому мы измеряем, как студенты магистратуры с высшим образованием справляются с задачами разработки Android-приложений. Сегодня мы выпустили первую версию Android Bench — нашего официального рейтинга студентов магистратуры с высшим образованием в области разработки Android-приложений.

Наша цель — предоставить создателям моделей эталон для оценки возможностей LLM в разработке под Android. Установив четкую и надежную базовую модель того, как выглядит высококачественная разработка под Android, мы помогаем создателям моделей выявлять пробелы и ускорять улучшения, что позволяет разработчикам более эффективно работать с более широким спектром полезных моделей для помощи ИИ, и в конечном итоге приведет к повышению качества приложений во всей экосистеме Android.

Разработано с учетом реальных задач разработки под Android.

Мы создали этот эталон, подобрав набор задач, охватывающих ряд распространенных областей разработки Android. Он состоит из реальных задач различной сложности, взятых из общедоступных репозиториев Android на GitHub. Сценарии включают в себя устранение критических изменений в разных версиях Android, задачи, специфичные для предметной области, такие как работа с сетью на носимых устройствах, и миграцию на последнюю версию Jetpack Compose, и это лишь некоторые из них.

В ходе каждой оценки предпринимается попытка заставить модель LLM исправить проблему, указанную в задании, после чего мы проверяем результат с помощью модульных или инструментальных тестов. Такой подход, не зависящий от конкретной модели, позволяет нам оценить способность модели ориентироваться в сложных кодовых базах, понимать зависимости и решать проблемы, с которыми вы сталкиваетесь каждый день.

Мы подтвердили эффективность этой методологии на примере нескольких производителей программного обеспечения для обучения менеджменту, включая JetBrains.

« Оценка влияния ИИ на Android — это огромная проблема, поэтому здорово видеть такую надежную и реалистичную систему. Хотя мы сами активно проводим бенчмаркинг, Android Bench — это уникальное и полезное дополнение. Эта методология — именно тот вид строгой оценки, который сейчас необходим разработчикам Android».
- Кирилл Смелов, руководитель отдела интеграции ИИ в JetBrains.

Первые результаты Android Bench

В этом первом релизе мы хотели измерить исключительно производительность моделей, а не фокусироваться на использовании агентов или инструментов. Модели успешно выполнили от 16 до 72% задач. Это широкий диапазон, демонстрирующий, что некоторые LLM уже обладают прочной базой знаний в области Android, в то время как другим еще есть куда расти. Независимо от текущего уровня развития моделей, мы ожидаем дальнейшего улучшения, поскольку призываем разработчиков LLM совершенствовать свои модели для разработки под Android.

Модель LLM с наивысшим средним баллом в этом первом релизе — Gemini 3.1 Pro, за ней следует Claude Opus 4.6. Вы можете попробовать все модели, которые мы оценивали для помощи в работе с ИИ в ваших проектах Android, используя ключи API в последней стабильной версии Android Studio .

Обеспечение прозрачности для разработчиков и лиц, получающих степень магистра права.

Мы ценим открытый и прозрачный подход, поэтому сделали нашу методологию , набор данных и тестовую среду общедоступными на GitHub .

Одна из проблем, с которой сталкиваются при использовании любых общедоступных бенчмарков, — это риск искажения данных, когда модели могли сталкиваться с оценочными задачами в процессе обучения. Мы приняли меры, чтобы гарантировать, что наши результаты отражают подлинное логическое мышление, а не запоминание или угадывание, включая тщательный ручной анализ траекторий агентов или использование «канареечной» строки для предотвращения обучения.

В дальнейшем мы продолжим совершенствовать нашу методологию для сохранения целостности набора данных, а также будем вносить улучшения в будущие версии эталонного теста — например, увеличивать количество и сложность задач.

Мы с нетерпением ждём, как Android Bench сможет улучшить работу ИИ-помощников в долгосрочной перспективе. Наша цель — сократить разрыв между концепцией и качественным кодом. Мы закладываем основу для будущего, где всё, что вы задумали, вы сможете реализовать на Android.

Автор:

Matthew McCullough
Вице-президент по управлению продуктами, разработчик Android.
read_more Просмотреть профиль

Продолжить чтение

19 мая 2026 г.
19 мая 2026 г.
Новости о продуктах
17 важных моментов для разработчиков Android на конференции Google I/O!
arrow_forward
На конференции Google I/O '26 было сделано 17 ключевых анонсов для разработчиков Android, посвященных повышению производительности за счет использования агентов, концепции Compose First как стандарта пользовательского интерфейса, а также высокопроизводительной разработке медиаконтента и адаптивной разработке для расширяющейся экосистемы.
Matthew McCullough • 8 мин чтения
- #Google I/O
12 мая 2026 г.
12 мая 2026 г.
Новости о продуктах
Разработка интеллектуальной системы для Android
arrow_forward
Сегодня на выставке The Android Show было объявлено о переходе Android от операционной системы к интеллектуальной системе, что создаст больше возможностей для взаимодействия с вашими приложениями.
Matthew McCullough • 4 мин чтения
- #Android
02 апреля 2026 г.
02 апреля 2026 г.
Новости о продуктах
Gemma 4: Новый стандарт для локального агентного интеллекта на Android
arrow_forward
Сегодня мы расширяем возможности разработки под Android с помощью Gemma 4, нашей новейшей открытой модели, разработанной с учетом сложных логических рассуждений и возможностей автономного вызова инструментов.
Matthew McCullough • 2 мин чтения
- #Android Studio

Разработано с учетом реальных задач разработки под Android.

Первые результаты Android Bench

Обеспечение прозрачности для разработчиков и лиц, получающих степень магистра права.

Автор:

Вице-президент по управлению продуктами, разработчик Android.

Продолжить чтение

Matthew McCullough • 8 мин чтения

Matthew McCullough • 4 мин чтения

Matthew McCullough • 2 мин чтения

Будьте в курсе событий