Google I/O 2026: Gemini 3.5 Flash, Gemini Omni і що тестувати команді

GoogleGeminiAIDeveloper ToolsTesting

Схема оцінки Gemini 3.5 Flash і Gemini Omni Flash: задачі, тестовий sandbox, метрики і рішення

На Google I/O 2026 Google показав дві різні історії: Gemini 3.5 Flash для швидких агентних і coding workflow та Gemini Omni Flash для створення й редагування відео з різних input.

Для команди розробки головне питання просте: що з цього вже варто тестувати в роботі, а що поки лишити в зоні демо.

Проблема / Контекст

Google позиціонує Gemini 3.5 Flash як перший реліз у новій сім’ї Gemini 3.5. Акцент не лише на “розумніша модель”, а на дії: coding tasks, довші агентні задачі, subagents, робота через Gemini API, Google AI Studio, Android Studio, Antigravity і Gemini Enterprise.

Паралельно Gemini Omni Flash стартує як мультимодальна модель для відео. Вона бере текст, зображення, відео або аудіо як reference і генерує або редагує відео через розмовні інструкції. Google також каже, що Omni Flash доступний у Gemini app, Google Flow і YouTube Shorts/Create, а API для developers та enterprise мають з’явитися пізніше.

Це не одна модель для всього. Gemini 3.5 Flash треба оцінювати як робочий engine для задач із кодом і інструментами. Gemini Omni Flash - як media workflow, де важливі consistency, rights, watermarking і контроль результату.

Чому це важливо

Для розробників найцікавіший сигнал у Gemini 3.5 Flash - не маркетингове “frontier intelligence”, а комбінація швидкості, tool use і агентних сценаріїв. Google пише, що 3.5 Flash перевершує Gemini 3.1 Pro на низці coding та agentic benchmark, зокрема Terminal-Bench 2.1, GDPval-AA і MCP Atlas, і при цьому працює швидше за інші frontier-моделі за output tokens per second.

Але benchmark - це не production proof. Команді все одно треба перевірити свої задачі: ваш monorepo, ваші тести, ваші PR review правила, ваші обмеження щодо даних.

Gemini Omni Flash важливий з іншого боку. Якщо команда робить навчальні матеріали, product demo, explainers або внутрішні відео, розмовне редагування відео може зекономити години. Але тут ризики інші: права на reference, помилки в зображенні процесів, synthetic media disclosure і контроль бренду.

Що показують офіційні тести

Найкорисніша частина офіційної Gemini 3.5 Flash model card - не загальна фраза “краще за попередню модель”, а порівняння по типах задач. Воно не доводить, що треба завтра міняти Codex або Claude у всій команді, але показує, де Google варто дати шанс.

Коротко по цифрах Google станом на травень 2026:

Terminal-Bench 2.1

76.2%Gemini 3.5 Flash 78.2%GPT-5.5 66.1%Claude Opus 4.7

Для agentic terminal coding Gemini майже поруч із GPT-5.5 і помітно вище Opus у цьому тесті.

SWE-Bench Pro

55.1%Gemini 3.5 Flash 58.6%GPT-5.5 64.3%Claude Opus 4.7

Для складних реальних codebase tasks Claude Opus і GPT-5.5 виглядають сильніше.

MCP Atlas

83.6%Gemini 3.5 Flash 75.3%GPT-5.5 79.1%Claude Opus 4.7

Для MCP/tool-heavy workflow Gemini має сильний сигнал.

Toolathlon

56.5%Gemini 3.5 Flash 55.6%GPT-5.5 немає данихClaude Opus 4.7

Для general tool use Gemini і GPT-5.5 близько.

OSWorld-Verified

78.4%Gemini 3.5 Flash 78.7%GPT-5.5 78.0%Claude Opus 4.7

Для керування UI/комп'ютером різниця мінімальна.

Finance Agent v2

57.9%Gemini 3.5 Flash 51.8%GPT-5.5 51.5%Claude Opus 4.7

Для фінансового аналізу й structured decision tasks Gemini виглядає сильніше.

CharXiv Reasoning

84.2%Gemini 3.5 Flash 84.1%GPT-5.5 82.1%Claude Opus 4.7

Для складних charts/visual reasoning Gemini на рівні GPT-5.5.

Long context MRCR v2 128k

77.3%Gemini 3.5 Flash 94.8%GPT-5.5 59.3%Claude Opus 4.7

Для довгого контексту GPT-5.5 має великий відрив.

ARC-AGI-2

72.1%Gemini 3.5 Flash 84.6%GPT-5.5 75.8%Claude Opus 4.7

Для абстрактного reasoning Gemini не лідер.

Тому чесний висновок такий: Gemini 3.5 Flash не виглядає як універсальна заміна Codex/GPT-5.5 або Claude. Він виглядає як сильний кандидат для workflow, де важливі швидкість, tool use, MCP, multimodal input і контрольована агентність. Для дуже складного coding у великому репозиторії, де ціна помилки висока, краще порівнювати з поточним Codex/Claude на тих самих PR-задачах і не мігрувати за одним benchmark.

Gemini Omni Flash треба оцінювати ще обережніше: Google уже описує можливості, канали доступу і SynthID watermark, але model card прямо каже, що оцінки для T2VA, I2VA, R2VA, video editing та image generation будуть опубліковані пізніше, коли модель вийде для developers та enterprise через API. Тобто для Omni зараз правильний режим - creative/media pilot, а не production replacement.

Чи переходити з Codex або Claude

Якщо команда вже використовує Codex/GPT-5.5 або Claude для коду, не треба робити “big switch”. Краще розділити задачі.

Gemini 3.5 Flash варто додати в pilot, якщо:

  • у вас багато tool-heavy задач: MCP servers, browser/UI control, agents, інтеграції з внутрішніми tools;
  • важлива швидкість відповіді й дешевший iteration loop;
  • задачі включають charts, screenshots, відео, аудіо або змішані input;
  • потрібні drafts, прототипи, перші bugfix спроби, code explanation або agent planning у sandbox.

Codex/GPT-5.5 краще залишити основним для:

  • великих refactor і задач із дуже довгим контекстом;
  • критичних PR, де треба максимальна якість reasoning і мінімум випадкових змін;
  • складного debugging, де модель має тримати багато файлів, logs і constraints одночасно.

Claude Opus варто тримати в порівнянні для:

  • складних codebase tasks, особливо якщо локальні тести схожі на SWE-Bench-style ремонт;
  • архітектурного review, пояснення trade-offs і довгих текстових reasoning tasks;
  • фінального second opinion перед важливими змінами.

А Gemini Omni Flash не замінює ні Codex, ні Claude. Це окрема лінія для відео, explainers, storyboard, demo clips і мультимодального content workflow. Для коду його взагалі не треба брати в цю дискусію.

Як тестувати Gemini 3.5 Flash

Почни з маленького evaluation set. Не треба одразу міняти всі AI tools у команді.

Вибери 3-5 задач:

  • виправити невеликий bug із failing test;
  • зробити refactor без зміни поведінки;
  • написати integration test для існуючого endpoint;
  • пояснити legacy module і запропонувати план розділення;
  • зібрати маленький UI prototype за описом.

Для кожної задачі зафіксуй baseline: скільки часу займає людина або поточна модель, який diff виходить, скільки правок після review, чи проходять тести.

Мінімальна матриця:

СценарійЩо мірятиGood resultNo-go
Bugfixtest pass, розмір diffмінімальний diff, тест зеленийміняє unrelated файли
Refactorповедінка, review effortті самі тести, простіший кодламає public API
Test generationcoverage, корисність assertsтест ловить реальний кейстест перевіряє implementation detail
Agent taskкроки, tool use, rollbackпланує, виконує, пояснює diffробить irreversible дії
UI prototypeдоступність, responsive layoutusable previewкрасивий, але нефункціональний макет

Перший запуск краще робити в sandbox: test branch, test repo або isolated workspace. Не давай production secrets, customer data і write access до критичних систем.

Як тестувати Gemini Omni Flash

Omni Flash не треба оцінювати як “модель для коду”. Її варто тестувати там, де результатом є медіа або пояснювальний візуал.

Почни з трьох задач:

  1. Короткий product demo з існуючого screen recording.
  2. Навчальний explainer для складної теми.
  3. Відео-варіація з однаковим персонажем або стилем.

Міряй не тільки “вау-ефект”. Дивись на consistency між ітераціями, контроль деталей, час до usable result, кількість ручних правок і чи зрозуміло глядачу, що контент AI-generated. Google заявляє, що відео Omni містить SynthID watermark і може перевірятися через Gemini app, Chrome та Search, але це не замінює власну політику публікації.

Для команди нормальне правило таке: Omni можна пілотувати для внутрішніх демо, чернеток, storyboard і навчальних ілюстрацій. Для публічного брендингу, реклами або матеріалів із людьми потрібен окремий review.

Що НЕ робити

Не порівнюй моделі на одному красивому prompt. Один demo prompt нічого не каже про стабільність у роботі.

Не змішуй coding і media evaluation. Gemini 3.5 Flash і Omni Flash мають різні сильні сторони, різні ризики і різні метрики.

Не давай агенту доступ до production без rollback. Навіть якщо модель добре планує, перший pilot має жити в ізольованому середовищі.

Не вір benchmark без локальної перевірки. Terminal-Bench або MCP Atlas корисні як сигнал, але рішення приймається на ваших задачах.

Не публікуй AI-відео без policy. Потрібні правила для reference material, згоди людей, synthetic media disclosure і перевірки фактів.

Практичний план на 60 хвилин

  1. Обери 3 coding задачі й 2 media задачі.
  2. Створи окрему test branch або sandbox.
  3. Прожени Gemini 3.5 Flash на coding задачах.
  4. Прожени Omni Flash на одному explainers або demo draft.
  5. Запиши latency, якість, кількість ручних правок і no-go сигнали.
  6. Прийми рішення: adopt, pilot, wait або reject для кожного сценарію.

Якщо результат хороший, не “мігруй на Google” одним рухом. Додай одну конкретну workflow: наприклад, Gemini 3.5 Flash для bugfix drafts у sandbox або Omni Flash для внутрішніх навчальних відео.

Висновок

Нові моделі Google після I/O 2026 виглядають сильними, але їх не варто оцінювати одним загальним враженням.

Gemini 3.5 Flash - кандидат для agentic coding, довших задач і tool-heavy workflow. Gemini Omni Flash - кандидат для мультимодального video creation та editing. Обидві історії можуть бути корисними, якщо тестувати їх окремо, на реальних задачах і з чіткими no-go правилами.

Найкращий наступний крок - маленький evaluation set на один день. Не хайп, не віра в benchmark, а контрольований pilot із метриками.

Джерела

Короткий чеклист

  • Вибрати 3-5 реальних задач, а не вигадані промпти.
  • Окремо оцінити Gemini 3.5 Flash для коду й агентних задач.
  • Окремо оцінити Gemini Omni Flash для відео та мультимодального контенту.
  • Зібрати latency, якість diff, ручні правки, вартість і стабільність.
  • Не давати моделі доступ до секретів і production-даних під час першого тесту.

Prompt Pack: оцінка Gemini 3.5 Flash і Gemini Omni Flash для команди

Ти technical lead, який оцінює нові моделі Google після I/O 2026 для команди розробки. Вхідні дані: - 3-5 реальних задач команди: coding agent, bugfix, refactor, документація, генерація UI або відео; - поточні моделі й інструменти, які вже використовуються; - обмеження щодо даних, секретів, бюджету і latency; - критерії якості: тести, diff size, review effort, вартість, час виконання; - де команда може використовувати Google AI Studio, Gemini API, Antigravity або Gemini app. Підготуй короткий evaluation plan: 1. розділи задачі між Gemini 3.5 Flash і Gemini Omni Flash; 2. запропонуй 5 тестових сценаріїв із очікуваним результатом; 3. додай метрики: latency, якість diff, кількість ручних правок, стабільність, вартість; 4. визнач no-go критерії, коли модель не варто пускати в робочий процес; 5. сформуй рішення: adopt, pilot, wait або reject. Формат відповіді: таблиця сценаріїв, команди/кроки перевірки, ризики, рішення для кожного сценарію.