На Google I/O 2026 Google показав дві різні історії: Gemini 3.5 Flash для швидких агентних і coding workflow та Gemini Omni Flash для створення й редагування відео з різних input.
Для команди розробки головне питання просте: що з цього вже варто тестувати в роботі, а що поки лишити в зоні демо.
Проблема / Контекст
Google позиціонує Gemini 3.5 Flash як перший реліз у новій сім’ї Gemini 3.5. Акцент не лише на “розумніша модель”, а на дії: coding tasks, довші агентні задачі, subagents, робота через Gemini API, Google AI Studio, Android Studio, Antigravity і Gemini Enterprise.
Паралельно Gemini Omni Flash стартує як мультимодальна модель для відео. Вона бере текст, зображення, відео або аудіо як reference і генерує або редагує відео через розмовні інструкції. Google також каже, що Omni Flash доступний у Gemini app, Google Flow і YouTube Shorts/Create, а API для developers та enterprise мають з’явитися пізніше.
Це не одна модель для всього. Gemini 3.5 Flash треба оцінювати як робочий engine для задач із кодом і інструментами. Gemini Omni Flash - як media workflow, де важливі consistency, rights, watermarking і контроль результату.
Чому це важливо
Для розробників найцікавіший сигнал у Gemini 3.5 Flash - не маркетингове “frontier intelligence”, а комбінація швидкості, tool use і агентних сценаріїв. Google пише, що 3.5 Flash перевершує Gemini 3.1 Pro на низці coding та agentic benchmark, зокрема Terminal-Bench 2.1, GDPval-AA і MCP Atlas, і при цьому працює швидше за інші frontier-моделі за output tokens per second.
Але benchmark - це не production proof. Команді все одно треба перевірити свої задачі: ваш monorepo, ваші тести, ваші PR review правила, ваші обмеження щодо даних.
Gemini Omni Flash важливий з іншого боку. Якщо команда робить навчальні матеріали, product demo, explainers або внутрішні відео, розмовне редагування відео може зекономити години. Але тут ризики інші: права на reference, помилки в зображенні процесів, synthetic media disclosure і контроль бренду.
Що показують офіційні тести
Найкорисніша частина офіційної Gemini 3.5 Flash model card - не загальна фраза “краще за попередню модель”, а порівняння по типах задач. Воно не доводить, що треба завтра міняти Codex або Claude у всій команді, але показує, де Google варто дати шанс.
Коротко по цифрах Google станом на травень 2026:
Terminal-Bench 2.1
Для agentic terminal coding Gemini майже поруч із GPT-5.5 і помітно вище Opus у цьому тесті.
SWE-Bench Pro
Для складних реальних codebase tasks Claude Opus і GPT-5.5 виглядають сильніше.
MCP Atlas
Для MCP/tool-heavy workflow Gemini має сильний сигнал.
Toolathlon
Для general tool use Gemini і GPT-5.5 близько.
OSWorld-Verified
Для керування UI/комп'ютером різниця мінімальна.
Finance Agent v2
Для фінансового аналізу й structured decision tasks Gemini виглядає сильніше.
CharXiv Reasoning
Для складних charts/visual reasoning Gemini на рівні GPT-5.5.
Long context MRCR v2 128k
Для довгого контексту GPT-5.5 має великий відрив.
ARC-AGI-2
Для абстрактного reasoning Gemini не лідер.
Тому чесний висновок такий: Gemini 3.5 Flash не виглядає як універсальна заміна Codex/GPT-5.5 або Claude. Він виглядає як сильний кандидат для workflow, де важливі швидкість, tool use, MCP, multimodal input і контрольована агентність. Для дуже складного coding у великому репозиторії, де ціна помилки висока, краще порівнювати з поточним Codex/Claude на тих самих PR-задачах і не мігрувати за одним benchmark.
Gemini Omni Flash треба оцінювати ще обережніше: Google уже описує можливості, канали доступу і SynthID watermark, але model card прямо каже, що оцінки для T2VA, I2VA, R2VA, video editing та image generation будуть опубліковані пізніше, коли модель вийде для developers та enterprise через API. Тобто для Omni зараз правильний режим - creative/media pilot, а не production replacement.
Чи переходити з Codex або Claude
Якщо команда вже використовує Codex/GPT-5.5 або Claude для коду, не треба робити “big switch”. Краще розділити задачі.
Gemini 3.5 Flash варто додати в pilot, якщо:
- у вас багато tool-heavy задач: MCP servers, browser/UI control, agents, інтеграції з внутрішніми tools;
- важлива швидкість відповіді й дешевший iteration loop;
- задачі включають charts, screenshots, відео, аудіо або змішані input;
- потрібні drafts, прототипи, перші bugfix спроби, code explanation або agent planning у sandbox.
Codex/GPT-5.5 краще залишити основним для:
- великих refactor і задач із дуже довгим контекстом;
- критичних PR, де треба максимальна якість reasoning і мінімум випадкових змін;
- складного debugging, де модель має тримати багато файлів, logs і constraints одночасно.
Claude Opus варто тримати в порівнянні для:
- складних codebase tasks, особливо якщо локальні тести схожі на SWE-Bench-style ремонт;
- архітектурного review, пояснення trade-offs і довгих текстових reasoning tasks;
- фінального second opinion перед важливими змінами.
А Gemini Omni Flash не замінює ні Codex, ні Claude. Це окрема лінія для відео, explainers, storyboard, demo clips і мультимодального content workflow. Для коду його взагалі не треба брати в цю дискусію.
Як тестувати Gemini 3.5 Flash
Почни з маленького evaluation set. Не треба одразу міняти всі AI tools у команді.
Вибери 3-5 задач:
- виправити невеликий bug із failing test;
- зробити refactor без зміни поведінки;
- написати integration test для існуючого endpoint;
- пояснити legacy module і запропонувати план розділення;
- зібрати маленький UI prototype за описом.
Для кожної задачі зафіксуй baseline: скільки часу займає людина або поточна модель, який diff виходить, скільки правок після review, чи проходять тести.
Мінімальна матриця:
| Сценарій | Що міряти | Good result | No-go |
|---|---|---|---|
| Bugfix | test pass, розмір diff | мінімальний diff, тест зелений | міняє unrelated файли |
| Refactor | поведінка, review effort | ті самі тести, простіший код | ламає public API |
| Test generation | coverage, корисність asserts | тест ловить реальний кейс | тест перевіряє implementation detail |
| Agent task | кроки, tool use, rollback | планує, виконує, пояснює diff | робить irreversible дії |
| UI prototype | доступність, responsive layout | usable preview | красивий, але нефункціональний макет |
Перший запуск краще робити в sandbox: test branch, test repo або isolated workspace. Не давай production secrets, customer data і write access до критичних систем.
Як тестувати Gemini Omni Flash
Omni Flash не треба оцінювати як “модель для коду”. Її варто тестувати там, де результатом є медіа або пояснювальний візуал.
Почни з трьох задач:
- Короткий product demo з існуючого screen recording.
- Навчальний explainer для складної теми.
- Відео-варіація з однаковим персонажем або стилем.
Міряй не тільки “вау-ефект”. Дивись на consistency між ітераціями, контроль деталей, час до usable result, кількість ручних правок і чи зрозуміло глядачу, що контент AI-generated. Google заявляє, що відео Omni містить SynthID watermark і може перевірятися через Gemini app, Chrome та Search, але це не замінює власну політику публікації.
Для команди нормальне правило таке: Omni можна пілотувати для внутрішніх демо, чернеток, storyboard і навчальних ілюстрацій. Для публічного брендингу, реклами або матеріалів із людьми потрібен окремий review.
Що НЕ робити
Не порівнюй моделі на одному красивому prompt. Один demo prompt нічого не каже про стабільність у роботі.
Не змішуй coding і media evaluation. Gemini 3.5 Flash і Omni Flash мають різні сильні сторони, різні ризики і різні метрики.
Не давай агенту доступ до production без rollback. Навіть якщо модель добре планує, перший pilot має жити в ізольованому середовищі.
Не вір benchmark без локальної перевірки. Terminal-Bench або MCP Atlas корисні як сигнал, але рішення приймається на ваших задачах.
Не публікуй AI-відео без policy. Потрібні правила для reference material, згоди людей, synthetic media disclosure і перевірки фактів.
Практичний план на 60 хвилин
- Обери 3 coding задачі й 2 media задачі.
- Створи окрему test branch або sandbox.
- Прожени Gemini 3.5 Flash на coding задачах.
- Прожени Omni Flash на одному explainers або demo draft.
- Запиши latency, якість, кількість ручних правок і no-go сигнали.
- Прийми рішення: adopt, pilot, wait або reject для кожного сценарію.
Якщо результат хороший, не “мігруй на Google” одним рухом. Додай одну конкретну workflow: наприклад, Gemini 3.5 Flash для bugfix drafts у sandbox або Omni Flash для внутрішніх навчальних відео.
Висновок
Нові моделі Google після I/O 2026 виглядають сильними, але їх не варто оцінювати одним загальним враженням.
Gemini 3.5 Flash - кандидат для agentic coding, довших задач і tool-heavy workflow. Gemini Omni Flash - кандидат для мультимодального video creation та editing. Обидві історії можуть бути корисними, якщо тестувати їх окремо, на реальних задачах і з чіткими no-go правилами.
Найкращий наступний крок - маленький evaluation set на один день. Не хайп, не віра в benchmark, а контрольований pilot із метриками.
Джерела
- Google Blog: Gemini 3.5: frontier intelligence with action — https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-5/
- Google Blog: Introducing Gemini Omni — https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni/
- Google DeepMind Model Card: Gemini 3.5 Flash — https://deepmind.google/models/model-cards/gemini-3-5-flash/
- Google DeepMind Model Card: Gemini Omni Flash — https://deepmind.google/models/model-cards/gemini-omni-flash/
- Google Blog: Building the agentic future: Developer highlights from I/O 2026 — https://blog.google/innovation-and-ai/technology/developers-tools/google-io-2026-developer-highlights/
- Google Blog: 100 things we announced at I/O 2026 — https://blog.google/innovation-and-ai/technology/ai/google-io-2026-all-our-announcements/
Короткий чеклист
- Вибрати 3-5 реальних задач, а не вигадані промпти.
- Окремо оцінити Gemini 3.5 Flash для коду й агентних задач.
- Окремо оцінити Gemini Omni Flash для відео та мультимодального контенту.
- Зібрати latency, якість diff, ручні правки, вартість і стабільність.
- Не давати моделі доступ до секретів і production-даних під час першого тесту.
Prompt Pack: оцінка Gemini 3.5 Flash і Gemini Omni Flash для команди
Ти technical lead, який оцінює нові моделі Google після I/O 2026 для команди розробки. Вхідні дані: - 3-5 реальних задач команди: coding agent, bugfix, refactor, документація, генерація UI або відео; - поточні моделі й інструменти, які вже використовуються; - обмеження щодо даних, секретів, бюджету і latency; - критерії якості: тести, diff size, review effort, вартість, час виконання; - де команда може використовувати Google AI Studio, Gemini API, Antigravity або Gemini app. Підготуй короткий evaluation plan: 1. розділи задачі між Gemini 3.5 Flash і Gemini Omni Flash; 2. запропонуй 5 тестових сценаріїв із очікуваним результатом; 3. додай метрики: latency, якість diff, кількість ручних правок, стабільність, вартість; 4. визнач no-go критерії, коли модель не варто пускати в робочий процес; 5. сформуй рішення: adopt, pilot, wait або reject. Формат відповіді: таблиця сценаріїв, команди/кроки перевірки, ризики, рішення для кожного сценарію.