Блог компании 3v-Hosting

Скорый конец Midjourney? Google Bard теперь генерирует картинки.

Общее

7 мин.

И вот, совсем недавно, Google анонсировала большие изменения в своей нейросетевой модели под названием Google Bard, которая до этого момента была только лишь текстовой, то есть работала только с текстами, как пресловутый Chat GPT. Но в новом обновлении Google Bard получил возможность генерации изображений по текстовому описанию, благодаря использованию модели преобразования текста в изображение Google Imagen 2. По сути разработчики Bard пошли на слияние возможностей различных нейросетевых моделей в рамках одного веб-инструмента, позволяющего отныне существенно расширить сферу своего применения и тем самым разработчики надеются заполучить существенную долю растущего рынка нейросетей. И это - не беспочвенно.

Для Google Bard это стало огромным шагом, так как теперь он сможет налегке конкурировать с лидером этого рынка - ChatGPT Plus от компании OpenAI, в котором давно была подобная функция. Теперь же, с Imagen 2, Bard не просто догоняет конкурента, но и постепенно обгоняет его, так как Google сделал эту функцию доступной бесплатно, в отличие от ChatGPT Plus, который требует платной подписки для использования инструмента генерации картинок.

В компании Google подчёркивают, что графические возможности Bard были «разработаны с учетом ответственности». Это означает полный запрет на генерацию пользователями изображений сексуального характера, изображений известных публичных личностей, а также сцены насилия, в том числе над животными. Например, когда я попросил сгенерировать картинку "Виктор Пелевин летит верхом на огромной летучей мыши" - Bard отказал мне, сославшись на то, что он не может сгенерировать такую картинку:) Хотя, я думаю, можно подобрать такой промпт, чтобы усыпить бдительность нейросети и получить "запрещенный" результат.

Итак, предлагаю перейти к технической части.

Данная функция доступна пока только на английском языке. На данный момент Bard генерирует 4 квадратные картинки за один запрос. Разрешение картинки составляет 1536 пикселей на одну сторону. Не смотря на это, нейросеть имеет довольно высокую скорость генерации изображений: от 5 до 10 секунд. После генерации изображений, под ними появляется кнопка «Сгенерировать еще», после нажатия на которую - выдаются ещё 2 картинки и так далее. Любое изображение можно скачать в полном размере.

Google Bard generate image1

Как видно, первыми он показывает наиболее релевантные результаты, а дальше начинает лениться и выдаёт откровенную чушь. Но если попытаться уточнить запрос, тогда он будет развивать тему в заданном направлении. Проведем эксперимент. Для начала я ввожу намеренно ошибочный запрос "generate image: red frog iten yellow apple"

Google Bard generate image2

Мы получаем ровно тот результат, который Bard мог нам дать имея максимум понятной информации - красная лягушка, жёлтое яблоко. Всё.
А теперь введём корректный запрос, да ещё и уточнённый всякими деталями - "generate a picture: a red frog eats a yellow apple. The frog is wearing a pink swimsuit and has a hat on her head. The liar lies on a deck chair"

Google Bard generate image3

И вот мы получили вполне релевантный результат!

Конечно, как и другие аналоги, Google Imagen 2 имеет недостатки и для того, чтобы получить качественную картинку, необходимо уделить некоторое время составлению качественного промпта и "допиливания" его по ходу дела, чтобы довести результат выдачи до необходимого Вам. Но я уверен, что спустя некоторое время, качество сгенерированных изображений вовсе не будет отличаться от нарисованного человеком. Ведь вспомните, всего пару лет назад большинство и представить себе не могли, что можно будет говорить слова, а они будут превращаться в картинку. Пусть живут нейросети! :)

Опубликована 2024-02-10 08:59

Обновлена 2025-11-01 13:05

Управление службами Systemd с помощью systemctl в Linux

Управление службами в Linux сегодня означает работу с systemd и его командной строкой systemctl. В этом руководстве объясняется, как проверять состояние служб, ...

8 мин 2025-08-31

Принципы SOLID-дизайна: основа гибкого, масштабируемого и поддерживаемого кода

Принципы SOLID помогают создавать гибкий, масштабируемый и поддерживаемый код. Разбираем SRP, OCP, LSP, ISP и DIP с примерами и практическими рекомендациями.

11 мин 2025-11-17

История виртуализации: как появились первые VPS

Начиная с ранних дней компьютерной эры, когда рабочее время на огромных мэйнфреймах приходилось делить между несколькими командами разработки и до современных л...

10 мин 2025-07-14

Настройка WireGuard на VPS

Пошаговая инструкция по настройке WireGuard на VPS: установка, генерация ключей, конфигурация сервера и клиента, запуск VPN и решение типичных проблем. Быстрый ...

14 мин 2026-03-15

Что такое высокодоступная инфраструктура и зачем она нужна

Что такое High Availability инфраструктура. Принципы отказоустойчивой архитектуры, устранение SPOF, failover, репликация данных и мониторинг. Как построить стаб...

12 мин 2026-03-08