Скорый конец Midjourney? Google Bard теперь генерирует картинки.

Общее 7 мин. на чтение

И вот, совсем недавно, Google анонсировала большие изменения в своей нейросетевой модели под названием Google Bard, которая до этого момента была только лишь текстовой, то есть работала только с текстами, как пресловутый Chat GPT. Но в новом обновлении Google Bard получил возможность генерации изображений по текстовому описанию, благодаря использованию модели преобразования текста в изображение Google Imagen 2. По сути разработчики Bard пошли на слияние возможностей различных нейросетевых моделей в рамках одного веб-инструмента, позволяющего отныне существенно расширить сферу своего применения и тем самым разработчики надеются заполучить существенную долю растущего рынка нейросетей. И это - не беспочвенно.

 

Для Google Bard это стало огромным шагом, так как теперь он сможет налегке конкурировать с лидером этого рынка - ChatGPT Plus от компании OpenAI, в котором давно была подобная функция. Теперь же, с Imagen 2, Bard не просто догоняет конкурента, но и постепенно обгоняет его, так как Google сделал эту функцию доступной бесплатно, в отличие от ChatGPT Plus, который требует платной подписки для использования инструмента генерации картинок.

 

В компании Google подчёркивают, что графические возможности Bard были «разработаны с учетом ответственности». Это означает полный запрет на генерацию пользователями изображений сексуального характера, изображений известных публичных личностей, а также сцены насилия, в том числе над животными. Например, когда я попросил сгенерировать картинку "Виктор Пелевин летит верхом на огромной летучей мыши" - Bard отказал мне, сославшись на то, что он не может сгенерировать такую картинку:) Хотя, я думаю, можно подобрать такой промпт, чтобы усыпить бдительность нейросети и получить "запрещенный" результат.

 


Итак, предлагаю перейти к технической части.

Данная функция доступна пока только на английском языке. На данный момент Bard генерирует 4 квадратные картинки за один запрос. Разрешение картинки составляет 1536 пикселей на одну сторону. Не смотря на это, нейросеть имеет довольно высокую скорость генерации изображений: от 5 до 10 секунд. После генерации изображений, под ними появляется кнопка «Сгенерировать еще», после нажатия на которую - выдаются ещё 2 картинки и так далее. Любое изображение можно скачать в полном размере.

 


Как видно, первыми он показывает наиболее релевантные результаты, а дальше начинает лениться и выдаёт откровенную чушь. Но если попытаться уточнить запрос, тогда он будет развивать тему в заданном направлении. Проведем эксперимент. Для начала я ввожу намеренно ошибочный запрос "generate image: red frog iten yellow apple"

 

 


Мы получаем ровно тот результат, который Bard мог нам дать имея максимум понятной информации - красная лягушка, жёлтое яблоко. Всё. 
А теперь введём корректный запрос, да ещё и уточнённый всякими деталями - "generate a picture: a red frog eats a yellow apple. The frog is wearing a pink swimsuit and has a hat on her head. The liar lies on a deck chair"

 

 


И вот мы получили вполне релевантный результат!

 

 

Конечно, как и другие аналоги, Google Imagen 2 имеет недостатки и для того, чтобы получить качественную картинку, необходимо уделить некоторое время  составлению качественного промпта и "допиливания" его по ходу дела, чтобы довести результат выдачи до необходимого Вам. Но я уверен, что спустя некоторое время, качество сгенерированных изображений вовсе не будет отличаться от нарисованного человеком. Ведь вспомните, всего пару лет назад большинство и представить себе не могли, что можно будет говорить слова, а они будут превращаться в картинку. Пусть живут нейросети! :)
 

AI

Feb. 10, 2024, 8:59 a.m.