Блог компанії 3v-Hosting

Скорий кінець Midjourney? Google Bard тепер генерує картинки.

7 хв.

І ось, зовсім недавно, Google анонсувала великі зміни у своїй нейромережевій моделі під назвою Google Bard, яка до цього моменту була тільки текстовою, тобто працювала тільки з текстами, як горезвісний Chat GPT. Але в новому оновленні Google Bard отримав можливість генерації зображень за текстовим описом завдяки використанню моделі перетворення тексту на зображення Google Imagen 2. По суті розробники Bard пішли на злиття можливостей різних нейромережевих моделей в рамках одного веб-інструменту, що дозволяє відтепер суттєво розширити сферу свого застосування. і тим самим розробники сподіваються отримати істотну частку зростаючого ринку нейромереж. І це – не безпідставно.

Для Google Bard це стало величезним кроком, оскільки тепер він зможе легко конкурувати з лідером цього ринку - ChatGPT Plus від компанії OpenAI, в якому давно була подібна функція. Тепер же, з Imagen 2, Bard не просто наздоганяє конкурента, а й поступово обганяє його, оскільки Google зробив цю функцію доступною безкоштовно, на відміну від ChatGPT Plus, який вимагає платної підписки для використання інструменту генерації картинок.

У компанії Google наголошують, що графічні можливості Bard були «розроблені з урахуванням відповідальності». Це означає повну заборону на генерацію користувачами зображень сексуального характеру, зображень відомих публічних особистостей та сцени насильства, у тому числі над тваринами. Наприклад, коли я попросив згенерувати картинку "Віктор Пєлєвін летить верхи на величезній кажанів" - Bard відмовив мені, пославшись на те, що він не може згенерувати таку картинку:) Хоча, я думаю, можна підібрати такий промпт, щоб приспати пильність нейромережі і отримати "заборонений" результат.

Отже, пропоную перейти до технічної частини.

Ця функція доступна поки що лише англійською мовою. На даний момент Bard генерує 4 квадратні картинки за один запит. Роздільна здатність картинки складає 1536 пікселів на один бік. Незважаючи на це, нейромережа має досить високу швидкість створення зображень: від 5 до 10 секунд. Після генерації зображень, під ними з'являється кнопка «Сгенерувати ще», після натискання на яку видаються ще 2 картинки і так далі. Будь-яке зображення можна завантажити у повному розмірі.

Google Bard generate image1

Як видно, першими він показує найбільш релевантні результати, а далі починає лінуватися і видає відверту нісенітницю. Але якщо спробувати уточнити запит, тоді він розвиватиме тему у заданому напрямку. Проведемо експеримент. Для початку я вводжу навмисно хибний запит - "generate image: red frog iten yellow apple"

Google Bard generate image2

Ми отримуємо той результат, який Bard міг нам дати маючи максимум зрозумілої інформації - червона жаба, жовте яблуко. Усе.
А тепер введемо коректний запит, та ще й уточнений усілякими деталями - "generate a picture: a red frog eats a yellow apple. The frog is wearing a pink swimsuit and has a hat on her head. The liar lies on a deck chair"

Google Bard generate image3

І ось ми здобули цілком релевантний результат!

Звичайно, як і інші аналоги, Google Imagen 2 має недоліки і для того, щоб отримати якісну картинку, необхідно приділити деякий час складання якісного промпту і "допилювання" його по ходу справи, щоб довести результат видачі до необхідного Вам. Але я впевнений, що через деякий час якість згенерованих зображень зовсім не відрізнятиметься від намальованого людиною. Адже згадайте, лише кілька років тому більшість і уявити не могли, що можна буде говорити слова, а вони перетворюватимуться на картинку. Нехай живуть нейромережі! :)

2024-02-10 08:59