Обработка изображений в Gemini 2.5 Flash

27.08.2025 11:00  4474   Комментарии (94)

Попалась тут статья в Techcrunch про новую модель работы с изображениями в Google Gemini. 

Google модернизирует своего чат-бота Gemini, оснащая его новой моделью изображений на основе ИИ, которая дает пользователям более точный контроль над редактированием фотографий. Этот шаг призван догнать популярные инструменты обработки изображений OpenAI и переманить пользователей из ChatGPT.

Обновление под названием Gemini 2.5 Flash Image станет доступно со вторника всем пользователям приложения Gemini, а также разработчикам через платформы Gemini API, Google AI Studio и Vertex AI.

Новая ИИ-модель обработки изображений Gemini разработана для более точного редактирования изображений — на основе запросов пользователей на естественном языке — с сохранением единообразия лиц, животных и других деталей, что является проблемой для большинства конкурирующих инструментов. Например, если попросить ChatGPT или Grok из xAI изменить цвет чьей-то рубашки на фотографии, в результате лицо может быть искажено, а фон — изменён.

Возможно, впечатляющий ИИ-редактор изображений Gemini поможет Google сократить отставание от OpenAI. Сейчас ChatGPT насчитывает более 700 миллионов пользователей в неделю. В июле, во время телефонной конференции Google, посвящённой финансовым результатам, генеральный директор технологического гиганта Сундар Пичаи сообщил, что у Gemini 450 миллионов пользователей в месяц , что подразумевает, что еженедельная аудитория ещё ниже.

Брихтова утверждает, что Google специально разработала модель изображения с учётом потребительских потребностей, например, для визуализации проектов дома и сада. Модель также обладает более глубокими знаниями о мире и может объединять несколько ссылок в одном запросе, например, объединяя изображение дивана, фотографию гостиной и цветовую палитру в единый визуальный образ.

Ну, раз такое дело - пошел тестировать. А то заявления - это одно, а реальная работа - совсем другое. 

Для начала загрузил свое фото, фото кошки и попросил, как в рекламном ролике, посадить кошку мне на руки и поместить нас в какое-нибудь хорошо освещенное место на улице. 

Ответ Gemini. 

Is there a different idea I can try? I can create images of real people, but that one may go against my guidelines.

Прекрасно, да. Если ты не можешь обрабатывать фото реальных людей, то на хрен ты вообще нужен? 

Я ему попробовал сказать, что это мое личное фото и что я даю ему разрешение - хрен там, не обрабатывает. 

Чисто для сравнения попросил то же самое сделать ChatGPT. Без проблем. Правда, мою физиономию слегка исказил - расширил, - но и на этом спасибо. И кисти сделал непропорционально большими. Но хоть вроде пальцев всего пять. 

Вернемся к Gemini. Попросил на моем фото поменять цвет майки на зеленый. 

Неожиданно сделал, причем хорошо. 

То же самое попросил сделать ChatGPT, причем заново загрузил свою фотографию. Он поменял, но все равно меня сделал с кошкой на руках. И физиономию тоже исказил - в статье были правы. 

Дальше решил проверить, как Gemini работает с предметами - по типу показанного из второго рекламного ролика. 

Загрузил вот это фото. 

Попросил убрать со стола вазу с цветами. 

Получил ответ. 

I can create images of real people, but not one like that. Can I help with a different image of this person?

Написал. 

На этом фото нет никаких людей, о чем ты вообще? Мне нужно, чтобы ты на фото убрал вазу с цветами со стола. 

Ответ. 

Вы правы, на этой фотографии нет людей! Мои извинения за ошибку.

Вот изображение, на котором ваза с цветами убрана со стола:

Попросил:

Накрой этот стол скатертью и поставь на стол несколько подносов с различными готовыми блюдами - индейкой, скумбрией, рисом, бараниной и свининой. 

С этим Gemini вполне справился. 

В общем, не без глюков, но тем не менее действительно работает. 

Теги
Сортировать по алфавиту или записям
BLM 21
Calella 147
exler.ru 315
авто 480
видео 4348
вино 363