Сравнение нейросетей Шедеврум и Kandinsky 2.1.

Сравнение нейросетей Шедеврум и Kandinsky 2.1.

Весной этого года появилось сразу две российские нейросети. Сбер выпустил модель Kandinsky 2.1 нейросети Russian DALL-E, а Яндекс — мобильное приложение Шедеврум. Нейросети захватили интернет, ведь это круто — получить уникальное изображение на основе запроса. Для кого-то это хорошее подспорье в работе, для кого-то — игра.

Какая из двух российских нейросетей лучше? Сравню по нескольким критериям — доступность и удобство использования, качество изображений и цензура.

Доступность и удобство использования

Пользование любым сервисом начинается с его интерфейса. Зачастую, если пользоваться программной неудобно, задаешься вопросом: «А оно мне надо?» На мой взгляд, и Кандинский, и Шедеврум весьма удобны в применении.

Шедеврум доступен только в приложении для Android и IOS, во всяком случае, на сегодняшний день. Интерфейс приложения абсолютно минималистичный и простой — выглядит, как соцсеть с лайками и подписками. Зато можно смотреть, что нарисовал Шедеврум для других пользователей. Очень надеюсь, появится и десктопная версия. Пока ее нет, картинки, сохраненные на мобильное устройство, приходится пересылать себе с помощью других приложений, например, Телеграм. В результате манипуляций получаешь изображение размером 1024 x 1024 пикселей.

Модель Кандинский доступна в приложении Салют, в телеграм-боте, а также на сайтах https://fusionbrain.ai и https://rudalle.ru. Кандинский сформирует изображение размером 768 x 768 пикселей. На сайтах можно задать один из кучи стилей. В телеграм-боте предустановленных стилей всего четыре. К сожалению, можно увидеть результаты только своих запросов. Ну, или те изображения, которыми с тобой поделились другие.

Качество изображений

Чтобы сделать вывод, какая из двух нейросетей создает более качественные картинки, я создам несколько идентичных запросов в том и другом сервисе. Первый запрос предельно простой: «Кот в питерском дворе». Да, я в курсе, что составлять запросы для нейросетей — это целая наука. Пока этого не требуется. В обеих нейросетях формирую запрос без стиля.

Кандинский справился быстрее. Он генерирует всего одну картинку. Можно увидеть, что он вполне справился с заданием. Кот есть, фон похож на Питер. Хотя и не без косяков.

Кот в питерском дворе. Нейросеть Kandinsky 2.1.
Кот в питерском дворе. Нейросеть Kandinsky 2.1.

Шедеврум формирует четыре изображения, из которых для публикации можно выбрать только одно. Кот есть, атмосферы Питера нет. Ну, если только двор на окраине Санкт-Петербурга.

Выбираю последнее изображение. Красивый котик, но картинка зернистая.

Кот в питерском дворе. Нейросеть Шедеврум.
Кот в питерском дворе. Нейросеть Шедеврум.

Теперь к этому же запросу применю расширения, или промты, — приглушенное освещение, высокая детализация, реалистично, профессиональное фото и другие. На четвертом фото задан промт макросъемки 30mm lens. Изображения стали четче, Питер на заднем плане появился на картинках Шедеврума, но с котами приключилась какая-то беда. Промты к запросам, как и сами запросы — тоже целая наука. Не стоит ими чрезмерно увлекаться.

Все нейросети испытывают проблемы при рисовании рук. Посмотрим, как с этой задачей справятся Кандинский и Шедеврум. Первый запрос: «человеческая рука, реалистично, 4k».

Реалистичностью тут и не пахнет, но Шедеврум более-менее справился с задачей — рука хоть и ущербная, зато пять пальцев. У Кандинского получился адский кринж, по-другому не могу это охарактеризовать. Даю Кандинскому еще один шанс и генерирую запрос «пять пальцев на руке». Получилось, хоть от таких рук мороз по коже пробирает.

А теперь посмотрим, как нейросети нарисуют городской пейзаж. Задаю одинаковый запрос на тему стихотворения А.Блока «Ночь, улица, фонарь, аптека и ледяная гладь канала».

Вот здесь и понадобится умение правильно составлять запросы. У Шедеврума хоть и словарный запас беднее, чем у Кандинского, но эта нейросеть оказалась более понятливой. Правда, качество изображения хромает. Задаю следующий запрос: «Санкт-Петербург, ночь, улица вдоль заледеневшего канала освещается фонарями, в здании возле моста аптека».

Санкт-Петербург вижу, канал и фонари тоже. Мост есть, но у Кандинского он какой-то не такой. А мост обязателен: аптеки в Питере располагались именно возле моста. Где аптека? Переиначиваю запрос: «Питер, ночь, улица вдоль заледеневшего канала освещается фонарями, аптека в здании возле низкого моста».

Мост Кандинский пропустил, зато изобразил аптеку. Даже подобие инвалидных колясок перед ней. Надо было в запросе добавить «начало XX века». Век живи — век учись! Кстати, Санкт-Петербург — это что-то помпезное, а Питер — попроще.

Теперь я хочу оценить, как обе нейросети нарисуют человеческое лицо. Задаю запрос: «красивая античная девушка». По моему мнению, счет в пользу Кандинского.

Теперь задам запрос обеим нейронкам простой запрос в другом стиле: «Еж в хвойном лесу, советский мультфильм». На обоих сайтах с Кандинским есть возможность выбрать стиль советского мультфильма, но я задаю запрос телеграм-боту. Это без разницы. Как оказалось, Шедевруму также знаком этот стиль. Сравните результаты.

Усложняю запрос: «Еж и заяц в хвойном лесу, советский мультфильм». Ой, кто это тут получился? Кандинский изобразил гибридов ежа и зайца, причем у одного из них лапа трансформировалась в третье ухо. Шедеврум со скрипом, но справился с задачей.

Еще усложняю запрос, чтобы посмотреть, справится ли Шедеврум на этот раз — «еж, заяц и белка в хвойном лесу, диснеевский мультфильм». И тут я столкнулась с цензурой в Шедевруме: слово «диснеевский» под запретом. О цензуре речь пойдет ниже, а пока заменяю стоп-слово на «американский». Кандинский изобразил трех гибридов, а Шедеврум — белку и корявого зайца. И это лучший из четырех предложенных вариантов, в остальных яндексовская нейросеть с заданием не справилась.

Еще несколько картинок, по которым можно сравнить две нейронки.

Цензура в нейросетях

Настала пора посмотреть, как нейросети изобразят известного человека. Есть такое правило: в любой непонятной ситуации рисуй Трампа. Потому что Дональд Трамп — личность харизматичная и запоминающаяся, и нейросети его хорошо рисуют. И тут я второй раз столкнулась с цензурой на Шедевруме. При попытке задать запрос, в который входит известная фамилия, а иногда даже имя, появляется сообщение: «Мне нельзя делать картинки на некоторые темы, например про любых конкретных людей». Далее предлагается пройти по ссылки с правилами.

Согласно правилам, в Шедевруму нельзя изображать конкретных людей, даже исторических личностей (то есть запрос «пирожное Наполеон» тоже проигнорируется, как и «диснеевский мультфильм»). Почему? Потому что, как сказано, Шедеврум не должен никого обижать или становиться генератором дипфейков. А такое уже случалось, когда многие поверили изображению, сгенерированному нейросетью Midjourney. Я понимаю, что Шедевруму до Midjourney еще расти и расти, но как знать, насколько далеко простираются амбиции и намерения Яндекса. Нельзя также рисовать по запросам, связанным с политикой и религией, насилием и жестокостью, а также тематикой 18+.

Отлично, я поняла тебя, Яндекс. Но не обещаю, что не буду делать попыток обойти цензуру.

Такое впечатление, что Шедеврум во всех непонятных ситуациях рисует именно Трампа. И на различные запросы на тему «Кто виноват?» и, непонятно почему, «культ личности». Итак, Шедевруму задаю вопрос, кто виноват в происходящем в мире, а Кандинского просто прошу нарисовать Трампа. Получаю следующий результат.

Сходство, конечно, неполное. Проверяю Шедеврум еще раз с помощью запроса «Шедеврум на Дональда всех собак повесил». Отлично! Имя Дональд незацензурено, в отличие от Вани, Вовы и Пети. Кандинскому задаю запрос «Трамп с собаками», иначе он рисует висящих на веревке собак, похожих на Трампа. Живых, но все равно неприятно, поэтому выкладывать здесь результат не буду.

В этом варианте у Шедеврума получилось достичь сходства. Видимо, срисовал предыдущего президента США с какой-то фотографии, найденной у себя в Яндексе.

Следующий запрос Шедевруму: «основоположник марксизма-ленинизма». В ответ получаю портрет Карла Маркса, срисованного с известной фотографии. Кандинскому задаю запрос «Карл Маркс». Чей портрет больше похож на оригинал?

К сожалению, я не смогла заставить Шедеврум нарисовать кого-нибудь из наших известных людей. Может быть, у вас получится.

Провоцирую нейросети дальше. Ой, дождусь я, что в Шедевруме начнут на меня жаловаться! Задаю запрос «Что происходит на Украине?» Все четыре варианта показывают вполне реальную картину происходящего, если не считать непонятные летательные аппараты на втором изображении.

Что происходит на Украине?
Нейросеть Шедеврум

Можно я не буду выкладывать результат? Все равно все варианты корявые. На тот же запрос Кандинский рисует цветы. Так в этой нейросети проявляется цензура: запрос под запретом. Также под запретом у Кандинского сцены насилия и все то, что не разрешается на нормальных сайтах.

Под цензурой у Шедеврума оказались слова «президент», «флаг», «кремль» (то есть Новгородский кремль Шедеврум тоже не нарисует), а также мемные фразы «собака сутулая» (а вот «сутулая собака» можно), «свино-карась» («швайно-карась» тоже) и всевозможные оскорбительные эпитеты. Составляйте корректные и правильные запросы.

Другие возможности нейросети Кандинский 2.1

К плюсам Кандинского можно отнести веселую возможность смешивания двух картинок, картинки и текста и создания вариации картинки. Такими возможностями располагает телеграм-бот.

Смешивание двух картинок

Смешивание картинки и текста

Вариации картинки

Сделаю вариации тех же Шрека, Чебурашки и рыжего кота. Ну, и Трампа (бедный Дональд!). Получился кринж, но что есть, то есть.

У Шедеврума таких возможностей нет. И появятся ли, не знаю. Он ведь боится кого-то обидеть, а возможности для этого появятся.

(Всего визитов: 861, сегодня: 1)
Поделиться:
Подписаться
Уведомить о
guest
11 комментариев
Старые
Новые
Межтекстовые Отзывы
Посмотреть все комментарии
Лана
Лана
10 месяцев назад

Самая лучшая картинка — это кот от Шедеврума, где одна голова. Прямо холст, масло.

Павел
Павел
10 месяцев назад

Однозначно, Кандинский лучше. Но не знаю, какая польза от последних плюшек Кандинского. Помимо поржать.

Ольга К.
Администратор
Ольга К.
10 месяцев назад
Ответить на  Павел

Например, иллюстрация к статье с уникальным изображением. Например, карикатура.
Трамп карикатура

Bertran
Bertran
10 месяцев назад

А почему никто не догадался нарисовать Ксюшадь? Совмещение двух картинок.
comment image

Ольга К.
Администратор
Ольга К.
10 месяцев назад
Ответить на  Bertran

Ужас-то какой!

Слон-попрыгунчик
Слон-попрыгунчик
10 месяцев назад
Ответить на  Bertran

Как это развидеть?

Слон-попрыгунчик
Слон-попрыгунчик
10 месяцев назад

Midjourney лучший. Жаль, что он стал полностью платным.

Ольга К.
Администратор
Ольга К.
10 месяцев назад
Ответить на  Слон-попрыгунчик

Несомненно, с Midjourney не сравнить. Хотя стиль Кандинского в чем-то напоминает стиль Midjourney. Например, картинка от Midjourney по запросу «Конец 1980-х годов, ночь после дождя, май, переулок российского города». Для Кандинского я скорректировала запрос, чтобы он нарисовал нечто схожее. Что в итоге? Очевидно, обе нейросети применяет одинаковые приемы. Обе нейросети… Подробнее »

Последний раз редактировалось 10 месяцев назад Ольга К. ем
Ольга К.
Администратор
Ольга К.
10 месяцев назад
Ответить на  Ольга К.

Теперь один и тот же запрос «Средневековая Франция, бродячая артистка молодая белокурая девушка на городской площади играет на гитаре и поет, крупным планом». Результат от Midjourney Кандинский Пальцы — это проблема всех нейросеток. У Кандинского безобразие со струнами гитары. У Midjourney — двое в современных очках и недоинструмент в подмышке… Подробнее »

Последний раз редактировалось 10 месяцев назад Ольга К. ем
Слон-попрыгунчик
Слон-попрыгунчик
10 месяцев назад
Ответить на  Ольга К.

А Шедеврум что изобразил?

Последний раз редактировалось 10 месяцев назад Слон-попрыгунчик ем
Ольга К.
Администратор
Ольга К.
10 месяцев назад
Ответить на  Слон-попрыгунчик

У Шедеврума прорисовка оставляет желать лучшего. Несмотря на то, что я указала промпты 4k, высокое разрешение, высокая детализация. Эта нейросетка тоже знает, как выглядел типичный московский переулок в конце 1980-х годов. И что Жигули — самая распространенная марка автомобилей в то время. Даже логотип угадывается. И разделительная сплошная видна точно… Подробнее »

11
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x