Высший в интернете

Практикум по ИИ-рисованию, часть вторая Среди изображений, что выдаёт даже не самый мощный игровой ПК, на котором запущена Stable Diffusion в базовой версии модели 1.5, заметное большинство выходят, скажем мягко, средненькими по качеству. «Качество» понимается здесь максимально широко: это и корректность воспроизведения объектов реального мира (особенно людей, особенно кистей их рук), и гармоничность композиции, и даже адекватность перспективы. Дотренированные энтузиастами чекпойнты в среднем показывают более приемлемые результаты, но и здесь не стоит рассчитывать, что с первого раза удастся получить такую картинку, которую захотелось бы поставить в качестве обоев на «Рабочий стол» или же распечатать и повесить в рамочке на стену. Поэтому, прежде чем судить о том, насколько хороша та или иная формулировка подсказки, тот или иной параметр генерации, то или иное дополнение к основной модели (текстовая инверсия, LoRA и пр.), имеет смысл провести довольно длительные испытания — просмотрев выдаваемые системой десятки, а лучше сотни картинок. К счастью, генерация отдельного изображения размером 512 768 точек занимает на GeForce GTX 1070 с 8 Гбайт видеопамяти менее двух минут, так что набор такой статистики — задача вполне посильная. Другое дело, что с картинкой столь ничтожных размеров в наши дни делать особо нечего. И смартфонными, и компьютерными экранами с разрешением менее чем Full HD сегодня мало кто пользуется, а безыскусно растянутое в графическом редакторе, скажем, с 768 512 до 1620 1080 изображение будет смотреться крайне непривлекательно из-за неизбежных артефактов алгоритмического масштабирования. Фрагменты изображения, используемого как основной пример в настоящем практикуме, до (слева) и после (справа) четырёхкратного умного укрупнения. Реальная высота фрагмента слева — 300 пикселов (растянут ради удобства сопоставления стандартными средствами алгоритмического масштабирования в графическом редакторе), справа — 1200 пикселов. Есть ли средство борьбы с этой напастью? Есть, и оно тоже доступно пользователям Stable Diffusion с интерфейсом AUTOMATIC1111 (и целым рядом других): это умное укрупнение картинки. Такое, при котором естественным образом возникающие зазоры между исходными точками заполняются либо так называемым латентным шумом (и тогда «шершавые» пикселизованные линии превращаются в гладкие, переходы между соседними цветовыми полями также адекватным образом сглаживаются), либо дополнительно генерируемыми деталями. К примеру, какой-нибудь домик в лесу, на картинке с размерами 768 512 точек намеченный буквально горсткой пикселов, при умном укрупнении изображения целиком, скажем, втрое, до 2304 1536, обретёт натуралистичную детализацию — вплоть до фактуры переплётов на окнах, различимых кирпичей трубы и явно отблёскивающей металлом дверной ручки. Да, для этого придётся задействовать немалые вычислительные… Подробнее https://7ooo.ru/group/2023/06/12/297-praktikum-po-ii-risovaniyu-chast-vtoraya-grss-213982313.html