Недавно я получил бета-доступ к совершенно очаровательному генератору преобразования текста в изображение под названием, надо сказать, довольно мило, DALL-E. Если вы не поняли шутки, это игра о Сальвадоре Дали, чрезвычайно известном и узнаваемом французском художнике-сюрреалисте начала 20-го века, а также милом роботе из мультфильма Pixar ВАЛЛ-И. Создан OpenAI, чтобы делать то, что кажется простым действием; Вводя приглашение, которое компьютер использует для создания изображения, мой художественный и технологический мозг немного зациклился. За последние две недели, когда я тестировал DALL-E, я потратил часы, вводя до 50 подсказок в день (23,5 часа, извините!) в простое белое поле ввода текста, ожидая от нескольких секунд до, возможно, минуты, а затем сидит с отвисшей челюстью и смотрит на шесть PNG-изображений с разрешением 1024 x 1024 пикселей.

Иногда первая попытка подсказки не дает мне того результата, который я ищу, и я снова думаю о языке, который использую, чтобы описать то, что я хочу увидеть. Пробую еще раз, DALL-E пробует еще раз, смотрю 6 картинок. я принимаю решения; загружать или нет, сохранять их или нет, создавать варианты одного из изображений, редактировать одно из изображений и получать в ответ новые варианты. DALL-E делает все, что я ему говорю, но в некотором смысле имеет собственное мнение. Язык неточен и зависит от интерпретации. Я не знаю, как думает компьютер, хотя за пару недель я узнал несколько вещей, которые работают или не работают. Созданные пользователями руководства по быстрому письму появились в сети так же быстро, как DALL-E создает эти изображения, люди стремятся научиться приручать и доверять семиотической связи с машиной. Собраны и проиндексированы поисковые термины, охватывающие историю искусства, терминологию двух- и трехмерного дизайна, кинематографическую терминологию и техническое фотографическое освещение.

Кажется важным, что мы называем то, что мы пишем в текстовое поле, 'приглашением', а не 'командой', так как очень ясно, что иногда DALL-E на самом деле игнорирует определенные части того, о чем мы просим, ​​и уделяем больше внимания другим. Мы не приказываем DALL-E, мы просим DALL-E следовать за нами по языковому пути до тех пор, пока они будут идти, а DALL-E, в свою очередь, просит нас быть как можно более конкретными и осторожными в нашем языке. поскольку мы побуждаем машину делать вещи, которые могут показаться простыми нам, людям (представьте себе большую рыжую собаку в большой синей шляпе перед маленьким зеленым домом), но что за технология потребовала десятилетий исследований и обучения у некоторых из самые блестящие умы в мире, чтобы научиться делать.

Один из центральных вопросов, который я задавал себе, и у меня есть много вопросов, связанных со всем этим, заключается в следующем; является ли DALL-E инструментом или соавтором? То, как OpenAI выбрала рамку DALL-E в своем пользовательском интерфейсе на данный момент, заставляет меня поверить, что они являются соавторами. Когда вы делитесь изображением, сделанным с помощью DALL-E, ссылка говорит: «Krystal x DALL-E», что очень похоже на то, когда модные дома или музыканты сотрудничают и представляют свои работы вместе. Я художник, а DALL-E — мой соавтор, что, я думаю, делает их тоже художниками. Мы равны? DALL-E проделал тяжелую работу по созданию изображения, я просто ввел в текстовое поле какую-то ерунду, которая, как я думал, может выглядеть интересно. Должен ли DALL-E быть в списке первым? Семантика.

Мой второй центральный вопрос, на который я не знаю, смогу ли я ответить еще или, может быть, когда-либо, заключается в следующем; Выносит ли DALL-E суждения об эстетической ценности или же решения полностью не зависят от эстетического «вкуса»? Один из способов создания изображений с помощью DALL-E — попросить его использовать стиль уже существующего художника, например Пабло Пикассо или Фриды Кало. Можно создать образ чего угодно в стиле другого художника. При использовании такого рода подсказок результаты изображения часто эстетичны и гармоничны, передача стиля как бы передает эстетическую значимость названного художника. Предполагается, что у художника есть «эстетическая ценность» и «вкус», поскольку этот художник был историзирован до такой степени, что его включили в набор для обучения глубокому обучению. Очевидно, что не каждый стиль художника гармоничен и приятен, можно получить результаты, которые передают суровый стиль Босха или дикие мазки Де Кунинга. Но общий эстетический эффект остается на месте, даже если он широко применяется таким образом, что кажется, что он теряет свой первоначальный смысл.

Одно из предложений OpenAI состоит в том, что вы используете термин 'цифровое искусство' для создания изображений, которые я пробовал и нашел для создания очень особого стиля изображения, который я не знаю, как разместить или найти в канон истории искусства, может быть, потому, что ему там не место. Но это хорошо работает, если попросить DALL-E уточнить нечеткое изображение по какой-либо причине. Использование только «искусства» каким-то образом не дает тех же результатов. Интересно, на скольких профилях Behance DALL-E обучался, чтобы приобрести эти навыки.

При написании подсказок, которые не относятся к существующему исполнителю или стилю, результаты гораздо более разнообразны и непредсказуемы. Одно слово может изменить ход подсказки до крайней степени. Когда я смотрю на результаты таких подсказок, мне становится ясно, что на стороне компьютера меньше эстетического выбора, чем в случае запросов, специфичных для исполнителя. Компьютер все еще пытается сопоставить модель того, с чем, по его мнению, строка поиска наиболее тесно связана, и найти изображения, тесно связанные с этой строкой. Я до сих пор (к счастью) не совсем понимаю, как именно DALL-E занимается такими вещами. Один просит DALL-E воспроизвести реальность, которая для него является фотографией реальности. Весь опыт DALL-E опосредован обучением, и, таким образом, все его результаты двойственны: изображение дважды обрабатывается, прежде чем оно даже достигает нашего слабого человеческого глаза.

Я не уверен, что означает DALL-E, или как он делает то, что делает так быстро, или почему он иногда выдает бессмысленный текст, или почему он так не любит создавать группы лиц, но я уверен в одном. — это впечатляет. Я пользуюсь компьютерами с подросткового возраста, уже более половины своей жизни, и помню часы ожидания, чтобы загрузить одно изображение на мерцающем экране в том, что мы называли «компьютерной комнатой» дома моего детства. Теперь просить ИИ сделать мне индивидуальное изображение всего, что я хочу, по прихоти, и заставить его предоставить мне 6 разных изображений менее чем за минуту — это очень удивительно, если не внушает благоговейный трепет, хотя скорость, с которой это изнашивалось прочь, поскольку я требовал все больше и больше моих ожиданий, вещь была интересной. Начали проявляться недостатки в моем языке или непонимание между тем, что я имел в виду, и тем, о чем, по мнению ДАЛЛ-И, я говорил. OpenAI (к счастью!) имеет строгую политику содержания, которая защищена фильтрами слов, но это помешало мне обратиться к Деве Марии, одному из главных персонажей истории искусства.

Руководства по написанию подсказок пишут бета-тестеры, которые читают так, будто всерьёз ковыляют из Ридерз дайджест по истории искусств и словарей к курсам двух- и трёхмерного дизайна. Потратив тысячи долларов и часы на обучение нейронной сети для создания изображений из текста, введенного людьми, люди пишут электронные книги о том, какой язык использовать, чтобы вызывать желаемые изображения от машины. Сейчас машина обучает нас тому, как ею пользоваться. Если DALL-E — это инструмент, мы можем быть рукояткой.

Часть процесса бета-тестирования DALL-E заключается в том, чтобы помечать все, что неправильно — либо изображения, которые каким-то образом предвзяты, либо изображения, которые не соответствуют тексту. Я обнаруживаю, что отмечаю многие из них, что кажется хорошим. Мы должны еще учиться. Должны быть еще пути. Я не думаю, что сейчас мы не готовы к полноценному будущему. Было бы лучше, если бы ДАЛЛ-И мог немного прикинуться тупицей, пока мы изучаем основы.

Как художник, если я собираюсь сотрудничать с другим художником, я хочу знать кое-что об этом человеке; каков их стиль, каков их процесс, в какое время дня они любят работать, хотят ли они работать вместе или по отдельности, как они общаются. Я мог бы захотеть некоторой прозрачности в мыслительном процессе моего соавтора, в качестве удовольствия. В этом и удовольствие работать с кем-то другим, и вызов. Нужно найти способ согласовать мысли с кем-то таким образом, чтобы мысли находились в гармонии, в согласии друг с другом.

С моими инструментами мне нравятся очень специфические вещи, и я очень хорошо забочусь о тех инструментах, которые мне нравятся. У меня есть кисти для рисования, которые я носил со школы (спасибо и извините, Centennial High!), и они несут в себе память обо всех произведениях искусства, которые я сделал с ними. У инструментов есть история и отношения, которые развиваются. Даже в эфемерных процессах, где инструментами могут быть время, музыка, тело в движении, экран компьютера; эти инструменты привычны и знакомы, у них есть обратная связь и процедуры, которые мы понимаем и которым следуем. Мы знакомы друг с другом.

Вот где я запутался в DALL-E, и почему я все еще чувствую, что просто помещаю язык в черный ящик и получаю что-то, что не похоже на отражение или образ меня самого. Если DALL-E — мой сотрудник, я хочу узнать больше о его процессе, увидеть, как он думает, иметь возможность дать ему обратную связь и знать, что он ее получил. Если DALL-E — мой инструмент, я хочу знать, как мой ввод повлияет на результат, знать вес моих слов, видеть, как моя рука преобразуется с помощью инструмента в изображение, которое получается.

Я могу смотреть на эти изображения часами и находить в них смысл, смысл, примененный моим мозгом с помощью языка и эмоций, связанный с моими воспоминаниями и жизненным опытом. Я помещаю произведения искусства в контекст моих знаний, моего взгляда на мир. Но машина, которая их делает, не «знает», машина не придает и не принимает смысла, машина не использует вкус или субъективность, чтобы показать руку художника в совокупности работ, которые вписываются в произведение, которое вписывается в более широкий контекст истории искусства. Машина видит слова, как числа, и векторы вложений между словами, и расстояние между этими вложениями, и изображения, которые также имеют те же самые точки данных, и пытается предсказать, как должна выглядеть строка. Не протягивает руку и не ухо, не дает советов и идей, не стирает на следующий день то, что не нравится. Он просто создает и движется дальше, и в некотором смысле именно так я отношусь к изображениям, которые я создаю.

Я пока не знаю, где их вписать в свой творческий процесс, не уверен, что им там вообще место. Я не уверен, вдохновляют ли меня эти изображения на то, чтобы хотеть больше заниматься искусством, или отговаривают меня от желания делать больше искусства. Это странное время для художника, и так было уже некоторое время, и я всегда адаптировался и находил способы привнести технологии в свое искусство и искусство в свои технологии. На данный момент мне очень нравится играть с этой новой блестящей технической игрушкой и думать о том, что она значит для искусства, педагогики и человечества.

Я намерен написать больше эссе о своих мыслях о DALL-E и преобразовании текста в изображение, поскольку я пытаюсь больше узнать о том, как работают нейронные сети, и больше думать о том, чего хотят эти изображения. Подпишитесь на меня в Твиттере, чтобы быть в курсе обновлений!

Кристал Южный Райх — ботаник, художник и писатель, живущий в Мельбурне, Австралия. Она публикует свои любимые изображения DALL-E в Weird Ass Houses в Instagram. Она никого не знает в Мельбурне, поэтому, если вас это заинтересует, напишите ей! Это портрет ее мозга из 2013 года.