Новые модели искусственного интеллекта OpenAI создают изображения из текста

OpenAI представила DALL-E и CLIP, две новые генеративные модели искусственного интеллекта, которые могут генерировать изображения из вашего текста и классифицировать ваши изображения по категориям соответственно. DALL · E — это нейронная сеть, которая может генерировать изображения из самых необузданных текстов и описаний изображений, загружаемых в нее, таких как «кресло в форме авокадо» или «тот же кот наверху, что и эскиз на дно». CLIP использует новый метод обучения для классификации изображений, который должен быть более точным, эффективным и гибким для ряда типов изображений.

Генеративные предварительно обученные модели Transformer 3 (GPT-3) от американской компании AI используют глубокое обучение для создания изображений и текста, похожего на человека. Вы можете дать волю своему воображению, ведь DALL · E обучен создавать разнообразные — а иногда и сюрреалистические — изображения в зависимости от вводимого текста. Но модель также вызывает вопросы относительно авторских прав, поскольку DALL-E использует изображения из Интернета для создания своих собственных.

AI-иллюстратор DALL · E создает необычные изображения

Название DALL · E, как вы, возможно, уже догадались, представляет собой портфель художника-сюрреалиста Сальвадора Дали и студии Pixar WALL · E. DALL · E может использовать ввод текста и изображений для создания необычных изображений. Например, он может создать «иллюстрацию маленького редиса дайкона в пачке, выгуливающего собаку» или «улитку из арфы». DALL · E обучен не только генерировать изображения с нуля, но и регенерировать любое существующее изображение в соответствии с подсказкой текста или изображения.

Результаты изображения для текстового запроса «улитка из арфы»

GPT-3 от OpenAI — это языковая модель глубокого обучения, которая может выполнять различные задачи по созданию текста с использованием языкового ввода. GPT-3 мог написать рассказ, как человек. Для DALL · E лаборатория искусственного интеллекта из Сан-Франциско создала изображение GPT-3, заменив текст изображениями и обучив ИИ завершать полуобработанные изображения.

DALL · E может рисовать изображения животных или предметов с человеческими характеристиками и разумно комбинировать несвязанные предметы для создания единого изображения. Степень успеха изображений будет зависеть от того, насколько хорошо сформулирован текст. DALL · E часто может «заполнить пробелы», когда заголовок подразумевает, что изображение должно содержать определенную деталь, которая явно не указана. Например, текст «жираф из черепахи» или «кресло в форме авакадо» даст удовлетворительный результат.

Обрезка текста и изображений

CLIP (Contrastive Language-Image Pre-training) — это нейронная сеть, которая может выполнять точную классификацию изображений на основе естественного языка. Это помогает более точно и эффективно классифицировать изображения по отдельным категориям от «нефильтрованных, сильно различающихся и сильно зашумленных данных». Что отличает CLIP, так это то, что он не распознает изображения из тщательно подобранного набора данных, как это делают большинство существующих моделей визуальной классификации. CLIP прошел обучение по широкому спектру методов контроля естественного языка, доступных в Интернете. Таким образом, CLIP узнает, что изображено на картинке, по подробному описанию, а не по отдельному помеченному слову из набора данных.

CLIP можно применить к любому тесту визуальной классификации, указав имена визуальных категорий, которые нужно распознать. Согласно блогу OpenAI, CLIP аналогичен возможностям «нулевого снимка» GPT-2 и GPT-3.

Такие модели, как DALL · E и CLIP, могут оказать значительное влияние на общество. Команда OpenAI заявляет, что они проанализируют, как эти модели связаны с социальными проблемами, такими как экономическое влияние на определенные профессии, возможность предвзятости в результатах модели и долгосрочные этические проблемы, связанные с этой технологией.

Генеративная модель искусственного интеллекта, такая как DALL · E, которая выбирает изображения непосредственно из Интернета, может открыть путь к нескольким нарушениям авторских прав. DALL · E может регенерировать любую прямоугольную область существующего изображения в Интернете. И люди писали в Твиттере об авторстве и авторских правах на искаженные изображения.

I, for one, am looking forward to the copyright lawsuits over who holds the copyright for these images (in many cases the answer should be "no one, they're public domain"). https://t.co/ML4Hwz7z8m
— Mike Masnick (@mmasnick) January 5, 2021

Источник: gadgets.ndtv.com