Изкуствен интелект синтезира сложни изображения от текстово описание – резултатите са впечатляващи

78
Изкуствен интелект синтезира сложни изображения от текстово описание – резултатите са впечатляващи

Синтезът на изображения от текст генерира изображения на базата на описание на обикновен език. След това изкуствен интелект (AI) създава изображение, базирано на него. Всяко изображение е уникално. Тази технология все още прави първите си стъпки и моделите, които можехме да видим до скоро, не бе бяха особено впечатляващи. Демонстрацията, показана от изследователите от OpenAI, обаче, е повече от впечатляваща.

 

генериране на изображение по текст

 

Картина по описание

Представете си система, която може да генерира изображение по изключително комплексно описание, например „сюрреалистична картина, която изглежда като сън от Салвадор Дали на котка, която играе дама.“ Как би изглеждало нещо подобно? Вероятно, ако сте художник, бихте могли да го нарисувате. AI моделите, разработени от OpenAI, стартъп, основан с участието на Elon Musk може да генерира фотореалистични изображения по подобни описания почти в реално време. Можете да се уверите сами като прегледате снимките.

Нашите наблюдения са, че моделът може да създава фотореалистични изображения със сенки и отражения, може да композира различни композиции по правдоподобен начин и да създава артистични картини на уникални концепции,“ пишат изследователите, въвлечени в проекта в arXiv.

 

генериране на изображение по текст

 

Технология

За да постигат фотореалистичен ефект, базиран на описание в свободен текст, изследователите са използвали дифузни модели. Те работят чрез добавяне на Гаусов шум, който постепенно заличава детайлите на информацията, докато остане само шум. След това специално обучена изкуствена невронна мрежа извършва обратния процес по възстановяване на данните. Предимството спрямо други модели на синтез е във високото качество, което генерира резултати, които практически са неразличими за човешкото око от традиционните версии.

Учените от OpenAI първоначално са обучили дифузен модел с 3,5 милиарда параметъра, който включва текстов енкодер, който „превежда“ параметрите на изображенията към разговорния език. След това те са тествали различни текстове, които да ръководят дифузните модели към следващите стъпки и са ги оценили чрез съчетание от автоматични системи и човешки контрол, за да постигнат оптимални резултати.

 

генериране на изображение по текст

 

Работа, базирана на налични изображения

Дифузните модели са в състояние да генерират фотореалистични изображения без изходен файл, но създаването на убедителни изображения от много сложни описания може да бъде сложно. Затова моделът включва и възможности за редактиране. След въвеждане на текстово описание, системата търси налично изображение, след което го редактира и допълва. Нещо като Photoshop, който взима решения сам като търси и комбинира отделните елементи от описанието от наличните снимки.

Източник: www.zmescience.com

Име: Мартин Новев

Професионален опит: Практик с журналистически опит. Познава добре печатните технологии, но и умее да пише много добре. През последните осем години трупа опит в различни печатници като се занимава с филмова експонация, оператор е на CTP, прави електронни монтажи и предпечат. Най-голямата сила на Мартин обаче е в предаването на този полезен опит в лесен и удобен за четене вид. Уменията са придобити благодарение на образованието му по журналистика от Софийски университет и трите години опит като репортер във в. "Новинар", "Сега" и "168 часа".

Настоящи занимания: Основната му работа е като оператор предпечат, което го поставя на бойното поле всекидневно - решава множество работни казуси, познава в дълбочина софтуерните продукти за предпечат, както и всички печатни и довършителни процеси.

В свободното си време: Макар в екипа ни да сме все четящи хора, не познаваме друг човек, който да чете повече от Мартин.