Битва нейросети: В баттл-рэп пришли…нейросети!

Содержание

Что умеют нейросети? 35 проектов, созданных искусственных интеллектом | Технологии | Блог

В 2017 году Илон Маск заявил, что искусственный интеллект — угроза для всего человечества. А уже спустя два года он с гордостью сообщил, что разрабатывает систему Neuralink — имплантирование компьютерных чипов прямо в мозг людям. Кажется, сторонники конспирологических теорий в качестве жертвы выбрали не того человека. В чем-то Маск все-таки был прав: искусственный интеллект уже сейчас может делать очень много — снимать видео, писать картины и тексты и даже создавать новых людей.

Нео-Рембрандт и кибер-сюрреализм

Нейросети, обрабатывающие изображения, стали уже нормой. Фоторедакторы, добавляющие макияж и прически на сэлфи; креативная обработка снимков а-ля классическая живопись или абстракция в духе Ван Гога — всем этим уже не удивить. Последний тренд — нейросеть Selfie 2 Waifu, которая превращает ваше лицо в аниме-персонажа. Работает кривовато, но забавно.

А вот искусственный интеллект, создающий картины с нуля — это уже посерьезнее. Правда, станковым художникам вздрагивать пока рано — чтобы нейросеть выдала что-то более-менее логичное и приятное глазу, ее нужно обучить тысячами примеров.
Например, китайская художница Сугвен Чунг сначала научила искусственный интеллект на примере своих собственных рисунков, а потом начала устраивать арт-перфомансы, где машина рисует картины вместе с ней. На своем выступлении на конференции TEDx она сказала, что ИИ в искусстве — это «слияние технологии и философии».

И таких примеров масса. Например, Дэвид Янг учит ИИ рисовать цветы (тоже по своим собственным работам), Даниэль Амброси — абстрактную природу, Софи Креспо — несуществующие биологические микроорганизмы.

Самым громким событием в мире «искусственного искусства» стал портрет Эдмонда де Белами, созданный нейросетью в 2018 году. Картина оказалась настолько интересной, что была продана на аукционе Christie’s за 432 500 долларов. Французская арт-группа Obvious тренировала свою нейросеть по данным WikiArt. Прежде чем создать коллекцию полотен «La Famille de Belamy», ИИ обработал более 15 000 классических картин в период с 14 по 19 век.

Искусственный интеллект под руководством Марио Клингеманн создал серию картин, обогнавших по проработке и красоте средневековую семейку Беллами. Коллекция «Воспоминания прохожих» не стала такой же золотой птичкой на аукционах, но была оценена Sotheby’s в 40 000 евро. Выглядит творение машины и Клингеманна очень впечатляюще.

Кстати, программу для создания того самого Эдварда Белами написал Робби Баррат — 20-летний парень, уже преподающий в Стэнфорде. И этот опыт не стал для него последним. Позднее Баррат загрузил нейросеть десятком тысяч обнаженных тел. В итоге ИИ начал выдавать то, что сам Баррат назвал как «сюрреалистические капли плоти с конечностями». Сальвадор Дали для создания своих картин покуривал опиум, а теперь для сюрреализма достаточно уметь хорошо программировать.

Одним из самых невероятных событий в мире кибер-искусства стала выставка картин, на которой присутствовал сам их автор — робот. ИИ в виде гуманоиодного — и весьма миловидного — робота по имениAI-Da явился на свою собственную экспозицию в Оксфорде.

Основное отличие «Аиды» от всего, что было раньше — она рисует в реальном пространстве прямо на бумаге. С помощью встроенной камеры она анализирует предметы, считывает координаты реального пространства и создает алгоритмы виртуальной модели, которую затем переносит на настоящий холст. «Аида» умеет рисовать красками, карандашами и даже лепить из глины.

«Выставка ставит под сомнение наши отношения с технологиями и миром природы. Искусственный интеллект и новые технологии могут быть одновременно прогрессивной и разрушительной силой для нашего общества. Кроме того, Ai-Da сама по себе предмет искусства. Ее существование поднимает вопросы, связанные с биотехнологией и трансгуманизмом», — прокомментировали это событие оксфордские галеристы.

«Возьми, умри. А потом живи как бегун» — тексты от нейросетей

ИИ все увереннее входит в современную журналистику. Уже сейчас информационное агентство Bloomberg News создает примерно треть своего контента с помощью нейросети Cyborg, которая быстро обрабатывает отчеты и составляет новости. А вот статья The Guardian, также написанная искусственным интеллектом. В The Washington Post «работает» робот-журналист Heliograf, в агентстве Associated Press статьями о финансовых отчетах тоже занимается ИИ.

Мировая журналистика видит в искусственном интеллекте огромный потенциал для автоматизации механических процессов. При этом крупнейшие издания не считают, что ИИ вытеснит людей из профессии, так как журналистика — профессия творческая, ориентированная на любопытство, дедукцию и поиск фактов.

В это же время нейросети потихоньку учатся не только обрабатывать данные для сухих новостных статей, но и писать художественные книги и сочинять стихи. Долго считалось, что поэзия — это вообще нереально для нейросетей. Пока в 2013 году у «Яндекса» в соавторстве с Google не появился «Автопоэт», который сочиняет стихи из поисковых запросов. Получается у него, конечно, полная бессмыслица, но иногда от нее веет таким холодком безысходности, что, как ни крути, а проникаешься.

В 2016 году Google решили научить нейросеть писать стихи по книжкам — ИИ обработал около 11 тысяч книг и начал выдавать декадентскую поэзию, которая вполне себе может поспорить с некоторыми творениями людей:

«Он надолго замолчал.
Он смолк на мгновение.
На секунду стало тихо.
Было темно и холодно.
Возникла пауза.
Теперь мой черед».

Годом позже за дело взялись Facebook AI Research — дочернее подразделение одноименной компании по разработке ПО для искусственного интеллекта. Они поставили нейросети задачу не только считывать стихотворные размеры и рифмовать слова, но и вкладывать в это все хоть какой-то смысл. Нейросеть учили уже не по поисковым запросам и прозе, а по настоящим стихам. По итогам обучения исследователи организовали опрос, предлагая людям выборку из стихов, написанных реальными людьми и искусственными интеллектом. В половине случаев респонденты ошиблись, не отличив кибер-поэзию от реальной. Вот, например, что-то в духе Оскара Уайльда в стихах:

«The frozen waters that are dead are now
black as the rain to freeze a boundless sky,
and frozen ode of our terrors with
the grisly lady shall be free to cry».

Илон Маск тоже не тормозит — его компания OpenAI уже не первый год совершенствует программу по генерации текстов, и буквально весной 2020 года вышло уже третье обновление текстовых алгоритмов GPT-3. Эта нейросеть «знает» более 570 гигабайт текста и 175 миллиардов примеров, чтобы выдавать не просто пару осмысленных предложений, но писать целые статьи и эссе. Разработчики говорят, что их детище настолько крутое, что они не хотят выпускать нейросеть в свет, опасаясь вредоносного применения. В массовом доступе есть только упрощенный вариант предыдущей версии генератора GPT-2, который даже можно скачать вот здесь.

Российские разработчики тоже включаются в дело. В ответ на многомиллиардные разработки Илона Маска московский разработчик Михаил Гранкин создал «Порфирьевича» — текстовую нейросеть, которая создает немного текста на основе пары фраз или предложений. По сути «Порфирьевич» — это тот же GPT-2, которого Гранкин адаптировал на русский язык.

При этом получается у «Порфирьевича» не только весьма убедительно, но и частенько с чувством юмора. Еще бы, он ведь учился на творчестве Достоевского, Булгакова, Гоголя и немного Пелевина.

Михаил Гранкин пошел чуть дальше и решил поучаствовать в гонке за звание лучшей кибер-поэзии. Так появился телеграм-бот «Нейропоэт», которому нужно дать пару строчек, а дальше он сам сгенерирует стихотворное продолжение.

Кроме текстов, нейросети начали писать сценарии. В 2019 году ИИ создал концептуальный ролик для Nike, обучившись на рекламных слоганах компании за последние 8 лет. Получилось очень в духе бренда, стильно и симпатично. Правда, если поймать стиль у нейросети точно получилось, то с содержанием все не так неоднозначно. Вроде бы ИИ пропагандирует крутую идею про преодоление: «Жизнь несправедлива. Если бы у тебя была всего одна рука, то не просто смотри на марафон. Сначала — марафон», но потом почему-то советует вот это: «Будь не просто миром. Возьми, умри. А потом живи как бегун».

А вот у искусственного интеллекта IBM Watson получилось куда круче. Эта нейросеть написала сценарий для рекламы седана Lexus E. И она училась не по рекламным кампаниям бренда, а вообще по всем самым крутым роликам про автомобили, получившим Каннскую награду за 15 лет. Британский кинорежиссер Кевин Макдональд в соавторстве с креативным агентством The&Partnership London сняли ролик по сценарию нейросети и получилось… да круто получилось!

От Шостаковича до Егора Летова

В 2016 году разработчики «Яндекса» Иван Ямщиков и Алексей Тихонов выпустили музыкальный альбом. В его создании принимал участие Егор Летов и нейросеть. Получилась «Нейронная оборона» — искусственные тексты в духе Гражданской Обороны. На самом деле этот первый резонансный опыт нельзя полностью записать на счет ИИ. Ямщиков и Тихонов сами сочиняли музыку, сами пели, да и выборку строчек из песенных текстов для алгоритма нейросети тоже собирали сами.

Вслед за «Нейронной обороной» эти же разработчики научили нейросеть сочинять в духе Курта Кобейна, а затем написали целую пьесу «Цифровой восход», которую впоследствии исполнил оркестр Юрия Башмета. Но даже здесь, несмотря на то, что нейросеть училась у Баха и Шостаковича, пришлось поработать человеку. Композитор Кузьма Бодров вручную обрабатывал кучу аудиодорожек, созданных ИИ, дописывал и развивал выбранные фрагменты и собирал их в одну композицию.

В 2017 году состоялся еще один музыкальный эксперимент от классики. На сей раз Ямщиков и Тихонов взяли за основу стиль Александра Скрябина, а аранжировкой и сборкой получившихся аудиодорожек занималась композитор Мария Чернова.

Конечно, «Яндекс» — не единственный, кто учит нейросети сочинять музыку. В том же 2017 году вышел альбом Hello World, написанный ИИ и доведенный до ума группой композиторов и музыкантов. Вышло несколько футуристично, но очень даже интересно.

А вот песня от проекта Flow Machines, которая очень напоминает творчество The Beatles.

OpenAI тоже работает над тем, чтобы научить свои нейросети музыке. Так появился проект Jukebox, который создает и тексты, и музыку, и уже нагенерировал больше семи тысяч композиций. Пока журналисты и композиторы признают Jukebox самым интересным музыкальным алгоритмом из всех существующих. Jukebox действительно очень неплохо имитирует жанры и повторяет стиль известных исполнителей и групп, у которых учится. Ключевое отличие Jukebox от всего, что было раньше — она выдает готовый продукт автоматически. То есть и играет, и поет нейросеть сама без участия человека. Послушать творчество 
OpenAI можно здесь.

Все же, в музыке нейросети еще не настолько самостоятельны, как в живописи и текстах. Пока в большинстве случаев ИИ выдает набор звуков, не связанных ни ритмом, ни композицией, из которых композиторы уже вручную отбирают интересные сочетания и созвучия.

Новые люди и…котики!

Не то чтобы нейросети научились создавать реальных людей, которые ходили бы рядом с нами. Но вот генерировать фотографии несуществующих людей — вполне и весьма качественно. В прошлом году Филипп Ванг на базе алгоритма StyleGAN от Nvidia запустил сайт, который может бесконечно создавать человеческие портреты.

Алгоритм работает в комбинации двух нейросетей: одна генерирует изображение, а вторая проверяет его на реалистичность. Адаптация происходит настолько ошеломляюще реалистичной, что отличить фейк от настоящего лица нереально.

На этом Nvidia не остановились, запустив аналогичные сервисы по созданию лошадей, молекул, картин и, конечно, котиков!
Кстати, создать своего собственного несуществующего котика можно и с помощью сервиса Affinelayer. В одном окошке вы рисуете кота, в другом нейросеть генерирует что-то по вашему рисунку. Получается далеко не так реалистично, как у предыдущего алгоритма, но так и первоисточник в виде ручного рисунка — так себе.

Многие разработчики, стоящие за созданием алгоритмов нейросетей, по-прежнему не считают, что искусственный интеллект — во всяком случае пока что — сможет всецело заменить какие-то профессии. Работа нейросетей все равно основана на считывании уже существующих данных и примеров, созданных живыми людьми. Чтобы сгенерировать пару строчек более-менее осмысленного текста, нейросеть обрабатывает сотни тысяч уже написанных книг, а чтобы нарисовать котика, похожего на настоящего — миллионы фотографий настоящих котов. Человеческое воображение и творчество по-прежнему остаются источником данных для машинных алгоритмов. Так что если вы художник, писатель, поэт или музыкант, то беспокоиться пока рано. Но кто его знает, что случится в будущие годы…

FaceApp отдыхает. 7 бесплатных и полезных нейросетей, которые упростят вашу жизнь

GauGAN не даст рисовать, как профан

GauGAN — это нейросеть компании Nvidia. Она умеет дорисовывать за человеком картины. Причём уровень додумывания у программы невероятный. Достаточно нарисовать буквально несколько простейших фигур и пару-тройку линий, а дальше GauGAN сделает всё сама. А именно — превратит человеческий примитив в шедевральный пейзаж типа заставки для Windows XP.

Открой портал в аниме

Стилизовать портрет под карандашный скетч или рисовать на лице морщины — это, конечно, интересно. Но как насчёт того, чтобы за несколько секунд превратить себя в персонажа какого-нибудь аниме? Нейросеть Selfie2Anime частично эту задачу решает. Аниме или мангу ИИ про человека не сочинит, а вот превратить фотографию в анимешный рисунок — вполне. Как ни странно, сервис родом не из Японии, а из Петра, что в Западной Австралии.

Фото © LIFE / Роман Кильдюшкин

Стань мастером Photoshop за одну минуту

Нейросеть для развлечения — хорошо, а нейросеть для дела — ещё лучше. Одной из таких является Inpainting, авторами которой, к слову, тоже являются разработчики из Nvidia. Главная ценность данного сервиса — ретуширование ненужных объектов на снимках. Лишними могут оказаться как морщины на лице, так и, например, случайный человек, который своим присутствием испортил классный пейзаж. Приятно и то, что для работы с Inpainting не надо проходить специальные курсы. На всё про всё в работе с сервисом уходит не более пары минут.

Игра, в которой доминирует нейросеть

И нет, Quick, Draw! учит рисовать не таким читерским способом, как GauGAN. Алгоритм просит схематично изобразить стол, стул, хлеб или что-нибудь ещё, а человек, исходя из задания, рисует скетч. Причём на время — Quick, Draw! даёт на рисунок 20 секунд. Забава очень простая, но затягивающая. И в каком-то смысле полезная. Авторами сервиса являются разработчики из Google. Цель проекта — натренировать ИИ распознавать объекты на изображениях.

Стань королём Photoshop за одну минуту

Подозреваем, что многие люди приходили к Photoshop из-за такой тривиальной задачи, как отделение объекта на фотографии от фона. Программа от Adobe, разумеется, на это способна. А вот человек найти нужные рычажки и кнопки может далеко не всегда. Так вот, хвала математике, появилась нейросеть, которая способна выполнить описанную выше задачу всего за минуту. Называется она remove.bg.

В конце концов, просто забудь про Photoshop

Потому что, если поискать, можно, кажется, найти нейросеть, которая заменит любую популярную функцию знаменитого редактора изображений. Мы уже рассказали, как ретушировать ненужное и отделять объекты от фона, а теперь покажем, как быстро и качественно менять лица людей на снимках. Понадобится только одно — нейросеть Reflect. Самое ценное в сервисе то, что он меняет лица, сохраняя при этом мимику и тон кожи оригинального изображения.

Добавь моментам из прошлого красок

Возникла мысль о том, что в России не делают полезных нейросетей? Гоните её прочь и держите как минимум один прикольный отечественный алгоритм — Colorize от компании G-Core Labs. Данная программа тоже редактирует фотографии. А именно — добавляет цвета чёрно-белым снимкам. Да-да, с её помощью можно сделать именно то, о чём вы подумали: раскрасить старые фотографии из семейного альбома.

Стоит, правда, знать, что бесплатно улучшить фотографии можно только первые 50 раз. Далее придётся оформить платный доступ.

19 отличных бесплатных нейросетей | Компьютерра

К 2019 году искусственные нейронные сети стали чем-то большим, чем просто забавная технология, о которой слышали только гики. Да, среди обычных людей мало кто понимает что из себя представляют нейросети и как они работают, но проверить действие подобных систем на практике может каждый – и для этого не нужно становиться сотрудником Google или Facebook. Сегодня в Интернете существуют десятки бесплатных проектов, иллюстрирующих те или иные возможности современных ИНС, о самых интересных из них мы и поговорим.

Из 2D в 3D

На этом сервисе вы сможете вдохнуть новую жизнь в свои старые фотографии, сделав их объемными. Весь процесс занимает меньше минуты, необходимо загрузить изображение и через несколько секунд получить 3D-модель, которую можно покрутить и рассмотреть во всех деталях. Впрочем, есть два нюанса — во-первых, фотография, должна быть портретной (для лучшего понимания требований на главной странице сайта представлены наиболее удачные образцы снимков, которые ранее загружали другие пользователи; во-вторых, детализация получаемой модельки зачастую оставляет желать лучшего, особенно, если фотография в низком разрешении. Однако авторы разрешают не только ознакомиться с результатом в окне браузера, но и скачать получившийся файл в формате obj к себе на компьютер, чтобы затем самостоятельно его доработать.

Как найти: http://cvl-demos.cs.nott.ac.uk/vrn/

Нейминг брендов

Придумали крутую идею для стартапа, но не можете определиться с именем для будущей компании? Достаточно вбить несколько ключевых слов, задать длину названия в символах и готово! В общем, больше не нужно искать на фрилансе людей, которые будут решать такой личный вопрос, как наименование дела всей вашей жизни.

Как найти: https://namelix.com/

Выбор досуга

Пересмотрели все интересные вам фильмы, прочли все достойные книги и не знаете чем занять вечер? Система рекомендаций от специалиста по искусственному интеллекту Марека Грибни расскажет как увлекательно и с пользой провести свободное время. Для корректной работы сервиса вас сперва попросят указать ваши любимые произведения в кинематографе, литературе, музыке или живописи.

Как найти: http://www.gnod.com/

Рай для искусствоведа

Google специально для поклонников современного (и не только) искусства запустила проект Google Arts & Culture, в котором можно подобрать произведения по вашему вкусу как от малоизвестных, так и от малоизвестных авторов. Большая часть контента здесь на английском, но если вы не дружите с языками, можно воспользоваться встроенным переводчиком.

Как найти: https://artsandculture.google.com/project

Озвучивание картинок

Японская студия Qosmo разработала очень необычную нейросеть Imaginary Soundscape, которая воспроизводит звук, соответствующий тому или иному изображению. В качестве источника информации вы можете указать ссылку на любую картинку в Интернете, загрузить свой файл либо выбрать случайную локацию на Google Maps.

Как найти: http://imaginarysoundscape2.qosmo.jp/

Не умеешь рисовать – тогда тебе к нам!

Если вы пробовали использовать рукописный ввод на своем смартфоне, эта нейросеть покажется вам до боли знакомой: она превращает любые каракули в аккуратные 2D-рисунки.

Как найти: https://www.autodraw.com/

Генерация людей

Thispersondoesnotexist – это один самых известных AI-проектов. Нейросеть, созданная сотрудником Uber Филиппом Ваном, выдает случайное изображение несуществующего человека при каждом обновлении страницы.

Как найти: https://thispersondoesnotexist.com/

Генерация… котов

Тот же автор разработал аналогичный сайт, генерирующий изображения несуществующих котов.

Как найти: https://thiscatdoesnotexist.com/

Быстрое удаление фона

Часто ли вам приходится тратить драгоценное время на удаление бэкграунда с фотографий? Даже если регулярно такой необходимости не возникает, следует на всякий случай знать о возможности быстрого удаления фона с помощью удобного онлайн-инструмента.

Как найти: https://www.remove.bg/

Написать стихотворение

Компания ‘Яндекс’, известная своей любовью к запуску необычных русскоязычных сервисов, имеет в своем портфолио сайт, где искусственный интеллект составляет рандомные стихотворения из заголовков новостей и поисковых запросов.

Как найти: https://yandex.ru/autopoet/onegin/27

Окрашивание черно-белых фотографий

Colorize – это также российская нейросеть, возвращающая цвета старым черно-белым снимкам. В бесплатной версии доступно 50 фотографий, если вам нужно больше, можете приобрести платный аккаунт с лимитом в десять тысяч изображений.

Как найти: https://colorize.cc/dashboard

Апскейлинг фото

Лет 10-15 назад камеры мобильных устройств не отличались высоким разрешением, и слабый сенсор в телефоне никак не мог справиться с детализированной картиной окружающего мира. Теперь же, если вы захотите повысить разрешение своих старых фотографий, это можно сделать на сервисах вроде Bigjpg и Let’s Enhance, которые позволяют увеличить размер изображения без потери в качестве.

Как найти: https://bigjpg.com/

https://letsenhance.io/

Чтение текста голосом знаменитостей

Благодаря высоким технологиям, сегодня у вас есть возможность озвучить любую фразу голосом самых известных в мире людей. Все просто: пишите текст и выбираете человека (среди последних — Дональд Трамп, Тейлор Свифт, Марк Цукерберг, Канье Уэст, Морган Фриман, Сэмюель Л Джексон и другие).

Как найти: https://voice.headliner.app/

Описание фотографий

Казалось бы, искусственный интеллект должен быть способен без труда описать любую, даже самую сложную картинку. Но это вовсе не так, обучить ИИ распознавать отдельные образы действительно относительно просто, а вот заставить компьютер понимать общую картину происходящего на изображении, очень сложная задача. У Microsoft получилось с ней справиться, и ее CaptionBot без труда скажет, что вы ему показываете.

Как найти: https://www.captionbot.ai/

Музыкальная шкатулка

Напоследок расскажем о целой пачке нейросетей от Google, первая из них – Infinite Drum Machine. Открыв страницу приложения, вы увидите своеобразную карту, на которой находятся самые разнообразные звуки. С помощью круглых манипуляторов можно изменять сочетание элементов, если получившийся набор покажется вам бессмысленным, нажмите кнопку Play в нижней части экрана и звуковая картина сложится сама собой.

Как найти https://aiexperiments.withgoogle.com/drum-machine

Птичий хор

Если предыдущий сервис может оказаться полезным для, например, диджеев или обычных музыкантов, то польза от управления голосами десятков тысяч певчих птиц довольно сомнительна. Кстати, коллекция звуков для Bird Sounds собиралась орнитологами со всего мира на протяжении нескольких десятилетий.

Как найти: https://aiexperiments.withgoogle.com/thing-translator

Виртуальный пианист

В A. I. Duet пользователю предлагается сыграть какую-нибудь мелодию на пианино, а искусственный интеллект попробует самостоятельно закончить композицию, подобрав наиболее логичное и гармоничное продолжение.

Как найти: https://experiments.withgoogle.com/ai-duet

Распознавание рисунков

Еще во время первых экспериментов с нейросетями в середине прошлого века основной задачей машинного обучения было распознавание визуальных образов. Спустя десятки лет эта технология выбралась из лабораторий и доступна всем желающим: на сайте quickdraw.withgoogle.com/ вам предложат быстро рисовать простые наброски определенных предметов, при этом ИИ будет все время комментировать происходящее на экране синтезированной речью.

Как найти: quickdraw.withgoogle.com/

Объяснение логики машинного обучения

Проект Visualizing High-Dimensional Space (“Визуализация многомерного пространства”) создавался для того, чтобы объяснить простым людям и начинающим разработчикам, как работают нейросети. Когда ИИ, оперируя большими базами данных, получает информацию (например, вашу фотографию, введенную фразу или только что нарисованное изображение), он сравнивает входящие данные с теми, что у него уже есть. VHDS наглядно демонстрирует корреляцию одного лишь выбранного вами слова с миллионами аналогичных понятий.

Как найти: https://experiments.withgoogle.com/visualizing-high-dimensional-space

как работают, где используются и какие возникают проблемы / Блог компании Leader-ID / Хабр

Если вы в общих чертах представляете себе, как работает компьютерное зрение, но жаждете деталей, то эта статья для вас. 

Распознавание объектов нейросетью на системах Nvidia

Под катом — о том, как работают нейросети, какого рода алгоритмы используются в системах компьютерного зрения и насколько улучшилось качество распознавания за последние годы. А также о сферах применения: от медицины и геологии до транспорта, строительства и безопасности.

В общем все то, что вы хотели знать, но боялись спросить, или не доходили руки погуглить.

Статья написана по мотивам выступления Евгения Бурнаева, кандидата физико-математических наук, доцента центра Сколтеха по научным и инженерным вычислительным технологиям для задач с большими массивами данных, в московской городской Точке кипения и нашей последующей беседы с ним.

Чтобы сократить уровень посредничества, просто передаем ему слово.

Привет! Я занимаюсь deep learning’ом — глубоким обучением нейросетей для компьютерного зрения и предиктивной аналитики. Наша научная группа включает 30 исследователей. Мы активно публикуемся в передовых журналах и много сотрудничаем с индустрией — Huawei, Airbus, Bosch, Louis Vuitton, Sahara Force India Formula 1 team.

При упоминании словосочетания «искусственный интеллект» все начинают вспоминать страшилки вроде Терминатора. 

На самом деле искусственный интеллект — набор технологий на основе математики, аппаратного и программного обеспечения, который позволяет автоматизировать решение рутинных задач. 

Ассоциация математического подхода с нейросетями возникла еще в 40-х годах прошлого века, когда Питтс и Мак-Каллок предложили простейшую математическую модель нейрона. Одновременно появился простой алгоритм обучения. В результате люди нафантазировали чуть ли не человекоподобных роботов. В реальности ни одну из этих фантазий так и не внедрили — не существовало технических возможностей. Так наступила, как это теперь называют, «первая зима искусственного интеллекта»: финансирование сократили, а интерес к вопросу снизился.

Следующий всплеск интереса произошел лишь в 90-х, когда появились вычислительные мощности и новые хорошие математические алгоритмы, которые позволяли решать задачи распознавания и прогнозирования. А в 2014 году технологии распознавания получили буквально третье рождение благодаря тому, что мы научились решать подобные задачи на порядок лучше, чем раньше. Но ассоциация с нейронами сохранилась по сей день.

Технологии шагнули довольно далеко. Но пока еще у систем распознавания есть много проблем. Требуется дорабатывать алгоритмы, чтобы повысить эффективность их работы. Здесь есть где развернуться не только инженеру, но и ученому.

Но начнем с того, как это работает.

Компьютерное зрение

Компьютерное зрение — это прикладная область, составная часть искусственного интеллекта.

В теории от компьютерного зрения мы ожидаем возможности имитировать способности человека по распознаванию объектов на фото — способности понимать, где текст, где лицо, а где здание.

Учитывая комбинацию распознаваемых элементов на фото, человек может сказать очень многое. Он видит, что небо голубое, флаги не трепещут на ветру, а значит, ветра нет и погода солнечная. Хотелось бы, чтобы системы компьютерного зрения это повторили.

Тест Тьюринга для систем компьютерного зрения — ответить на любой вопрос об изображении, ответ на который может дать человек.

Пример обнаружения объектов на фото…и идентификации

Первые алгоритмы компьютерного зрения появились давно. Типичный пример — один из самых простых детекторов лиц Виолы — Джонса, который отмечает положение людей в кадре.

Работа алгоритма обнаружения лиц в фотокамерах

Этот алгоритм в некотором смысле необучаем (на обучаемости остановимся чуть позже). Ну а в данный момент мы наблюдаем бум алгоритмов, которые основаны на более сложных принципах.

Как устроены системы компьютерного зрения

Цифровое изображение — это матрица, где каждый пиксель — это некоторый элемент, содержащий число. В случае черно-белого изображения это число от 0 до 255, отражающее интенсивность серого.

Пиксели растрового изображения и их яркость в однобайтной кодировке 

 Для цветного изображения это обычно комбинация трех цветов. Еще в позапрошлом веке первые цветные фотографии одновременно снимали на три камеры в разном цвете, а потом полученные кадры совмещали. И до сих пор цветные изображения часто раскладывают на те же три цвета — красный, зеленый  и синий.

Построение цветного изображения на заре фотографииПостроение цветного изображения из пикселей красного, синего и зеленого цветов

Поговорим о том, как работать с изображениями, чтобы они лучше воспринимались машиной. 

Задача категоризации

Компьютерное зрение позволяет решать задачи распознавания. Фактически это базовая задача категоризации, когда мы устанавливаем для фотографии метки из заранее определенного множества категорий.

Как выглядит базовая задача категоризации изображения

Эта задача бывает двух типов: бинарная (например, изображен ли на этой картинке человек) и более сложная (к каким типам относится планктон на картинке). Бывает, что одновременно с классификацией объекта мы должны отметить, где он находится.

Виды задачи классификации
Имитируем распознавание

Предположим, у нас есть картинка. Инженер подошел бы к распознаванию следующим образом: он начал бы проверять, что есть на этом изображении. Например, какие есть объекты, имеющие овальную форму. Для этого он выбрал бы какие-то признаки, которые на объектах овальной формы принимали бы большие значения.

Это искусственный пример, но здесь важно понять принцип. Когда мы посчитаем эти признаки, они поступят на вход классификатора. Если среди них есть те, что принимают большие значения, мы говорим, что на изображении есть определенные объекты и они находятся в такой-то части.

Условная схема решения задачи классификации

Типичный пример классификатора — то, что называется деревом решений. Самые простые деревья мы строим в обычной жизни:

Пример простейшего дерева решений

Деревья решений такого типа можно строить и в более сложных случаях. Например, при выдаче кредита, но у них будет очень много узлов, где происходят ветвления. 

На практике обычно комбинируют множество деревьев решений, то есть получают ответы с каждого, а потом проводят что-то типа голосования.

При распознавании фотографии (поиске ответа на вопрос, есть ли на фото люди) мы можем применить ровно такой же подход — считаем признаки и отправляем их в дерево решений, чтобы получить финальный ответ.

Примеры признаков, которые можно использовать для категоризации фото
Признаки и их расчет

Какого типа признаки здесь можно было бы использовать?

На практике изображение делят на части и на каждой проводят локальный анализ. Например, оценивают направления, в которых градиенты изображения меняются сильнее всего, или считают среднее значение для пикселей, которые есть в этом изображении, или вычисляют контуры объектов на изображении. 

Все это можно делать в том числе с применением известных фильтров — матриц коэффициентов, которые мы «прикладываем» к изображению, двигаясь по нему слева направо (сверху вниз), умножая коэффициенты в матрице, определяющей фильтр, на значения пикселей в соответствующем сегменте изображения и складывая результаты умножений. Если фильтр устроен определенным образом, на выходе можно получить новое изображение, в котором, например, выделены края:

Другой пример — фильтр, увеличивающий высокие частоты (резкость):

А если я возьму такую матрицу чисел, изображение, наоборот, будет размытым:

Классический подход состоит в том, что фильтры строятся вручную исходя из различных математических и инженерных соображений. Основываясь на своем опыте, для каждой задачи человек комбинирует группы фильтров, примерно представляя, что лучше всего подходит в этом случае. Но оказалось, что эти фильтры можно «научить».

Что это значит? Представьте, что в фильтрах стоят не готовые числа, а некие заранее неопределенные коэффициенты. Вы применяете эти фильтры к изображению, а потом объединяете этап построения результатов фильтрации и классификацию в единое целое. По сути, вы настраиваете коэффициенты фильтров для конкретной задачи по большой выборке данных так, чтобы качество решения задачи (например, распознавание) было максимальным.

Решение задачи классификации при помощи нейросети

Для настройки коэффициентов требуются: большая выборка данных, много слоев и специальное вычислительное оборудование. Поговорим о каждом из компонентов.

Большая выборка

Прорыв в этой области произошел в 2010 году, когда появился датасет ImageNet, который содержал 10 млн картинок. Чтобы его получить, проделали огромную работу: каждой из картинок вручную присвоили класс объекта, который там изображен.

На сегодняшний день это уже не единственная база размеченных картинок.

Примеры баз размеченных изображений

Наличие огромных баз данных, на которых можно обучать коэффициенты фильтров, дало старт развитию систем распознавания.

Многослойность

Предположим, у нас есть изображение. Есть первый слой с каким-то количеством фильтров. Применяя эти фильтры последовательно к изображению, мы получаем новую картинку. После этого применяем к изображению специальное нелинейное преобразование (в нейросетях оно называется Transfer Function — передаточная функция), затем — другие фильтры, а следом — новое нелинейное преобразование. И так далее. Каждый такой этап называется слоем.

Пример последовательного применения фильтров к изображению

В итоге получаем такую нелинейную фильтрацию, которая выделяет характерные признаки изображения. В конце этого процесса у нас будет набор коэффициентов. Для одних типов объектов они будут больше, для других — меньше. И эти признаки-коэффициенты подают на вход стандартного классификатора.

После создания первой системы, обученной на очень большой базе данных, оказалось, что точность распознавания возросла в несколько раз, в какой-то момент сравнилась с точностью человека и даже превысила ее. Нейросеть такого типа содержит 60 млн параметров — это те самые настраиваемые параметры фильтров.

Ниже на гистограмме показано, как со временем эволюционировала точность от 2010-го до 2015 года, а также отмечено количество слоев нейросети, которое необходимо, чтобы достичь такой точности.

Изменение точности и сложности нейросетей с 2010-го по 2015 год (справа — налево)

Ошибка классификации 3–3,5%, и это лучше, чем у человека. Человек распознает с ошибкой 4–5%.

Говоря о точности, всегда стоит указывать, о какой задаче идет речь. Чем сильнее мы сужаем спектр применений, тем большей точности можем достигнуть.

Качество систем распознавания зависит не только от того, как построена нейросеть, но и от того, как она обучена. Если создатель модели выполнил свою работу некачественно, точность распознавания будет существенно ниже. Правда, это легко проверить. К примеру, можно использовать кросс-валидацию, когда часть обучающей выборки отделяют для проверки работы модели. Этот подход имитирует ситуацию с получением новых данных.

Аппаратное обеспечение

Чтобы подобрать огромное количество коэффициентов, нужно специальное оборудование, которое позволит распараллелить подобные задачи, поскольку обычный CPU решает их последовательно.

Несколько лет назад Nvidia заказала у создателей MythBusters забавный пиарный ролик для демонстрации параллельных вычислений

Речь идет о графических процессорах (GPU), которые изначально создавали для ресурсоемких игр. Их адаптировали под быстрое выполнение матричных вычислений. А нейросети, по сути, у нас и построены на матричных вычислениях, то есть умножениях одной таблицы чисел на другую.

Какие задачи мы можем решить?

Имитируя человека, мы можем на фотографии указать, где находится предмет, и отделить его от окружающих объектов. 

Можем ответить на вопрос, какая у человека позиция относительно других тел, и даже спрогнозировать по двумерной фотографии положение частей тела человека в 3D.

Можем отыскать лицо человека.

Обнаружение лица, идентификация, оценка позы, распознавание эмоций

Имея априорные знания о движении, можем по позе человека на фотографии предположить, в каком направлении он бежит, или спрогнозировать, куда он будет двигаться далее.

Сопровождение объектов, распознавание действий, оптический поток

Где сейчас используют нейросети

Некоторые из задач, которые я перечислю, можно решать и другими способами. Не надо думать, что нейросети покрывают все. Просто на данный момент это один из наиболее популярных и достаточно эффективных методов решения задач такого типа. Возможно, лет через пять появятся другие, более эффективные в конкретных приложениях архитектуры, которые будут отличаться от «классических нейросетей».

А кроме того, есть большое количество инженерных задач, где старые методы, основанные на тех же дескрипторах, могут показывать лучшие результаты, чем нейросети, требующие большой обучающей выборки.

Поиск по картинкам

Все мы пользуемся стандартной функцией поиска объектов на фото в поисковиках вроде Яндекса и Google. На вход мы подаем фотографию. С помощью фильтров нейросеть считывает признаки, характеризующие семантический смысл фотографии (я говорил о них ранее). Далее они сравниваются с признаками фотографий, которые уже есть в интернете (те заранее были подсчитаны и сохранены в виде векторов чисел). Изображения со сходными признаками оказываются семантически близки.

Примеры поисковой выдачи по заданным фото
Распознавание лиц

По такому же принципу устроено детектирование и идентификация лиц. Это приложение важно для обеспечения безопасности тех же банков.

Ниже — реальный пример из презентации одной из компаний. Как вы думаете, правда ли, что в каждом из пунктов на двух соседних фото один и тот же человек? Людям сложно это определить, поэтому возникают ошибки и процветает мошенничество. 

Определите, в каком из шести случаев изображен один и тот же человек

Правильно обученные системы компьютерного зрения не ошибутся даже в сложных ситуациях и в условиях плохого освещения. Точность распознавания у них достигает 99%.

Правильный ответ

В западных странах подобные технологии уже активно используют для контроля доступа и рабочего времени.

Социальный протест

Использование нейросетей, связанное с распознаванием лиц, вызывает у обывателей опасения. Вот один из таких заголовков:

Заголовок одного из изданий: «Судя по сканирующим мозг каскам, Китай не заинтересован в тайне частной жизни рабочих»

В заметке речь шла о том, что в Китае якобы установили в шлемы рабочих сенсор, фиксирующий, насколько человек погружен в работу и какие он испытывает эмоции. Забегая вперед, скажу, что в текущих условиях это невозможно. Но такие статьи появляются, их связывают с искусственным интеллектом, и это вызывает опасения.

Более реалистичное применение — камеры в учебном классе, которые оценивают, насколько студенты вовлечены в процесс. Так можно косвенно определить эффективность процесса обучения.

Система оценки вовлеченности обучающихся

Говоря об опасениях, нельзя не вспомнить знаменитую серию публикаций о наличии в Китае системы соцрейтинга, которая мониторит людей и оценивает, насколько они подчиняются правилам.

Фантазии на тему китайского соцрейтинга

Насчет китайского опыта существуют разные мнения. Лично я в Китае не жил и не могу описать ситуацию. Но на Западе внедрение подобных систем вызывает социальный протест. Например, некоторое время назад рабочие Amazon жаловались на жесткие рамки учета рабочего времени, прописанные в новой системе мониторинга.

На волне этих протестов некоторые компании и даже правоохранительные органы в городах Америки сворачивают или ограничивают функциональность систем, связанных с трекингом людей и распознаванием лиц. Так что в целом законы о приватности и защите персональных данных работают, то есть опасения относительно нейросетей реально снимать при помощи законодательства.

Модификация фотографий

С помощью подобных нейросетевых моделей можно манипулировать изображениями — к примеру, стилизовать фото.

Нейросеть добавляет налет абстракционизма

Нейросетевые модели могут анимировать фотографию или картину, используя видео эмоций другого человека. Лицо с фотографии будет изменять выражение вслед за человеком на видео.

Повторение мимики и жестов при помощи нейросети

А эту анимацию делали коллеги из дружественной нам группы Сколтеха.

Анимирование картины при помощи нейросети

Подобные методы используют при создании фильмов и рекламы.

Физическая безопасность и обучение

Компьютерное зрение активно применяют для обеспечения безопасности, например, чтобы наблюдать за пустой квартирой или контролировать условия труда: ходят ли рабочие в безопасных зонах, носят ли каски.

Система отмечает, что на объекте находятся люди без каски или перчаток

Контроль соблюдения скоростного режима на дорогах также может осуществляться с помощью нейросетевых моделей.

Для распознавания госномеров нейросеть не нужна. Но определить тип и модель транспортного средства без нее уже сложно

Компьютерное зрение активно применяют в качестве элемента более сложных задач, например, в системах дополненной реальности. Хороший пример — обучение технического персонала навыкам работы в сложных условиях, когда нужна максимально четкая реакция (тренировки «автоматических» навыков). Физических установок, реалистично имитирующих окружение для отработки подобных действий, мало или у них нет необходимой функциональности. И отработка навыков в дополненной реальности позволяет решить эту задачу.

Строительство и городское планирование

На гигантских объектах трудно понять, действительно ли строительство идет по плану, поскольку даже нескольким людям сразу тяжело все обойти и оценить объем работ за неделю или месяц. Вместо ручной сверки можно снять видео с дрона, взять данные с лидара (лазерного дальномера, оценивающего расстояние от сканера до точек на поверхности объекта) и по ним уже автоматически оценить, что и где построили.

Контроль строительства с помощью нейросети

Компьютерное зрение используют для обработки данных дистанционного зондирования (аэрофотосъемки или съемки со спутника). Типичный пример — когда на вход подают огромные снимки, полученные со спутника в разные моменты времени, допустим в конце лета и осенью, чтобы оценить, какие произошли изменения. 

Пример обработки данных дистанционного зондирования, в результате которой выделены новые объекты (в данном случае — постройки)

Так можно выявить незаконные свалки и понять, насколько быстро они растут, или зафиксировать последствия стихийных бедствий: ураганов, пожаров, землетрясений. Сравнив снимки до и после, можно приблизительно оценить количество пострадавших домов и подсчитать потери страховой компании.

Аналогичные задачи есть в сфере городского планирования, а также в оценке населенности и объемов строительства. На картах не всегд

Нейросети: что это такое и как работает | Будущее