Блокчейн Искусственный интеллект Open Source Интернет вещей Big Data/Аналитика Цифровая трансформация Инновации	Сети/Серверы/СХД/ЦОД ПК и периферия Мобильные решения Инфраструктура	Документооборот/ECM Идеи и практики автоматизации Промышленная автоматизация ИТ-менеджмент Автоматизация	Государство и ИТ ИТ-бизнес ИТ-индустрия	Облака	Безопасность
Облака/ИТ-сервисы: Статьи Новости компаний Решения

Блог

Google на пути к содержательному поиску фотографий

Свинарев Сергей

27.11.201411:2327.11.2014 11:23:52

Как найти фотографию, будь то в своем архиве или в интернете?[spoiler] Задача непростая, особенно если нужно искать не по атрибутам файла (имя, дата, тип) или тегам, которые предварительно кто-то внес в EXIF-описание, а по словам, описывающим фото на содержательном уровне. К примеру, вы ищете изображение "двух синиц, сидящих на ветке ели". С учетом лавинообразного роста числа фотографий, выкладываемых в Сети, и довольно слабых средств их поиска, неудивительно, что решением данной задачи занялась именно Google. Любопытные сведения об используемых для этого технологиях и первых результатах приведены в одном из блогов на Google Research.

Для начала хочу отметить, что речь не идет о поиске изображения, похожего на некий исходник, как это реализовано, например, в браузерном плагине с говорящим названием "Кто украл мои картинки?". И более того, пока даже не о поиске, а об автоматической генерации словесного описания изображения. Как признают авторы этой работы, многое уже было сделано до них, но с другими целями. Они решили объединить в своем решении технологии машинного зрения (computer vision) и общения с машиной на естественном языке (natural language processing). В частности, была применена нейронная сеть Recurrent Neural Network (RNN), достигшая хороших результатов в машинном переводе: с ее помощью строится некое векторное представление фразы на одном языке (скажем, французском), после чего другая RNN-сеть восстанавливает эту фразу на другом языке (допустим, немецком). А что, если подать на вход второй RNN-сети результат работы еще одной нейронной сети - Convolutional Neural Network (CNN), умеющей после предварительного обучения распознавать и классифицировать объекты в произвольном изображении? Теперь связку из двух нейронных сетей можно попытаться обучать на эталонном массиве картинок с их словесными описаниями как единый механизм.

Примерно так это делается

Как оказалось, результат получился довольно приличный. Вот примеры описания картинок, получившихся после обработки фотографий, взятых с открытых публичных ресурсов типа Flikr. Авторы говорят, что об этом свидетельствуют и количественные оценки по метрике Bilingual Evaluation Understudy (BLEU), широко используемой в тестах по машинному переводу.

В крайней левой колонке примеры безошибочного описания, в крайней правой - крайне неудачного, а посредине - с тем или иными погрешностями. Скажем, неудачным признано описание "желтый школьный автобус, припаркованный на стоянке" для фотографии, на которой изображена желтая легковушка, стоящая, судя по всему, на автозаправке (снимок в правом нижнем углу). А небольшой погрешностью признано описание "крупный план кошки, лежащей на кушетке", поскольку она там не лежит , а сидит.

Мне кажется, правильнее было называть все это системой перевода с "изобразительного" языка, на естественный человеческий. А с учетом упомянутой способности RNN-сети брать исходное векторное представление фразы и затем восстанавливать его на любом поддерживаемом языке, система обещает стать универсальной для самых разных стран и языков.

Свинарев Сергей

27.11.201411:2327.11.2014 11:23:52

Просмотров:4174 Комментариев:0

Теги: фотографии, описание, естественный язык, поиск, нейронная сеть, Google Research, машинное зрение, машинный перевод

Мы используем cookie-файлы, возможности Яндекс.Метрики и SberAds для наилучшего представления нашего сайта в соответствии с Политикой обработки персональных данных. Если Вы согласны с этим, пожалуйста, нажмите кнопку «Принять». Продолжая пользоваться сайтом, Вы подтверждаете, что были проинформированы об использовании сайтом cookie-файлов, Яндекс.Метрики и SberAds, и согласны с Политикой обработки персональных данных.