Распознавание почерка врачей и виртуальная примерка одежды: как используется компьютерное зрение уже сейчас
Компьютерное зрение не для котиков Компьютерное зрение уже перешло из разряда технологий будущего в категорию повседневности. Именно благодаря ему можно разблокировать флагманский смартфон Apple «силой взгляда» или разобрать лица друзей на фотографиях. Последние несколько лет развития искусственного интеллекта привели к значительному рывку и в сфере технологий распознавания образов. Они даже стали применяться разработчиками в быту просто ради развлечения: кто-то создает систему распознавания своего кота, чтобы в дом не проникали другие животные, другой разрабатывает антикошачью водяную сигнализацию, чтобы прогнать незваных пушистых гостей с газона. Обученная на большой выборке система сможет распознавать разные объекты в разных ракурсах и при этом знать, что конкретно изображено: компьютер, букет, Млечный путь или Эйфелева башня. Считается, что точность определения объектов человеком – в районе 87–93%, в то время как точность определения специально обученного компьютера приближается к 100%. При этом использовать компьютерное зрение можно практически в любой области – от промышленности и медицины до дизайна и ритейла. Фактором, тормозящим развитие рынка, сегодня является отнюдь не технология. Сложность в том, что бизнесу не совсем очевидны выгоды от использования компьютерного зрения в производственных процессах. Как правило, на стороне заказчика есть люди, которые думают про прямой заработок, но мало тех, кто понимает, как с помощью современных технологий можно оптимизировать монотонную работу, сделав предприятие еще более эффективным, а продукт привлекательным. И чтобы как-то упростить эту задачу и дать почву для размышлений, я расскажу о ряде кейсов, которые мы обнаружили, работая с нашими клиентами и заказчиками проекта Vision. Компьютерное зрение и невидимая рука рынка Компании во всем мире все активнее используют компьютерное зрение и вкладывают огромные деньги в развитие искусственного интеллекта в целом. По данным McKinsey, в 2016 году мировой бизнес инвестировал в эту сферу от 26 до 39 миллиардов долларов, а за три года (с 2013) объем вложений увеличился в три раза. В Gartner же полагают, что к 2020 году в AI-технологии будет инвестировать почти треть компаний в мире. Компьютерное зрение – один из самых перспективных сегментов отрасли искусственного интеллекта. С его помощью можно автоматизировать любой человеческий труд, основанный на визуальной проверке, которая заключается в сверке оригинала с тем, что изображено на фотографии, происходит на видео или в производственном процессе. Аналитики PricewaterhouseCoopers прогнозируют, что к 2030 году искусственный интеллект увеличит производительность труда в мире на 55%, а его потенциальный вклад в мировую экономику к этому времени составит 15,7 триллиона долларов. И на российском рынке есть запрос на эту технологию. В 2017 году аналитики TAdviser оценили объем российского рынка искусственного интеллекта в 700 миллионов рублей, но в ближайшие три года они прогнозируют рост до 28 миллиардов рублей (в 40 раз). Мы тоже планируем получить свой кусок этого пирога – для этого в рамках платформы «Mail.Ru для бизнеса» мы запустили сервис Vision. И за время его работы у нас накопилась база задач, которые можно решать с помощью этой технологии: какие-то из них выросли из заказов, с которыми к нам приходили клиенты, другие родились в результате мозговых штурмов, которые мы организуем для наших заказчиков. Сама технология на сегодняшний день не является чем-то уникальным: бизнесу не нужна просто «распознавалка», заказчик хочет, чтобы технология помогла ему оптимизировать его бизнес-процессы. Анализом этих процессов и поиском моментов, которые можно улучшить с помощью Vision, и занимается наша команда. Кейс 1: узнавать людей Это самый очевидный, ожидаемый и частый запрос, когда речь заходит о компьютерном зрении. Клиентам интересно автоматизировать вход на предприятие и начать узнавать клиентов. Но это далеко не единственный вариант применения технологии. Например, если вы живете в Москве и ездите на метро, вас узнают умные камеры. В московской подземке сегодня работает интеллектуальная система видеонаблюдения, основанная именно на компьютерном зрении. Если камера увидит среди пассажиров преступника, который находится в розыске, или заметит стычку, система даст сигнал. Информация в режиме реального времени передается в Пункт управления обеспечением транспортной безопасности. Готовность: 9 Шерлоков из 10 – система уже работает, разве что пока не разнимает драки сама. Кейс 2: видеть за тех, кто не видит Компьютерное зрение может частично заменить глаза незрячим или слабовидящим людям. Для этого требуется камера (например, встроенная в очки) и процессор: камера транслирует все, что видит, компьютер озвучивает это. Таким образом, незрячие люди могут «видеть», что перед ними (дорога, машина, дверь, стена, толпа), «читать» этикетки на продуктах. Компания Baidu Research разработала прототип устройства DuLight, которое сканирует пространство перед пользователем и отправляет полученную информацию на смартфон. После обработки и идентификации предмета в наушник передается его аудиоописание («вижу светофор, свет красный»). А стартап Orcam, решающий ту же задачу, недавно присоединился к рядам единорогов. Готовность: 5 Васко да Гама из 10 – прототипы уже есть, но в массовое производство пока не пошли. Кейс 3: заполнять данные Компьютерное зрение позволяет распознать и оцифровать практически что угодно. Пример из повседневной жизни: приложение не заставляет вас вводить номер банковской карты вручную, а предлагает навести камеру смартфона и автоматически заполняет цифры. Пример от нашего клиента помасштабнее: считывать показания электросчетчиков. В энергосбытовых компаниях есть специально обученные люди, которые ходят по домам и списывают показания счетчиков плательщиков, а потом другие специально обученные люди эти показания вбивают в терминалы. Куча людей абсолютно неэффективно расходует время. Компьютерное зрение позволяет сделать эту процедуру вдвое проще: человек приходит, фотографирует счетчик, система считывает его номер и показания и автоматически вносит данные в базу. Готовность: 9 Грефов из 10 – можно открыть почти любое приложение, которое поддерживает перевод денег с карты на карту, и убедиться в этом. Кейс 4: переводить с врачебного на русский Реальный пример от нашего заказчика – распознавание почерка врачей. Некоторые виды страховки предполагают, что клиенту оплачиваются не только услуги врача, но и лекарства, которые тот выписал. Пациент фотографирует рецепт, отправляет в страховую, специалист смотрит и выносит вердикт – возместить расходы на этот препарат или отказать. Проблема в том, что часто специалист просто не может разобрать написанное в рецепте. Зато компьютерное зрение, которое «повидало» уже не один миллион подобных рецептов, позволяет распознавать врачебный почерк и превращать написанное в читабельный текст («феназепам, 1 мг три раза в день в течение двух недель»). Готовность: 7 Володарских из 10 – системы распознавания почерка уже существуют. Кейс 5: не запнуться о триггеры Брендам бывает важно, в каком контексте появляется их реклама. Предположим, вы продаете автомобили. Вы оплатили эфир на Первом канале в прайм-тайм или размещение на YouTube – а ваш ролик показали сразу после новостного сюжета про жуткую автокатастрофу или про то, что горожане теряют в пробках по 10 лет жизни. Все, рекламный бюджет ушел коту под хвост. Обратная ситуация: вы производите леденцы от кашля. Вы оплатили размещение – и теперь ваш ролик показывают, когда в фильме кто-то кашляет, или когда в новостях говорят про очередную волну ОРЗ. Продажи взлетают, вы потираете руки. Такой контекст можно отслеживать автоматически, анализируя видео- и звукоряд. Для этого достаточно обучить систему компьютерного зрения (и слуха) и настроить триггеры – после этого рекламу показываем, а после вот того не показываем ни в коем случае. Готовность: 1 Огилви из 10 – но это ровно до тех пор, пока не пришел заказчик. Все наработки для создания такой системы уже есть. Кейс 6: роботизировать доктора Хауса Очень перспективная сфера использования компьютерного зрения – здравоохранение. Компьютер можно научить высматривать аномалии на рентгеновском снимке и прогнозировать течение болезни. При этом машина потенциально эффективнее человека. Суперопытный врач-рентгенолог за годы практики увидит десятки, пусть даже сотни тысяч снимков, при этом далеко не все кейсы останутся у него в памяти. Компьютеру можно скормить миллионы снимков вместе с историями болезни. Заметив аномалию на снимке, машина может найти в этой огромной выборке похожие случаи и дать прогноз динамики. А еще такие системы можно использовать в отдаленных районах, куда опытные врачи просто не добираются. И это уже становится реальностью. В 2017 году искусственный интеллект научился диагностировать туберкулез на рентгеновских снимках с практически стопроцентной точностью. А исследователи подразделения Google DeepMind совместно с Национальной службой здравоохранения Великобритании разрабатывают алгоритмы, позволяющие на ранних стадиях диагностировать такие глазные заболевания, как возрастная макулярная дегенерация и диабетическая ретинопатия (это одна из самых распространенных причин слепоты в мире). Для этого анализируются миллионы томографических снимков глаз. Готовность: 5 Хаусов из 10. В некоторых странах подобные эксперименты уже успешно проводятся. В России же сперва нужно внедрить цифровые медкарты и собрать их в одной базе. Кейс 7: не дать гречке исчезнуть с полок Торговые точки с помощью компьютерного зрения могут внедрить систему интеллектуального мерчандайзинга. Как работает мерчандайзинг с человеческим лицом? Производитель или поставщик товара договаривается с точками продаж о том, что его продукт (например, гречка) будет представлен в конкретных магазинах. С некоторой регулярностью в эти магазины наведывается мерчандайзер: проверяет, стоит ли крупа на полках, сколько пачек осталось на складе магазина. Если гречку раскупили или скоро раскупят, пополняет запасы на складе. Пишет отчет и делает подтверждающие фото – «15 апреля 2018 года, гречка исправно поступает на полки, вот снимок», после чего едет в следующую точку продаж. Итого: в одних точках склады и полки ломятся от круп, но мерчандайзер все равно приезжает с проверкой. В других магазинах гречка давно закончилась, покупатели страдают, но мерчандайзер об этом не знает и доедет туда только через три дня. Эту деятельность можно существенно оптимизировать с помощью компьютерного зрения. Напротив прилавка устанавливается камера. Когда определенный товар заканчивается (например, остается три единицы), система подает сигнал в подразделение мерчандайзинга. Приходит сотрудник, выставляет товар, камера фиксирует изменения – все довольны и счастливы. И никому не нужно постоянно перемещаться из одного места в другое, самостоятельно контролировать количество товара, делать подтверждающие снимки. Готовность: 10 Джеков Ма из 10. Система уже работает. Кейс 8: держать поставки под контролем Промышленным предприятиям компьютерное зрение может помочь в учете вывозимого крупногабаритного груза. Как правило, этим занимается отдельный сотрудник. Да-да, человек целый день занят исключительно тем, что записывает в блокнотик, какая машина сколько единиц груза вывезла. Ту же самую работу можно делать с помощью компьютерного зрения – по фотографии или по видео. Готовность: 3 Ады Лавлейс из 10. Технологии для этого есть, можно реализовать в любой момент. Кейс 9: следить, чтобы в розетке всегда был ток В России длина линий электропередач исчисляется, наверное, миллионами километров. Многие ЛЭП находятся в отдаленных районах, в горах, тайге, степи. Регулярно осматривать все человеческими силами невозможно. Раньше диагностику проводили по симптомам: у всего поселка пропало электричество – мастера выезжают на поиски неисправности. Сейчас состояние ЛЭП в таких районах мониторит вертолет, снаряженный камерами. Система компьютерного зрения анализирует степень износа и фиксирует, какие участки нуждаются в техобслуживании (поправить покосившийся столб, заменить провода). Готовность: 10 Эдисонов из 10. Уже работает. Кейс 10: не дать производственному процессу остановиться А еще технология может упростить и удешевить производственные процессы. Например, существуют промышленные рудные экскаваторы. Чтобы они могли работать даже с самыми сложными породами, на зубья ковшей надевают супертвердые победитовые накладки. Такой экскаватор среди прочего сгружает руду в измельчительную машину, которая стоит десятки миллионов долларов. Иногда победитовая накладка отламывается. Если она попадает вместе с рудой в измельчительную машину, последняя выходит из строя. Производство встает, а ремонт влетает предприятию в копеечку. Решение – установка камеры на ковш: если в момент освобождения от руды она фиксирует, что не хватает одного из зубьев, двигатель машины глушится, работники понимают, что что-то пошло не так, и начинают разбираться. Удается избежать поломки дорогой техники и сэкономить деньги и время. Готовность: 10 Стахановых из 10. Есть, работает. Кейс 11: примерка для тех, кто ненавидит примерять Компьютерное зрение способно создавать дополненную реальность. В некоторых магазинах уже реализована возможность виртуальной примерки одежды: клиенту больше не нужно тащить кучу вещей в примерочную, стоять в очереди, раздеваться и одеваться – компьютер «наденет» понравившуюся одежду на человека и выведет на экран картинку. Готовность: 9 Карлов Лагерфельдов из 10. Виртуальные примерочные уже существуют. Кейс 12: рисовать, как художник Компьютерное зрение позволяет создавать произведения искусства. Пример: машина проанализировала все имеющееся творческое наследие Рембрандта – манеру, образы, темы, цветовую палитру, характер мазков. А потом с учетом всех этих вводных сгенерировала еще одну картину. Готовность: 9 Рембрандтов из 10. Генерировать картины уже можно, единственная загвоздка – стоимость их пока ниже оригинала. Кейс 13: распечатать фото из Instagram на билборд Также с помощью технологии можно во много раз увеличить разрешение и размер изображения. Скажем, вы хотите распечатать старую фотографию 10*15 в размере афиши. Вы сканируете фото, компьютер увеличивает изображение, дорисовывая недостающие пиксели по аналогии с соседними. На выходе вы получаете четкую, яркую, контрастную картинку. Попробовать технологию можно здесь. Готовность: 9 Энни Лейбовиц из 10. На билборд пока не потянет, но на афишу – вполне. Вместо заключения Технологичные продукты и бизнес редко идут рука об руку: бизнес избегает долгой разработки и длительных финансовых вложений, в то время как наукоемким технологиям только и нужно, что вложения и время. Технология должна созреть до состояния, когда ее можно будет применять в бизнесе почти сразу, «из коробки». Бизнес должен сформулировать заказ – определить для себя потребность в этой технологии. И этот важный этап становления рынка происходит прямо сейчас. Я абсолютно уверен, что в ближайшие несколько лет решения, основанные на технологиях компьютерного зрения, станут обыденностью – как ручки на дверях или контекстная реклама, – а эта статья будет такой же бесполезной, как инструкция к пульту дистанционного управления. Материалы по теме: Чему нас научат роботы: пять технологий, которые изменят EduTech «Нужно обязательно знать IT, потому что это будущее и это в тренде» Как защитить свой бизнес от хакеров, которые используют уязвимости в приложениях Шесть принципов, которые сделают вашу идею запоминающейся Стартап Ossic собрал почти $6 млн на VR-наушники через краудфандинг. И закрылся