Как мы научили компьютеры смотреть за нас

Компьютерное зрение сегодня – одна из популярнейших тем. Изобретение компьютера изменило мир в предыдущем столетии. Теперь мы наблюдаем как, обучение компьютера зрению меняет мир вокруг нас.

На кассах супермаркетов используют сканеры штрих-кодов. Радары «видят» номерные знаки автомобилей. По дорогам едут машины со специальными камерами, «замечающими» пешеходов и дорожные знаки, чтобы сообщать команды водителю. Работают детекторы лиц. Нас окружает новая роботизированная техника. Как в песне из детства про далекое будущее «Позабыты хлопоты, остановлен бег, Вкалывают роботы, счастлив человек!». Почти. Но мы уже живем в этом будущем.

Умение видеть, то есть получать информацию об окружающем мире благодаря глазам, — одно из ключевых умений человека. Увидев нечто, мы сразу можем описать, что это. Мы выделяем различные объекты. Мы определяем, что расположено около нас, а что – вдали. Мы распознаем цвета. Такие заключения человек делает практически моментально.

Компьютеры решают очень многие задачи намного быстрее и эффективнее, чем мы. При этом весьма простое для человека действие (как, например, показать на изображении дерево или озеро), может загнать искусственный интеллект в угол. Отчего так получается?

Люди приобретают и развивают навык обнаруживать и различать предметы на протяжении всей жизни. Человек видел эти предметы множество раз и знает, как они должны выглядеть в тех или иных условиях, в которые их поместили.

Компьютеры же обрабатывают числа. Потребность обеспечить их «глазами» появилась не так давно. Но сегодня она уже стала настолько важной, что развитие компьютерного зрения является чуть ли не одним из самых популярнейших направлений среди компаний во всем мире. Совокупность методов, обеспечивающих возможность научить компьютер получать данные из любого изображения (статичного или динамичного) и есть компьютерное зрение.

Мы нашли способ применения компьютерного зрения в своем деле для анализа сайтов.

Чтобы компьютер обнаруживал на сайтах, допустим, логотипы, требуется его этому обучить. Для «занятий» используется репрезентативная выборка сайтов. В процессе машинного обучения компьютер обрабатывает сайты из представленного ряда, определяет, что за признаки и комбинации признаков дают понять то, что на сайте есть логотип, и вычисляет их весомость. В том случае, если обучение завершилось успешно, компьютер способен применять приобретенные знания самостоятельно, а именно – обнаруживать логотипы либо их отсутствие на других ресурсах.

Помимо задачи найти элемент, компьютер должен решить задачу оценки выбранного для этого элемента места расположения.

Нам легко понять, что является значимым на изображении, а что нет. Машине не так легко выполнить эту задачу, потому что он работает с числовыми комбинациями, а не с образами, как мы. Компьютер знает картинку как совокупность пикселей, с заданными характеристиками яркости или цвета для каждого из них. Для того, чтобы обеспечить компьютеру возможность оценить степень значимости объекта на изображении, оно подвергается обработке специальными алгоритмами. В результате для приведенного выше примера компьютер сможет оценить, удачно ли расположен логотип на сайте и выполняет ли он свою функцию.

И далее, вот так поэлементно, мы обучаем компьютер имитировать процесс взаимодействия пользователя с сайтом.

Вот таким образом просто и понятно можно описать принцип работы модуля компьютерного зрения в NIGMA.

Компьютерное зрение – очень важное изобретение современности. Мы не являемся первопроходцами и замыкающими на пути наделения машин способностью видеть. Но мы точно знаем, что каждая команда, приводящая данную технологию в нашу жизнь и работу, делает большое дело для сегодняшнего дня и для завтрашнего.