09.07.2019 admin

Проблемы маркировки данных с которыми мы столкнулись

Project Management — Budget Planning — Illustration

Сегодня большие данные стали одним из основных столпов современного бизнеса. Те, кто может справиться с большими объемами данных, имеют возможность построить коммуникацию с потребителем наиболее продуктивным способом. Большие данные определяют всю бизнес-стратегию крупных компаний, но их недостаточно для сбора информации. Чтобы оно приобрело ценность, необходимо правильно систематизировать и классифицировать данные.

Получение информации из различных источников требует не только огромных возможностей систем хранения данных, но также различных инструментов и квалификаций для правильного анализа и использования этой информации. Эффективность секретных или маркированных данных является ключевым фактором роста бизнеса и может стать стимулом для развития новой бизнес-инфраструктуры.

В чем суть маркировки данных?

Прежде всего, давайте разберемся с определением маркировки данных. Проще говоря, маркировка данных – это способ организации информации в зависимости от ее содержимого. Этот способ определяет тег или метку, которая будет назначена определенной части информации после ее обработки.

Например, одна единица информации может содержать изображение обуви, а другая – текстовая – резюме менеджера по продажам. Когда человек обрабатывает эту информацию, логично, что в первом случае эксперт назначит тег «обувь», а во втором – «резюме менеджера по продажам» или что-то в этом роде.

Но как только эта информация обрабатывается автоматически, как система должна понимать, что изображено на рисунке или написано в тексте? Какой тег должен быть прикреплен к каждому блоку данных? Чтобы сделать это возможным, человек должен научить машину распознавать шаблоны автоматически, запустив алгоритмы обучения для помеченных наборов данных. Это разработано, чтобы моделировать процесс принятия решений человеком.

Таким образом, существует два способа маркировки данных: вручную человеком или автоматически машиной.

Как можно маркировать данные вручную?

Существует четыре основных способа маркировки данных.

1. Внутренняя маркировка.

В этом случае штатные сотрудники компании работают с большими данными самостоятельно. Основными преимуществами этого подхода являются:

  • Отсутствие дополнительных затрат на привлечение сторонних специалистов.
  • Умение лично контролировать процесс и результат.
  • Получение качественной информации.

Если говорить о недостатках, то эта задача в любом случае будет выполняться медленно из-за человеческого фактора.

2. Краудсорсинг.

Это способ доверить выполнение задачи большому количеству людей одновременно. Эта задача будет выполнена довольно быстро, но о качестве данных в большинстве случаев можно забыть. С другой стороны, такие услуги очень доступны с точки зрения, как трудовых ресурсов, так и цен.

3. Аутсорсинг частным лицам.

Удобно нанимать фрилансера, когда вам нужно быстро выполнить одноразовое задание. Что касается маркировки данных, то это тоже может быть разумным выходом, но только в том случае, когда у вас есть возможность проверить качество работы. Низкая цена на такие услуги является одним из очевидных преимуществ такого подхода. Однако вам придется управлять процессом и тщательно контролировать безопасность данных, которые вы предоставляете стороннему специалисту.

4. Аутсорсинг для компаний.

Если вы не доверяете фрилансерам, есть возможность сотрудничать с компаниями, которые предлагают маркировку данных как услугу. Основным преимуществом этого метода является высококвалифицированная команда аналитиков данных. Но все, же необходимо понимать специфику конкретного рынка и бизнеса и, таким образом, иметь внутреннего эксперта, который будет контролировать процесс.

Маркировка данных с помощью машинного обучения

Сегодня эмпирическое обучение относится к машинам, которые способны воспринимать, рассуждать, действовать и адаптироваться на опыте, пытаясь имитировать человеческий мозг. Для этого исследователи используют алгоритмы машинного обучения, которые позволяют системам искусственного интеллекта самостоятельно анализировать и изучать входные данные. Существуют определенные алгоритмы обучения:

  1. Усиленное обучение позволяет моделям искусственного интеллекта учиться методом проб и ошибок в определенном контексте, используя обратную связь из собственного опыта. Этот метод широко используется в робототехнике, играх, обработке данных, промышленной автоматизации и чат-ботах, которые учатся на взаимодействиях пользователей.
  2. Контролируемое обучение требует огромного количества данных, помеченных вручную. Система сравнивает вновь полученные данные с помеченными данными, чтобы найти ошибки и несоответствия. После этого в модель вносятся изменения. Этот тип изучает, как предсказать вероятность будущих событий, и в основном используется для прогнозирования мошеннических транзакций по кредитным картам или анализа исторических данных. Это очень разумный, хотя и трудоемкий подход, когда ошибка или неточность во входных данных может отрицательно повлиять на качество выходных данных.
  3. Обучение без учителя использует необработанные или неструктурированные данные. Этот тип используется для более сложных процессов, потому что его цель состоит в том, чтобы найти структуру самостоятельно и организовать данные в группу кластеров. Этот тип обучения хорош для транзакционных данных, таких как идентификация сегментов клиентов с одинаковыми атрибутами для одинакового обращения с ними в маркетинговых кампаниях.
  4. Глубокое обучение – это подмножество машинного обучения, которое может учиться и совершенствоваться независимо. Теперь программы глубокого обучения эффективно выполняют многоуровневые вычисления в рамках ряда уровней, которые составляют нейронную сеть. Входной слой получает информацию извне и затем передает ее «скрытым» слоям для всестороннего анализа данных, выполняя математические вычисления на входах. Чем больше «скрытых» слоев в сети, тем она глубже. Выходной слой компилирует все входные данные и выполняет классификацию данных.

Например, нейронные сети, которые анализируют изображения зданий, могут обнаруживать края в одном «скрытом» слое, а затем распознавать, что эти края образуют прямоугольник в другом «скрытом» слое. В последующем слое они распознают прямоугольник как здание и, наконец, определяют, является ли здание небоскребом или гаражом.

Разработчики программного обеспечения создают мощные глубокие нейронные сети, способные к обучению, анализируя огромные наборы данных. Необработанные данные сами по себе не так полезны, поэтому разработчики комментируют или добавляют примечания к входным данным с «правильным» пониманием, как будто помечают их для машины. Системы ИИ предназначены для автоматизации обработки данных, маркировки и категоризации. Но они должны быть обучены качественной и точной информации, чтобы работать гладко и с минимальным вмешательством человека.

Таким образом, аннотация данных является наиболее важной составляющей успеха машинного обучения. Аннотации и маркировка данных взаимосвязаны.

Маркировка данных для сервиса NIGMA

Мы понимаем всю проблематику качественных данных. Поэтому, в модуле NIGMA для контекста мы задействовали несколько сотен асессоров из сотрудников компании и разметили несколько тысяч данных. Асессоры компании были приглашены для демонстрации скриншотов в отдельную аудиторию. Каждый из них был размещался перед компьютером с подключенной Eye Tracking платформой и запускалась демонстрация скриншота. Далее сканировалась сечатка глаза асессора и движения сохранялись отдельно в файл. Всего в оценке пула запросов приняло участие 200 асессоров. Полученные данные Eye Tracking платформы, преобразованы в цифровой формат. Эти данные отфильтрованы, удален шум и прочие признаки некачественных записей. Удаленные записи были записаны еще раз другими асессорами, и так до тех пор пока кол-во качественных оценок не достигло нужного количества.