В последнее время искусственный интеллект начал развиваться и привнес революционные изменения в отрасль. Его влияние было замечено во многих аспектах бизнеса. Многие методологии и алгоритмы различной степени сложности были разработаны для решения различных проблем и предназначены для сосредоточения внимания на технических аспектах решения проблем. Итак, акцент делается на кодирующей части проблемы. Однако любое решение ИИ, созданное для решения проблемы, состоит из двух частей — алгоритма и данных. Недавняя кампания ИИ, ориентированная на данные, запущенная Эндрю Нг, пытается подчеркнуть, что модели достигли довольно высокого уровня сложности, и нам пора уделять больше внимания качеству данных. 

Что такое датацентрический ИИ? И как это помогает бизнесу, управляемому данными?
Многие алгоритмы ИИ различной степени сложности были разработаны для решения различных задач (например, ResNet50, Inception, VGG16 и т. д. для классификации изображений). Наряду с этим было разработано множество методологий для дальнейшей тонкой настройки модели, таких как регуляризация, перекрестная проверка и т. д. Однако эти методы построены так, чтобы сосредоточиться на технической стороне решения проблем. Итак, акцент делается на кодирующей части проблемы.

Основная идея ИИ, ориентированного на данные, заключается в том, что никакая тонкая настройка не может исправить плохие данные. Многие из используемых в настоящее время моделей имеют высокий уровень сложности и могут решать сложные задачи. Но в случае, если данные неверны или недостаточно ясны, модель будет учиться так, как представлена. Поэтому Эндрю Нг предлагает больше сосредоточиться на данных, новой методологии, в которой модель остается неизменной, а данные итеративно изменяются. Именно модель может быть эффективно уведомлена с использованием высококачественных данных. Чтобы это работало хорошо, правильное и глубокое понимание данных имеет решающее значение. Это очень важно, потому что то, что помогает решить бизнес-проблему, — это четкое понимание самой проблемы. Это поможет нам систематически обрабатывать данные, а это может произойти только тогда, когда данные будут четкими.

Характеристика аспектов высококачественных данных
 Для более глубокого понимания нам нужны уточненные и высококачественные данные, но как мы их определяем и каковы аспекты поддержания качества?

Последовательность: 
Данные должны быть четко определены. Должны быть четкие рекомендации и определения для аннотаций и маркировки. Для этого может потребоваться участие нескольких специалистов по маркировке и экспертов в данной области. Например, рассмотрим следующую задачу обнаружения объекта. На приведенном ниже рисунке два льва обозначены очень по-разному. Оба способа правильны. Однако отсутствие четкого определения (как маркировать, когда на переднем плане другой объект) привело к различным аннотациям. В более сложных задачах это может привести к обратным результатам. Поэтому очень важно иметь четкие ориентиры.

Метаданные :
Такая информация, как время создания, источник и т. д., также важна для определения типа данных, которые будут использоваться. Это помогает нам определить принципы, на которых должно строиться решение ИИ. Возможность точного выбора данных может быть полезной при работе с дрейфом данных и обновлении модели.

Высокое качество данных необходимо для более четкого понимания проблемы. Он ориентирует процесс принятия решений на данные, а не на технику. Принятие этого решения требует более тесного сотрудничества с экспертами в предметной области. В результате модель решений может быть разработана таким образом, чтобы специалисты по данным могли понимать и управлять процессом обучения модели. Это почти наверняка приведет к разработке лучших решений и повышению их производительности.

Философия ИИ, ориентированного на данные, направлена ​​на наилучшее использование данных, что требует четких стандартов, установленных с самого начала, то есть сбора данных. Это может побудить предприятия стандартизировать сбор данных и различные процессы в их цепочках создания стоимости. Это упростит управление данными, что, в свою очередь, значительно упростит доступ, мониторинг и анализ данных для создания решений.

ИИ, ориентированный на данные, приносит массу преимуществ. Поскольку эта парадигма требует более глубокого понимания данных, ее можно легко интегрировать с предварительной обработкой данных, которая обычно занимает огромное количество времени при создании решения. В результате выделение ресурсов для обучения парадигме, ориентированной на данные, может быть намного меньше, поскольку она не требует тонкой настройки гиперпараметров. Вот некоторые из преимуществ ИИ, ориентированного на данные.

Сценарий использования: подробный взгляд на ИИ, ориентированный на данные, на практике 

Теперь давайте посмотрим, как мы можем улучшить модель в парадигме, ориентированной на данные. Мы поделимся здесь некоторыми выводами из  конкурса ИИ, ориентированного на данные  (для распознавания римских цифр на изображениях). Для конкурса участников попросили изменить наборы данных для обучения и проверки таким образом, чтобы модель, полученная в результате этого, имела наилучшую точность прогнозирования на скрытом наборе тестовых данных. Для простоты представим, что мы строим модель, которая классифицирует изображения на кошек и собак. Мы должны обратить внимание на следующие детали. 

Обеспечьте надлежащую маркировку в соответствии с четко определенными рекомендациями. Например, будет ли изображение рассматриваться только в том случае, если видно все тело животного? Или достаточно головы? Должно ли животное смотреть в камеру?
Убедитесь, что все изображения соответствуют одним и тем же стандартам, например, Должны ли они быть в оттенках серого или RGB? Должны ли быть разрешены водяные знаки? Что делать, если на изображении есть и собаки, и кошки?
Убедитесь, что различные подклассы адекватно представлены как в наборе данных для обучения, так и в наборе данных для проверки, например, сколько различных пород видов присутствует в данных? Распределяются ли они одинаково как в обучающих, так и в проверочных наборах данных?
Убедитесь, что при изменении размера изображения для ввода не теряются важные детали. Другими словами, понять, сколько деталей нужно изучить модели, чтобы делать более точные прогнозы? т. е. при изменении размера изображения проверьте, сколько информации было потеряно. Использует ли модель уши, чтобы идентифицировать животное? Они теряются при изменении размера изображения?
Добавление различных дополнений к данным и обеспечение того, чтобы это не приводило к шуму. Для, например, горизонтальных и вертикальных сдвигов могут быть подходящими аугментации, но не вертикальные флипы. Когда используется сдвиг по горизонтали/вертикали, приводит ли это к потере важных частей изображения?
Это поднимает другой вопрос — как мы выбираем дополнения? Есть несколько рекомендаций по выбору дополнений, которые могут обогатить модель.

Попробуйте отдельные дополнения и посмотрите, как меняется производительность. Если некоторые дополнения повысят точность, это может помочь нам построить лучшую модель. Эти дополнения не обязательно применять ко всему набору данных. Иногда это может улучшить производительность по отношению к определенному классу.
Нам нужно иметь представление о том, до какой степени следует выполнять аугментацию. Слишком мало и слишком много может быть вредным. Нам нужно найти оптимальное количество конкретного улучшения или комбинации дополнений, чтобы найти наилучшее решение.
Дополненные примеры должны быть реалистичными, где люди также могут преуспеть. Если люди не могут идентифицировать дополненное изображение, это становится неверными данными.
Следуя этим шагам, лучший способ повысить точность модели — выполнить итерации анализа ошибок. Это одна из центральных частей парадигмы, ориентированной на данные. Этот процесс позволяет нам систематически улучшать качество набора данных. На основе исходных данных мы построили базовую модель. Затем, используя эту модель, мы изучили прогнозы валидации и тестовых данных. Это помогло нам понять случаи, когда модель не дает правильного прогноза. Затем мы формулировали различные гипотезы, которые могли привести к этим неудачам. Чтобы проверить эти гипотезы, мы изменили исходный набор данных: 

а) путем перенастройки наборов данных для обучения и проверки 

б) Внедрение дополнений 

Каждый раз мы очищали набор данных после внедрения аугментаций. Если какие-либо из этих шагов приводили к повышению точности (другими словами, подтверждали наши гипотезы), они применялись к набору данных. Если нет, они были отклонены. Этот процесс обратной связи повторялся несколько раз, что привело не только к повышению производительности, но и к лучшему пониманию того, как работает модель. В результате этого итеративного анализа ошибок мы смогли добиться увеличения точности на ~ 20% (с 64,7% до 84,7%) для скрытого набора данных.

Начните отсюда…! 
Некоторые из этих уроков могут быть реализованы в случае структурированных наборов данных, таких как табличные данные. Например, рассмотрим случай с данными о клиентах. При маркировке необходимо четко понимать, какие данные и как следует собирать. Для этого необходимо правильное планирование. Затем мы можем начать с выбора данных. Мы должны удалить данные, которые не имеют достаточного количества функций, как требуется. Также важно, чтобы данные имели единообразное форматирование, т. е. одинаковый формат даты, категориальную маркировку, количество знаков после запятой и т. д. Далее, для обеспечения надлежащего распределения обучения/проверки необходимы различные соображения. Например, следует обеспечить одинаковое распределение высокозатратных и малозатратных как в обучающих, так и в проверочных наборах данных. В противном случае это может привести к искажению прогноза. Затем мы должны понять, насколько подробно модель требует обучения. Например, если у нас есть переменная, какой порядок величины имеет значение для правильных прогнозов (например, в диапазоне 10 или 100 и т. д.). Вот некоторые примеры.

Не останавливайтесь…, вы на шаг ближе к решению! 
Несмотря на все эти усилия, эти шаги могут оказаться недостаточными. Что касается табличных данных, разработка признаков играет ключевую роль. Например, возможно, что есть функции, которые еще не рассмотрены и содержат недостающие фрагменты информации. Возможно даже, что текущие функции, когда-то представленные по-другому, также могут привнести новые идеи в модель. Это особенно важно, учитывая, что анализ ошибок в табличных данных выполняется совсем по-другому. В случае неструктурированных данных, таких как изображения, Data Scientist может изучить даже несколько сотен изображений. В случае табличных данных количество записей может достигать десятков тысяч.

Вопросы, ответы!
В случае табличных данных возникает еще один вопрос, связанный с выбросами. Это не обязательно аномальные данные, но недостаточно представленное поведение. Как решение ИИ может решить эти сценарии? Возможны два подхода к решению этого вопроса. Одним из способов является использование различных методов выборки для увеличения данных. Это сравнительно легче. И второй способ — искать больше данных. Это требует постоянного мониторинга, но может привести к лучшим примерам.

«Ориентированный на данные ИИ не должен ограничиваться только данными и алгоритмом; это должно быть организационное отношение».

Подглядывание: все, что нужно организации! 
Подготовка к смене парадигмы на ИИ, ориентированный на данные, требует изменений не только в методе решения проблем, но и в организационном подходе. Мы рекомендуем следующее:

Необходимо дополнить подход, ориентированный на данные (который рассматривает данные как актив, а приложения — как эфемерный), существующей культурой, ориентированной на данные (которая ориентирует данные в представлении, ориентированном на приложения).
Назначить главного сотрудника по данным, который будет нести ответственность за внедрение передовых методов управления данными.
Разработайте стратегию сбора, хранения и использования данных на каждом этапе цепочки создания стоимости с учетом будущего потенциала.
Разработка и внедрение политик качества и согласованности данных
Гибкие и простые в использовании инструменты для доступа и обработки различных типов данных
Установить надлежащие каналы для сообщения результатов исследований лицам, принимающим решения, и обеспечить их применение на практике.
Повысьте простоту использования науки о данных за счет многоразовых, готовых к использованию моделей и API, а также формальных процессов.
Ставьте на первое место людей, которые разбираются в данных; нанимать и развивать новые таланты
Раскрытие возможностей, ориентированных на данные — MLOps и DataOps
Чтобы приспособиться к парадигме, ориентированной на данные, нам необходимо учитывать изменения на каждом этапе производства. Следовательно, важно внедрить подходящие передовые методы во время MLOps и DataOps. При работе с большими наборами промышленных данных отслеживать различные модели, ориентированные на данные (или, скорее, распределения данных) может быть довольно сложно. Подмножество данных, которое нам нужно извлечь из хранилища данных для построения и/или обновления моделей, становится важным аспектом разработки решения. Точно так же ИИ, ориентированный на данные, побуждает нас по-новому взглянуть на практику MLOps. Это может потребовать более тщательной проверки сбора данных и разработки функций. Лучшие практики еще развиваются и изучаются.

Однако решающим условием ориентированного на данные ИИ является то, что он требует данных более высокого качества и более глубокого понимания данных, а не методов. Это указывает на более широкое участие экспертов в предметной области, которые могут значительно упростить построение решения. Для лучшего структурирования проблемы потребуется более тесное сотрудничество с учеными и аналитиками данных, что, в свою очередь, поможет понять, как подходить к данным.

Это все еще в упор? Или конец всей путанице с ИИ, ориентированной на данные
По мере того, как мы переходим к новой парадигме, возникают определенные новые вопросы, на которые еще нет ответов. Например, где мы проводим грань между ИИ, ориентированным на данные, и ИИ, ориентированным на модели? В какой момент мы можем решить, что ИИ, ориентированный на данные, сделал все возможное, и нам нужно точно настроить гиперпараметры модели? Это может вернуть нас к чертежной доске, чтобы переформулировать проблему или изменить определения/принципы, на которых построена модель. Тем не менее, в конце концов, мы хотели бы воздержаться от заявлений о том, что ИИ, ориентированный на данные, — это панацея для создания высококачественных моделей. ИИ, ориентированный на данные, требует лучшего качества данных. 

Это возвращает фокус от техник к пониманию проблемы. И проблему можно хорошо понять, только если данные достаточно хороши. Никакая тонкая настройка не может исправить неопределенные данные. Но это не означает, что модельно-ориентированный подход устарел. Это тоже имеет место быть. Мы можем использовать методы точной настройки модели в дополнение к подходу ИИ, ориентированному на данные, чтобы дополнить и улучшить подход к решению.