Машинный интеллект называют «святым Граалем» компьютерного мира, и он может проложить путь к «сингулярности» - моменту, когда машины соответствуют человеческому разуму. Но на данный момент сингулярность машинного обучения (ML) далека от достижения. Хотя поговорка «Есть три вида лжи: ложь, проклятая ложь и статистика» может быть не совсем верной, статистика также имеет тенденцию изображать искаженную картину. Иными словами, то, как интерпретируются статистические результаты, может вызывать ложь, а решения машинного обучения (статистический анализ по сути) подвержены предвзятости. 

Давайте сначала посмотрим, как машинное обучение помогает в принятии решений, чтобы понять, как может закрасться предвзятость. 

Как модели машинного обучения принимают решения?
Модели машинного обучения используют нейронные сети для интерпретации статистических данных. Нейронные сети состоят из нескольких связанных между собой узлов принятия решений, которые анализируют входные данные для генерации соответствующего выхода. На начальных этапах обучения машинного обучения все узлы одинаково важны для принятия решений, и обучающие данные, которые передаются в модель, должны соответствовать заранее определенным выходным данным. Чтобы добиться этого соответствия, нейронная сеть претерпевает постепенные изменения через цикл обратной связи, при этом ее составные узлы меняют свою относительную важность для более точного принятия решений. 

Именно этот вес, присвоенный каждому узлу, влияет на процесс принятия решений. После многих итераций и циклов обратной связи модель ML достигает идеального баланса веса узлов, чтобы автоматически генерировать желаемые решения при подаче тестовых данных - на этом этапе модель ML считается «обученной». 

У этого есть множество приложений в реальном мире, от анализа данных визуального трафика для маршрутизации трафика до распознавания лиц в системе безопасности. 

Узнать больше: Наука о данных против машинного обучения: 10 главных отличий   

Риск появления предвзятости в процессе принятия решений 
На самом деле, трудно заставить ML эффективно и этично воспроизводить процессы принятия решений людьми. Серьезной проблемой при обучении и внедрении машинного обучения является риск предвзятости. Недавнее исследование показало, что сегодня почти для половины профессионалов отрасли предвзятость является одной из двух самых больших в AI / ML. Только 15% команд AI / ML в настоящее время решают эту проблему. Рассмотрим случай экспериментального чат-бота Microsoft с искусственным интеллектом Тэя. Microsoft разработала Тэя для взаимодействия с 18-24-летними в Твиттере, для обучения разговорной речи и реагирования почти на человеческий лад. В течение нескольких часов злоумышленники в сети научили Тэя повторять расистские, сексистские и антисемитские оскорбления, используя в своих интересах его алгоритмы, не зависящие от содержания. 


Источник: исследование машинного обучения, проведенное Университетом Карнеги-Меллона.

Хотя я не виню использованную нейронную сеть - отрицательные входные данные заставили Тэя стать предвзятым из-за отсутствия каких-либо превентивных механизмов. 

Узнать больше: Beyond the Hype: сочетание машинного обучения с оперативной аналитикой 

Как предвзятость проникает в ML?
Есть несколько способов внести предвзятость в процесс принятия решений по машинному обучению: 

Человеческий фактор. Машинное обучение имеет тенденцию имитировать человеческое поведение (хотя и грубо), а человеческое поведение часто бывает предвзятым. Например, более примитивные формы технологии распознавания лиц ориентированы на распознавание лиц кавказцев и мужчин. Недавнее исследование, проведенное Национальным институтом стандартов и технологий (NIST), показало, что распознавание лиц было наиболее точным для «более светлых мужчин» и наименее точным для «более темных женщин» среди провайдеров. 

Источник: результаты исследования NIST, опубликованного Гарвардским университетом. 

Низкое качество обучающих данных - если обучающие данные неполны или не обеспечивают должного баланса в диапазоне предоставленных данных, то нейронная сеть будет обучаться аналогичным образом с перекосом. 
Несоответствие производительности модели - это то, что происходит, когда данные обучения ML не соответствуют данным, на которых они будут тестироваться (реальные или тестовые данные). Например, предположим, вы обучаете модель машинного обучения распознаванию животных, и вы использовали следующее для обучения: 
Источник:  freeCodeCamp

Но когда вы тестируете модель машинного обучения (т. Е. Опробуете ее в реальном сценарии, она получит гораздо больше изображений с высоким разрешением, которые трудно идентифицировать на основе полученного обучения). Несоответствие производительности модели приводит к неправильным решениям с высоким риском систематической ошибки. 

Очевидно, нам нужен способ обнаружения предвзятости и, при обнаружении, ее устранения или устранения. Хотя это непросто, вы можете предпринять несколько действий, чтобы уменьшить влияние предвзятости. 

Узнать больше: Adaptive Insights CPO о том, почему машинное обучение нарушает аналитику данных 

5 лучших практик для минимизации предвзятости в машинном обучении
При разработке и запуске алгоритмов машинного обучения вы можете предпринять несколько шагов, которые снизят риск предвзятости. 

1. Выберите правильную модель обучения 
Есть два типа моделей обучения, и у каждой есть свои плюсы и минусы. В контролируемой модели данные обучения полностью контролируются заинтересованными сторонами, которые готовят набор данных. Убедитесь, что эта группа заинтересованных сторон сформирована справедливо и прошла обучение бессознательной предвзятости. С другой стороны, неконтролируемая модель зависит от самой нейронной сети для обнаружения тенденций смещения. Это означает, что между входными данными и выходным результатом должна быть некоторая разница с учетом методов предотвращения смещения, чтобы нейронная сеть научилась различать, что смещено, а что нет. 

2. Используйте правильный набор обучающих данных. 
Текущее состояние машинного интеллекта настолько хорошо, насколько хороши его обучающие данные. Данные обучения, которые вы вводите в нейронную сеть, должны быть всеобъемлющими, сбалансированными, воспроизводить реальные сценарии, такие как демографический состав, и не содержать предвзятых предрасположенностей людей. Хорошее практическое правило - стараться не использовать повторно наборы данных - например, данные из области с этнически разнообразным населением не могут быть применены к региону с преимущественно одной расой, и наоборот. 

3. Внимательно относитесь к обработке данных. 
Машинный интеллект включает три типа обработки данных: предварительную обработку, внутреннюю обработку и постобработку. Когда вы готовите наборы данных в процессе предварительной обработки, смещение может закрасться во время форматирования, прежде чем они будут переданы в нейронную сеть. На этом этапе следует исключить любые данные, которые могут внести систематическую ошибку. Во время обработки данные обрабатываются, когда они проходят через саму нейронную сеть, поэтому взвешивание нейронных узлов должно быть правильным, чтобы предотвратить смещенный вывод. Наконец, убедитесь, что нет предвзятости при интерпретации данных для удобочитаемого потребления на этапе постобработки. 

4. Отслеживайте реальную производительность на протяжении жизненного цикла машинного обучения. 
Независимо от того, насколько тщательно вы выбираете модель обучения или проверяете данные обучения, в реальном мире могут возникнуть неожиданные проблемы. Важно не рассматривать какую-либо модель машинного обучения как «обученную» и доработанную, не требующую дальнейшего мониторинга. Кроме того, по возможности старайтесь использовать реальные данные для тестирования машинного обучения, чтобы можно было обнаружить и исправить предвзятость, прежде чем она создаст ситуацию, отрицательно влияющую на человеческие жизни.

5. Убедитесь, что нет проблем с инфраструктурой.
Помимо данных и человеческого фактора, сама инфраструктура может вызвать предвзятость. Например, если вы полагаетесь на данные, собранные с помощью электронных или механических датчиков, проблемы с оборудованием могут привести к смещению. Это часто самый сложный тип предвзятости для выявления и требует тщательного рассмотрения с инвестициями в новейшую цифровую и технологическую инфраструктуру. 

Эти пять передовых практик должны стать отправной точкой в ​​обсуждении предвзятости в машинном обучении. 

В зависимости от приложения, алгоритмической структуры и статистической модели могут использоваться другие параметры для оценки условий потенциального смещения и их исправления. Еще одна важная мера - введение изучения этики в рамках технического образования, чтобы программисты, специалисты по обработке данных и бизнес-лидеры подходили к машинному обучению с четким пониманием его рисков.