С ИИ нет ничего важнее данных 
 

И ваши данные не готовы для ИИ. Это касается почти всех данных. Почему, ведь сбор данных никогда не предназначался для ИИ.

И все же данные — это кровь ИИ. Для успеха требуется правильное количество правильных данных. Часто это самая большая проблема в поиске решений больших проблем на основе ИИ. ИИ будет напрямую отражать характеристики данных. Ненадежные данные создают ненадежный ИИ. Плохие данные создают плохой ИИ. Данные смещения создают искусственный интеллект смещения.

Каждый бизнес-лидер должен понимать характеристики данных, лежащих в основе ИИ, чтобы судить о качестве ИИ. Именно здесь бизнес-лидеры могут внести существенный вклад. Теоретически бизнес-лидеры должны знать сильные и слабые стороны и ценность своих бизнес-данных. Никогда не недооценивайте ценность ваших бизнес-данных. И никогда не переоценивайте его качество. По моему опыту, большинство бизнес-лидеров поступают наоборот. Как я представил в родительском посте к этому, доступность качественных данных останется основным препятствием для прогресса ИИ. Вот несколько моих личных позиций, которые некоторые могут счесть спорными.

«Инженерия данных важнее для решений ИИ, чем наука о данных». 

«Данные о выполнении задачи более ценны, чем сама задача». 

«Синтетические данные заменят реальные данные в качестве основного топлива для ИИ».

Вот несколько важных вопросов, которые бизнес-лидеры должны задать, прежде чем дать зеленый свет любой инициативе в области ИИ.

Достаточно ли у нас данных? 
Когда в 2020 году COVID-19 достиг статуса глобальной пандемии, люди возлагали большие надежды на ИИ как на путь к решению. Так почему же решения приходили медленно и неэффективно? Одна большая причина (если не самая большая), у нас просто не было данных. COVID-19 был новым, новым, никогда ранее не идентифицированным коронавирусом. Нам нужно было собрать, обработать и проанализировать новые данные. Данные, которых не было. Многие страны практически сразу внедрили ИИ для отслеживания контактов и отслеживания болезни, но у нас не было достаточно данных, чтобы продолжить лечение даже с помощью мощности ИИ. 

Это правильные данные?
В некоторых случаях у нас есть много данных, но это неправильные данные. Помните, что правильные данные содержат ответы, которые вы ищете. Это было еще одной слабостью Принстонского проекта « Вызов хрупким семьям ». Да, был очень большой надежный набор данных. Но набор данных был разработан для социологов для изучения семей, образованных неженатыми родителями, и жизни детей, рожденных в этих семьях. Он не был предназначен для того, чтобы ИИ предсказывал шесть конкретных жизненных исходов детей, включенных в наблюдения. Было мало шансов, что искомый ответ находится где-то в данных. На самом деле вы не можете разработать набор данных для этой широкой цели с какими-либо гарантиями того, что ответ будет в данных.  

Можем ли мы получить правильные данные?
Один из лучших способов убедиться, что у вас есть правильные данные, — это разработать набор данных специально для применения ИИ к проблеме. Так было с 50 000 рентгенограмм грудной клетки, собранными для исследования Стэнфордского радиологического исследования CheXNeXT AI. Эти специалисты по данным знали, что в рентгеновских данных представлено достаточное количество определенного набора сердечных заболеваний, поэтому они знали, что существует большая вероятность того, что они смогут использовать данные для построения модели ИИ, которая сможет обнаруживать эти заболевания. . По крайней мере, для тех целевых болезней они знали, что ответ был в данных. Они не ожидали, что алгоритм ИИ распознает какие-либо другие недуги. 

Иногда «нужных данных» не существует, и их сбор слишком дорог. Вот тут-то и появляются синтетические данные. С современными технологиями вы можете создать большой набор данных в соответствии со спецификацией. Однако всегда существует риск того, что данные не будут отражать реальный мир. В некоторых случаях организации не хотят, чтобы их ИИ отражал реальный мир. Вместо этого они обучают алгоритмы ИИ отражать мир, который им нужен. Затем они ищут желаемый сценарий в реальном мире. Это один из способов, которым компании пытаются бороться с предвзятостью в реальном мире. Потому что даже правильные данные из реального мира могут не ответить на следующий вопрос.  

Содержат ли данные нужный вам ответ?   
Как будто недостаточно сложно убедиться, что ответ находится в данных, вы должны убедиться, что ответ, который вы хотите, находится в данных. Хорошие данные ИИ не только содержат ответ, но и отражают сценарий, который вы хотите смоделировать. И этот сценарий не может быть способом мира. Все данные необъективны, и точка. Точные данные «реального мира» будут отражать фактическую предвзятость в реальном мире. Таким образом, если мы изучаем практику жилищного кредитования, практики продажи недвижимости или системы обучения K-12, любые предубеждения, присущие этим людям, практикам и системам, будут в данных. И эти предубеждения будут отражаться в алгоритмах ИИ, обученных на этих данных.

В середине 2000-х Amazon создавала системы рекрутинга на основе искусственного интеллекта . Конечная цель состояла в том, чтобы иметь систему, которая могла бы просматривать тысячи и тысячи резюме и отсеивать кучу до горстки высококвалифицированных кандидатов, с которыми менеджеры Amazon могли бы затем провести собеседование и выбрать наиболее квалифицированных. Относительно быстро стало очевидно, что результаты довольно сильно предвзято относятся к мужскому полу. Почему это было? Данные, на которых они обучили модель ИИ, представляли собой хранилище резюме, отправленных в Amazon за 10-летний период. И кто отправлял эти резюме? Мужчины. Таким образом, «ответом» в данных были «мужчины», подходящие для этой должности, а не «мужчины и женщины», подходящие для этой должности.

В данных был ответ. Но это был предвзятый ответ и не обязательно тот ответ, который искала Amazon. В конце концов, Amazon отказалась от рекрутингового проекта на основе искусственного интеллекта, потому что, хотя у них было много «правильных» данных, у них не было данных, которые дали бы им приемлемый ответ. Если Amazon может совершить эту ошибку, то сможет любой.

Предвзятость может быть только хорошей или плохой в зависимости от желаемого результата. 
Другой ныне известный пример предвзятости возник в результате новаторского исследования Джой Буоламвини, Деб Раджи и Тимнита Гебру. Это исследование показало, что классификация по распознаванию лиц белых мужчин была гораздо более точной, чем чернокожих женщин. Это положило начало значительным усилиям многих компаний по дальнейшему изучению предвзятости в алгоритмах распознавания лиц.     

Поскольку все данные реального мира предвзяты, очень важно понять, как эта предвзятость повлияет на «ответы», которые ИИ найдет в данных. Обладая этими знаниями, бизнес-лидеры могут либо обеспечить корректировку данных, либо учитывать предвзятость в бизнес-решениях, которые следуют за ИИ. Предвзятость и прозрачность являются важными аспектами ИИ. Целая область вокруг этического ИИ быстро развивается. Большая часть обеспечения этичности ИИ для бизнес-лидеров заключается в том, чтобы осознать присущие данным (и, следовательно, ИИ) предубеждения и, при необходимости, скорректировать бизнес-решения и методы, чтобы противодействовать этим предубеждениям. Большая часть этического ИИ заключается в том, чтобы убедиться, что данные содержат правильный ответ на бизнес-проблему.       

Получение нужного количества правильных данных станет серьезной проблемой ИИ в обозримом будущем. Это часто делает стоимость ИИ непомерно высокой для всех, кроме крупнейших компаний. Стоимость получения, подготовки и обработки данных может достигать миллионов долларов в зависимости от типа необходимого ИИ. Есть несколько способов получить доступ к данным, в том числе:

Сбор, управление и обработка внутренних бизнес-данных
Получение, управление и обработка внешних данных
Сбор данных методом проб и ошибок (обучение с подкреплением)
Синтез данных для обучения ИИ
Приобретение алгоритмов, обученных другими организациями на их управляемых данных 
Каждый из этих и других подходов сопряжен с компромиссами между затратами и выгодами.

В итоге
Очень важно, чтобы бизнес-лидеры понимали основы данных, лежащих в основе ИИ. Качество и стоимость данных лежат в основе любого бизнес-кейса ИИ. Плохое решение здесь ставит под угрозу весь проект ИИ и, возможно, бизнес.  

Итак, ключевые вопросы по данным, которые бизнес-лидеры должны задать своей команде ИИ:

Есть ли у нас достаточное количество правильных данных, чтобы дать нам желаемые результаты? 
Каковы основные проблемы с данными и как мы их решим?
Сколько будет стоить сбор, подготовка и управление нужными данными?
Можем ли мы эффективно понимать и управлять предвзятостью данных?