Google и неудачи "Enormous Data"

В Wired есть статья, описывающая неудачи Google Enormous Data [2]. Хотя это и не называют неудачей, так должно быть.

Google в «дорогостоящем сотрудничестве с Университетом Карнеги-Меллона» запустил свои алгоритмы машинного обучения распознавания изображений на

50 мощных графических процессоров в течение двух месяцев и использовали беспрецедентно огромную коллекцию из 300 миллионов помеченных изображений ... чтобы проверить, можно ли добиться более точного распознавания изображений нет путем настройки… существующих алгоритмов, но просто путем подачи в них гораздо большего объема данных. [курсив мой]

Ответ на их испытание был: нет. WIRED утверждает, что ответ был положительным, но, прочитав статью,

Обработка гигантского набора данных Google из 300 миллионов изображений не принесла огромных преимуществ - скачок с 1 миллиона изображений до 300 миллионов увеличил показатель обнаружения объектов, достигнутый всего 3 процентных пункта. [подчеркивает мой]

Я более подробно расскажу об этих 3pp числах ниже, но сначала взглянем на некоторые затраты.

Игра Numbars: Сколько это стоило?

Предположим, каждое проанализированное изображение имеет размер 300 КБ. В этом случае требования к пространству для изображений размером 300 МБ становятся 83 пета байта (1 петабайт равен 1024 ГБ).

Используя оценку 2013 г., проведенную Dutta et al. [3], стоимость байта в центре обработки данных составляет 71 Кбайт, т. Е. «Эксперимент» Google стоил 6,5 миллиона долларов. Это было 4 года назад, и эти расходы продолжают снижаться.

Проведение аналогичной оценки с помощью Amazon AWS Calculator [4] дает ежемесячную оценку в 2,25 миллиона долларов [5]. Так как он ниже, давайте продолжим. Стоимость на 2 месяца составляет 4,5 миллиона долларов. Поскольку кластер принадлежит Google, предположим, что он обошелся Google в четыре миллиона долларов. (См. Подробности в разделе Ссылки.) Также обратите внимание, что Google намеревается запускать эти тесты часто, и это стоимость каждого запуска теста. Если они используют больше данных, это будет дороже.

Помните, что стоимость этого «эксперимента» была больше, чем просто стоимость оборудования. Google платит зарплату нескольким специалистам по данным и инженерам за выполнение этой задачи. Поскольку это было сделано в сотрудничестве с CMU, мы можем предположить, что они работали по крайней мере с одним штатным профессором и несколькими рабами с минимальной заработной платой (также известными как аспиранты). Я оставляю читателю размышлять о том, сколько Google платит экспертам по данным и программистам. (Погугли это ;-)

Кроме того, напомним, что Google использовал в своем анализе 300 миллионов помеченных изображений. Эта маркировка была сделана людьми. Это тоже связано с расходами, хотя я сомневаюсь, что Google заплатил за это. Например, Google Image Labeler был средством помочь Google улучшить поиск картинок Google путем добавления тегов к изображениям, и, поскольку они в глубине души руководствовались нашими интересами, они превратили это скучное занятие в красивую интерактивную игру. Первоначальная игра была онлайн с 2006 по 2011 год и была перезапущена в 2016 году. Это один из грязных секретов всех систем машинного обучения - большая часть данных собирается и вводится людьми. [7]

Что бы произошло, если бы Google просто нанял сотрудников для маркировки изображений и платил им 15 долларов в час вместо этих сложных «алгоритмических» решений? Согласно [7], затраты компании на оплату 15 долларов в час составляют 62 000 долларов в год. Это означает, что вместо того, чтобы потратить 4 миллиона долларов на этот единственный «эксперимент», Google мог бы просто нанять 60 сотрудников для идентификации их изображений. Их система идентификации изображений не будет работать в режиме реального времени, но определенно будет работать с точностью, близкой к 90% (определенно выше, чем сейчас). И вы, конечно же, не будете идентифицировать людей как горилл [1]. Если вы консультант, вы можете продавать это как продукт компаниям, взимать с них большие деньги, иметь высокую точность; заведите приличный магазин за кулисами, и вы все равно обойдете самую богатую компанию, производящую программное обеспечение. (Помните, что эта цифра в 4 миллиона долларов не включает в себя неисчислимые миллионы зарплат, которые Google платит своим инженерам, их менеджерам и их менеджерам…. Если учесть это, у вас даже есть деньги, чтобы дать себе большой бонус.)

Что может означать улучшение 3pp?

Придерживаясь предположения, что любая группа, которая желает рекламировать, будет использовать число, которое проецирует ее в положительном свете, мы можем попытаться реконструировать, что означает улучшение на 3 процентных пункта.

Например, если бы исходный процент точности составлял 1%, а затем он увеличился до 4%, результаты были бы рекламированы как 300% -ное улучшение производительности. Учитывая, что это не то, как это рекламировалось, мы можем с уверенностью предположить, что это не то, что произошло. Предположим, она увеличилась с 50% до 53%, это означает улучшение производительности на 6%.

Можно продолжить это и предположить, каковы были фактические цифры, но, надеюсь, это дает представление.

Вывод

В какой момент Google увидит, что их распознавание изображений бесполезно, и выбросит все это? Есть ли вообще смысл запускать такую дорогостоящую операцию?

Я оставлю это акционерам.

Небольшая заметка об изображении гориллы

Medium настаивал на том, чтобы у меня было изображение, когда я делюсь этим постом. Учитывая, что этот пост посвящен распознаванию изображений Google, я подумал, что это уместно иметь изображение гориллы, потому что еще в 2015 году Google Фото идентифицировало черных людей как горилл. [1]

использованная литература

[1] Софи Кертис, Google Фото маркирует чернокожих как« гориллы », Telegraph, 1 июля 2015 г., по адресу http://www.telegraph.co.uk/technology/google/11710136/Google-Photos-assigns. -gorilla-tag-to-photos-of-black-people.html . Фотография гориллы была взята из Википедии, фотография Брокена Инаглори, доступ к которой можно получить по адресу https://commons.wikimedia.org/wiki/File:Male_gorilla_in_SF_zoo.jpg
[2] ИИ и« огромные данные могли Сделать технологических гигантов сложнее свергнуть », Том Симонайт, 13 июля 2017 г., https://www.wired.com/story/ai-and-enormous-data-could-make-tech-giants-harder-to- topple /
[3] Сколько на самом деле стоит хранилище? - Амит Кумар Дутта и Рагиб Хасан, ссылка доступна по адресу https://www.bja.gov/bwc/pdfs/dutta-2013-full-cost-accounting-gecon.pdf
[4] AWS Simple Monthly Calculator , Http://calculator.s3.amazonaws.com/index.html
[5] Я не эксперт AWS, но вот параметры, которые я ввел. Оценки указаны в верхней части изображения.

[6] Информация о Google Image Labeler из неофициального блога Google News https://googlesystem.blogspot.in/2006/09/google-image-labeler.html, а также информацию о добавлении тегов к изображениям Google Фото см. , например, https://productforums.google.com/forum/#!topic/photos/KyzzpfxYHoc. С 2016 года у Google Image Labeler новый дом на http://crowdsource.google.com/imagelabeler.
[7] Реальная стоимость сотрудника на https://www.toptal.com / freelance / don-t-be-fooled-the-real-cost-of-members-and-consultants »Я нашел это, быстро выполнив поиск по запросу Стоимость сотрудника . Я понятия не имею, насколько он надежен, но держу пари, что он не более чем в 2 раза меньше.