Извините, но тут ничего не будет про новый год. Я терпеть не могу этот праздник и стараюсь его игнорировать. Будет про дискриминацию и машинное обучение. У меня в ленте был пост про алгоритмы, которые при принятии решений учитывают пол, расу и т.п., и в результате дискриминируют определенные группы. В комментарии понабежали всякие технари (в какой момент они вместо in-group стали для меня out-group?) и стали говорить о том, что тупые политкорректные морализаторы довели все до абсурда, и что, конечно, machine learning и bias понятия несовместимые, решения рекомендуемые алгоритмами оптимальные с рациональной точки зрения, и все в таком духе. Все это говорится с плохо скрываемым презрением и чувством несомненного интеллектуального превосходства. Которое особенно нелепо смотрится с учетом того, что никакого превосходства нет и что они не способны увидеть довольно тривиальные вещи. Тут сейчас будет небольшая модель. Новый год, 3 часа ночи, все такое, так что вы простите меня за ее несовершенство. Пусть у нас есть две группы людей, А и Б. Начальная производительность труда в этих группах распределена нормально и одинаково. Пусть теперь мы можем продвинуть какую-то часть из этих людей и увеличить их начальную производительность в два раза. Если нас интересует суммарная производительность, то нам, разумеется, выгодно продвинуть людей с максимальной начальной производительностью независимо от того из группы А они или Б. Продвигая человека с производительностью 0.1 мы выигрывает 0.1, продвигая человека с производительность 4, мы выигрываем в 40 раз больше. Предположим, что наблюдать мы можем только итоговую производительность (начальную + продвижение) и не знаем, кто именно был продвинут, а кто нет. Тогда если исторически группа Б продвигалась гораздо чаще другой, то наблюдаемая производительность этой группы будет выше. Тут приходят наши технари любители машинного обучения, которые ничего не знают и не хотят знать про неравенство, механизмы его воспроизводства и все такое, строят свой замечательный алгоритм на исторических данных, который говорит им, что в следующем поколении продвигать нужно группу Б. В результате такого продвижения в этом следующем поколении наблюдаемая производительность группы Б снова оказывается больше (сюрприз-сюрприз), круг замыкается, и мы оказываемся в ловушке воспроизводства неравенства. Как бы рациональный выбор, который однозначно диктуется алгоритмами, на самом деле вовсе не максимизирует производительность. Несложно заметить, что именно это и происходит в нашем обществе. Например, из-за того, что женщинам был ограничен доступ к образованию и различным видам деятельности, мы недосчитались огромного количества выдающихся ученых, деятельниц искусства и т.д. Человечество в целом потеряло очень многое. И если доверить принятие решений недалеким людям, научившимся делать gradient descent, мы будем продолжать многое терять.