Дискложес Автоматизированный сбор деклараций о доходах | |
Мы исследуем имена 1.5 млн российских чиновников, которые опубликовали около 4 млн деклараций за период с 2010 года по 2019 год. Нас интересует произошли ли какие-нибудь видимые изменения за эти годы с учетом региона. Данное исследование - это первый подход, скорее, это просто знакомство с датасетом.
Определение русского личного имени находится за пределами данного исследования. Интуитивно нас интересуют такие
имена, которые не вызывают у среднего российского гражданина каких-либо региональных или национальных ассоциаций.
Например, Владимир, Елена, Мария, Алексей и т.д. Имена Рамиль и Гульназ явно не относятся к стандартным русским именам. Кроме этого, мы выкидываем
из этого перечня вышедшие из обихода имена Прокопий, Матрена и другие похожие, поскольку они явно не являются популярными.
Интересно, что Прокопий и Матрёна вполне распространены в Якутии (наследство старообрядчества?).
Следующие 200 имен мы считаем "Популярными русскими именами", список упорядочен по частоте в изучаемом корпусе:
Елена, Татьяна, Наталья, Ольга, Ирина, Светлана, Александр, Сергей, Марина, Владимир, Людмила,
Юлия, Галина, Алексей, Андрей, Анна, Екатерина, Надежда, Дмитрий, Оксана, Николай, Валентина,
Евгений, Лариса, Любовь, Юрий, Мария, Игорь, Михаил, Виктор, Анастасия, Олег, Нина, Наталия,
Вера, Евгения, Виктория, Валерий, Иван, Анатолий, Павел, Роман, Максим, Вячеслав, Василий, Виталий,
Денис, Инна, Константин, Александра, Тамара, Алла, Лилия, Олеся, Лидия, Геннадий, Ксения, Дарья,
Алена, Вадим, Руслан, Маргарита, Антон, Жанна, Яна, Кристина, Петр, Артем, Эльвира, Владислав, Илья,
Альбина, Антонина, Станислав, Борис, Алина, Эдуард, Леонид, Раиса, Зоя, Вероника, Валерия, Зинаида,
Артур, Диана, Елизавета, Кирилл, Алевтина, Григорий, Полина, Валентин,
Римма, Георгий, Альберт, Анжела, Федор, Дина, Никита, Эльмира, Алёна, Роза, Венера,
Ульяна, Ангелина, Регина, Егор, Софья, Аркадий, Майя, Степан, Ярослав, Семен, Рита, Снежана,
Артём, Клавдия, Варвара, Лев, Виолетта, Алиса, Даниил, Тимофей, Герман, Яков, София, Пётр,
Евдокия, Фаина, Лена, Глеб, Родион, Ландыш, Юлиана, Марк, Фёдор, Тарас, Богдан, Рима, Иннокентий,
Клара, Бэлла, Ростислав, Феликс, Вениамин, Нелля, Василина, Святослав, Руслана, Ян, Филипп, Матвей,
Данила, Всеволод, Василиса, Афанасий, Захар, Гаврил, Ия, Семён, Артемий, Леся, Снежанна, Катерина,
Ева, Виталия, Прасковья, Пелагея, Ярослава, Серафима, Владислава, Виталина, Октябрина,
Ефим, Арсений, Станислава, Мариана, Юлианна, Марфа, Леонтий, Эрнест, Игнат, Василь, Сталина,
Димитрий, Роксана, Капитолина, Олимпиада, Андриан, Лера, Степанида, Серафим
Спорить о происхождении конкретного имени мы не хотим, проще его выкинуть из перечня. Дальше мы поcчитали, какую долю эти имена занимают за годы исследования, получили следующие данные:
Год | Всего чиновников | Число чиновников с попул. русск. именем | Процент чиновников с попул. русск. именем |
---|---|---|---|
2010 | 131068 | 13766 | 90 |
2011 | 99859 | 9781 | 91 |
2012 | 136030 | 13102 | 91 |
2013 | 98222 | 9812 | 90 |
2014 | 70944 | 7182 | 90 |
2015 | 76519 | 9336 | 89 |
2016 | 57114 | 6777 | 89 |
2017 | 59499 | 6199 | 90 |
2018 | 45406 | 5244 | 89 |
2019 | 31689 | 3632 | 89 |
Год | Процент записей (чиновников) c женским именем |
---|---|
2010 | 44.95 |
2011 | 47.61 |
2012 | 56.06 |
2013 | 59.89 |
2014 | 61.09 |
2015 | 56.08 |
2016 | 58.64 |
2017 | 61.37 |
2018 | 61.47 |
2019 | 61.6 |
Исходя из этого представляется разумным в этом исследовании отделять мужские имена от женских.
Мы взяли все мужские и женские имена, которые встречаются в базе больше ста раз за 2010-2019 годы, и попытались посчитать, какие из них быстрее всего набирают или теряют популярность. Ниже даются десять женских имен, которые быстрее всего теряют популярность:
Имя | Падение популярности (во сколько раз) | Чаще используются в регионе |
---|---|---|
галия | 9,2 | Татарстан |
земфира | 8,3 | Башкортостан |
гузалия | 7,7 | Татарстан |
фания | 7,4 | Татарстан |
гульшат | 7,1 | Татарстан |
нурия | 5,3 | Татарстан |
резеда | 4,6 | Татарстан |
альмира | 4,1 | Башкортостан |
миляуша | 3,6 | Татарстан |
лейсан | 3,2 | Татарстан |
Ниже приведены десять женских имен, которые быстрее всего набирают популярность:
Имя | Рост популярности (во сколько раз) | Чаще используются в регионе |
---|---|---|
алёна | 9,0 | |
дарья | 5.1 | |
кристина | 5.0 | |
ася | 3,9 | |
карина | 3,8 | |
ксения | 3,8 | |
милана | 3,6 | |
софия | 3,2 | |
алина | 3,1 | Татарстан |
полина | 3,0 |
Мы видим, что потеряли больше всего имена, которые популярны в Татарстане, а набрали популярность русские имена, которые совсем не были популярны в СССР. Может быть, это говорит о каком-то тренде, а может быть, это просто перекос в данных. Начать надо с проверки маловероятной гипотезы, что женщины Татарстана массово перестали декларировать свои доходы (оставим это для будущего исследования).
Приведем такую же статистику для мужских имён. Теряющие популярность мужские имена:
Имя | Падение популярности (во сколько раз) | Чаще используются в регионе |
---|---|---|
камиль | 5,2 | Дагестан |
рашид | 3,8 | Карачаево-Черкесская республика |
раиль | 3,8 | Татарстан |
ильнар | 3,7 | Татарстан |
ильдус | 3,5 | Татарстан |
ленар | 2,8 | Татарстан |
ильнур | 2,4 | Татарстан |
марат | 2,3 | Башкортостан, Северная Осетия |
наиль | 2,3 | Татарстан |
ринат | 2,2 | Татарстан |
Имя | Падение популярности (во сколько раз) | Чаще используются в регионе |
---|---|---|
артём | 9,8 | |
никита | 7,2 | |
сослан | 4.0 | Северная Осетия |
даниил | 3,8 | |
рамазан | 3,7 | Дагестан |
давид | 3,7 | Северная Осетия |
ислам | 3,5 | Чеченская республика |
марк | 3,2 | |
муслим | 3,1 | Чеченская республика |
мурад | 2,8 | Дагестан |
Интересно, что топы мужских и женских имен возглавляют имена Артём и Алёна (содержат букву Ё), может быть, здесь идет речь о том, что эта буква просто стала чаще использоваться в написании слов. Второе наблюдение такое: почему-то список теряющих популярность мужских имен почти полностью состоит из "татарских" имён. С учетом похожей ситуации с женскими именами, стоит проверить распределение числа деклараций, которые приходят из Татарстана. По данным Википедии население Татарстана выросло на 3% за 2010-2019 года, а число учтённых деклараций в системе Disclosures упало с 2% до 0.9% от всех распознанных деклараций. Т.е. популярность татарских имен не падает, но падает число деклараций из Татарстана, этот "перекос" объясняет "падение" популярности женских и мужских татарских имен. Третье наблюдение касается последней таблицы, по которой видно, как растет популярность исламских имен Муслим, Ислам, Рамазан. Возрастание популярность исламских имён похоже на настоящее изменение.
Интересно, можно ли узнать, какие имена популярны в разных регионах. Мы попробуем взять топ имен (50 первых по частотности) и выкинуть те имена, которые входят перечень "Популярные русские имена". Потом оставим только те регионы, где есть свои региональные имена. В результате работы этой процедуры мы получаем такую таблицу:
Регион | Региональные имена |
---|---|
Республика Алтай | Айана, Алтынай, Айсулу, Аржан |
Республика Адыгея | Саида, Фатима, Аслан, Азамат, Мурат, Зарема, Адам, Рустам, Мариет, Сусанна, Аскер, Тимур, Рамазан, Эмма, Нафисет |
Республика Башкортостан | Айгуль, Гульнара, Гузель, Ильдар, Гульназ, Рустам, Марат, Ринат, Зульфия, Айрат, Алия, Салават, Ляйсан, Ильшат, Азат, Радик, Ильгиз |
Республика Бурятия | Баир, Дарима, Туяна, Жаргал, Булат |
Забайкальский край | Баир |
Республика Калмыкия | Санал, Байрта, Баатр, Эрдни, Саглара, Кермен, Бадма, Айса, Мингиян, Очир, Гиляна, Арслан, Эльза, Басанг, Баира |
Карачаево-Черкесская республика | Фатима, Мадина, Мурат, Асият, Аминат, Аслан, Расул, Шамиль, Зухра, Рустам, Рашид, Заур, Лейла, Марат, Алибек, Залина, Арсен, Азамат, Али, Рамазан, Ахмат, Х асан |
Республика Татарстан | Гульнара, Алсу, Гузель, Марат, Гульназ, Рамиль, Айрат, Лейсан, Ильдар, Айгуль, Резеда, Зульфия, Фарида, Рустем, Ринат, Радик, Ильнур, Миляуша |
Республика Тува (Тыва) | Аяна, Саяна, Долаана, Буян, Чодураа, Аржаана, Урана, Аяс, Айлана, Орлан, Мерген, Айдын, Шончалай, Оюмаа, Алдынай, Шолбан, Сылдыс, Артыш, Айдыс, Эрес, Чинчи, Херел, Омак, Шораана, Шенне |
Чеченская республика | Магомед, Ахмед, Адам, Луиза, Рамзан, Аслан, Ислам, Малика, Ибрагим, Иса, Мадина, Муслим, Муса, Зарема, Рустам, Умар, Аминат, Ваха, Зелимхан, Хамзат, Али, Ильяс, Тимур , Асет, Хава, Хасан, Милана, Анзор, Элина, Фатима, Петимат, Залина, Шамиль, Аюб, Асланбек, Асламбек, Арби, Юсуп, Усман, Тамерлан, Алихан, Айшат, Султан, Бекхан, Апти |
Республика Саха (Якутия) | Саргылана, Сардана, Марианна, Айталина |
Республика Дагестан | Магомед, Патимат, Шамиль, Мурад, Ахмед, Мадина, Зарема, Рамазан, Аминат, Наида, Асият, Али, Хадижат, Арсен, Айшат, Ибрагим, Заира, Гаджи, Тимур, Джамиля, Заур, Рустам, Марат, Мухтар, Магомедрасул, Аида, Юсуп, Раисат, Гаджимурад, Камиль, Индира, Абдула, Гасан, Гамзат, Омар, Лейла, Курбан, Саида |
Республика Ингушетия | Магомед, Мадина, Фатима, Адам, Ахмед, Лейла, Ибрагим, Алихан, Муса, Магомет, Аза, Ислам, Хава, Зарема, Эсет, Тимур, Беслан, Микаил, Залина, Хяди, Иса, Хусен, Хасан, М усса, Аслан, Марем, Башир, Танзила, Макка, Исса, Батыр, Аминат, Юсуп, Пятимат, Али, Хамзат, Ахмет, Радимхан, Марет, Тамерлан, Муслим, Дауд, Бекхан, Анзор |
Кабардино-Балкарская Республика | Мурат, Аслан, Алим, Мадина, Анзор, Заур, Залина, Азамат, Мухамед, Фатима, Арсен, Тимур, Рустам, Хасан, Фатимат, Марьяна, Аминат, Асият, Зарема, Залим, Мара т, Аскер, Марианна |
Республика Северная Осетия — Алания | Алан, Фатима, Залина, Зарина, Мадина, Сослан, Марат, Казбек, Таймураз, Аслан, Тимур, Тамерлан, Заурбек, Эльбрус, Давид, Алана |
Приятно, что люди в регионах используют свои региональные имена, глаз радуется этому лингвистическому разнообразию.
Мы выложили всю статистика имен по регионам в один текстовый файл. Столбцы в этом файле такие:
Изучение зависимости дохода от имени является шуточным исследованием из разряда гомеопатии и астрологии. Просто представьте безумную гадалку, к которой обращается будущая мама. Мама хочет, чтобы ее сын был чиновником с крепким средним доходом и спрашивает, как назвать сына. Поможем гадалке в ответе на этот вопрос. Мы взяли имена, которые встречаются хотя бы 50 раз в декларациях, и посчитали медиану доходов этих деклараций. Вот имена с максимальным медианным доходом:
Имя | Число учтенных деклараций | Медианный доход |
---|---|---|
Ахат | 56 | 1157475.5 |
Ефим | 101 | 1151078 |
Гарри | 61 | 1137757 |
Гаврил | 181 | 1125143 |
Мидхат | 60 | 1094576.0 |
Эрнест | 78 | 1059434.5 |
Иосиф | 139 | 1040690 |
Иннокентий | 285 | 1023481 |
Всеволод | 218 | 1008535.5 |
Рустэм | 96 | 993918.5 |
Хизри | 55 | 982069 |
Фоат | 60 | 969442.5 |
Игнат | 67 | 947838 |
Ростислав | 270 | 943688.5 |
Афанасий | 164 | 937215.0 |
Прокопий | 78 | 930676.5 |
Марк | 309 | 896979 |
В этом перечне сразу бросаются в глаза вхождения имен Иннокентий, Гаврил, Афанасий и Прокопий. Эти имена распространены только в Якутии. Мы знаем, что в Якутии зарплаты выше из-за северных надбавок, поэтому зависимости дохода от имени в этом случае точно не существует. Можно предположить, что и остальные примеры могут быть объяснены другими факторами или просто быть случайностью, но гадалке об этом лучше не говорить.