Дискложес  ☰      

декларации о доходах

Дискложес     Автоматизированный сбор деклараций о доходах

Личные имена в декларациях о доходах (2010-2019)

Алексей Сокирко, февраль 2021, sokirko@yandex.ru

Введение

Мы исследуем имена 1.5 млн российских чиновников, которые опубликовали около 4 млн деклараций за период с 2010 года по 2019 год. Нас интересует произошли ли какие-нибудь видимые изменения за эти годы с учетом региона. Данное исследование - это первый подход, скорее, это просто знакомство с датасетом.

Популярные русские имена

Определение русского личного имени находится за пределами данного исследования. Интуитивно нас интересуют такие имена, которые не вызывают у среднего российского гражданина каких-либо региональных или национальных ассоциаций. Например, Владимир, Елена, Мария, Алексей и т.д. Имена Рамиль и Гульназ явно не относятся к стандартным русским именам. Кроме этого, мы выкидываем из этого перечня вышедшие из обихода имена Прокопий, Матрена и другие похожие, поскольку они явно не являются популярными. Интересно, что Прокопий и Матрёна вполне распространены в Якутии (наследство старообрядчества?). Следующие 200 имен мы считаем "Популярными русскими именами", список упорядочен по частоте в изучаемом корпусе:
Елена, Татьяна, Наталья, Ольга, Ирина, Светлана, Александр, Сергей, Марина, Владимир, Людмила, Юлия, Галина, Алексей, Андрей, Анна, Екатерина, Надежда, Дмитрий, Оксана, Николай, Валентина, Евгений, Лариса, Любовь, Юрий, Мария, Игорь, Михаил, Виктор, Анастасия, Олег, Нина, Наталия, Вера, Евгения, Виктория, Валерий, Иван, Анатолий, Павел, Роман, Максим, Вячеслав, Василий, Виталий, Денис, Инна, Константин, Александра, Тамара, Алла, Лилия, Олеся, Лидия, Геннадий, Ксения, Дарья, Алена, Вадим, Руслан, Маргарита, Антон, Жанна, Яна, Кристина, Петр, Артем, Эльвира, Владислав, Илья, Альбина, Антонина, Станислав, Борис, Алина, Эдуард, Леонид, Раиса, Зоя, Вероника, Валерия, Зинаида, Артур, Диана, Елизавета, Кирилл, Алевтина, Григорий, Полина, Валентин, Римма, Георгий, Альберт, Анжела, Федор, Дина, Никита, Эльмира, Алёна, Роза, Венера, Ульяна, Ангелина, Регина, Егор, Софья, Аркадий, Майя, Степан, Ярослав, Семен, Рита, Снежана, Артём, Клавдия, Варвара, Лев, Виолетта, Алиса, Даниил, Тимофей, Герман, Яков, София, Пётр, Евдокия, Фаина, Лена, Глеб, Родион, Ландыш, Юлиана, Марк, Фёдор, Тарас, Богдан, Рима, Иннокентий, Клара, Бэлла, Ростислав, Феликс, Вениамин, Нелля, Василина, Святослав, Руслана, Ян, Филипп, Матвей, Данила, Всеволод, Василиса, Афанасий, Захар, Гаврил, Ия, Семён, Артемий, Леся, Снежанна, Катерина, Ева, Виталия, Прасковья, Пелагея, Ярослава, Серафима, Владислава, Виталина, Октябрина, Ефим, Арсений, Станислава, Мариана, Юлианна, Марфа, Леонтий, Эрнест, Игнат, Василь, Сталина, Димитрий, Роксана, Капитолина, Олимпиада, Андриан, Лера, Степанида, Серафим

Спорить о происхождении конкретного имени мы не хотим, проще его выкинуть из перечня. Дальше мы поcчитали, какую долю эти имена занимают за годы исследования, получили следующие данные:

Год Всего чиновников Число чиновников с попул. русск. именем Процент чиновников с попул. русск. именем
2010 131068 13766 90
2011 99859 9781 91
2012 136030 13102 91
2013 98222 9812 90
2014 70944 7182 90
2015 76519 9336 89
2016 57114 6777 89
2017 59499 6199 90
2018 45406 5244 89
2019 31689 3632 89
Из таблицы видно, что за 10 лет доля стандартных русских почти имен не изменилась и находится в районе 90%.

Мужские и женские имена

С некоторой точностью и полнотой (полнота 90%) мы можем по имени и фамилии распознать, является ли данный чиновник мужчиной или женщиной. Для чиновника с неизменяемой фамилией, например Сокирко А.В., предсказать пол по фамилии не получится. В изучаемом датасете доля женщин существенно меняется:
Год Процент записей (чиновников) c женским именем
201044.95
201147.61
201256.06
201359.89
201461.09
201556.08
201658.64
201761.37
201861.47
201961.6

Исходя из этого представляется разумным в этом исследовании отделять мужские имена от женских.

Популярность имени

Мы взяли все мужские и женские имена, которые встречаются в базе больше ста раз за 2010-2019 годы, и попытались посчитать, какие из них быстрее всего набирают или теряют популярность. Ниже даются десять женских имен, которые быстрее всего теряют популярность:

Имя Падение популярности (во сколько раз) Чаще используются в регионе
галия9,2Татарстан
земфира8,3Башкортостан
гузалия7,7Татарстан
фания7,4Татарстан
гульшат7,1Татарстан
нурия5,3Татарстан
резеда4,6Татарстан
альмира4,1Башкортостан
миляуша3,6Татарстан
лейсан3,2Татарстан

Ниже приведены десять женских имен, которые быстрее всего набирают популярность:

Имя Рост популярности (во сколько раз) Чаще используются в регионе
алёна9,0
дарья5.1
кристина5.0
ася3,9
карина3,8
ксения3,8
милана3,6
софия3,2
алина3,1Татарстан
полина3,0

Мы видим, что потеряли больше всего имена, которые популярны в Татарстане, а набрали популярность русские имена, которые совсем не были популярны в СССР. Может быть, это говорит о каком-то тренде, а может быть, это просто перекос в данных. Начать надо с проверки маловероятной гипотезы, что женщины Татарстана массово перестали декларировать свои доходы (оставим это для будущего исследования).

Приведем такую же статистику для мужских имён. Теряющие популярность мужские имена:

Имя Падение популярности (во сколько раз) Чаще используются в регионе
камиль5,2Дагестан
рашид3,8Карачаево-Черкесская республика
раиль3,8Татарстан
ильнар3,7Татарстан
ильдус3,5Татарстан
ленар2,8Татарстан
ильнур2,4Татарстан
марат2,3Башкортостан, Северная Осетия
наиль2,3Татарстан
ринат2,2Татарстан


Набирающие популярность мужские имена:

Имя Падение популярности (во сколько раз) Чаще используются в регионе
артём9,8
никита7,2
сослан4.0Северная Осетия
даниил3,8
рамазан3,7Дагестан
давид3,7Северная Осетия
ислам3,5Чеченская республика
марк3,2
муслим3,1Чеченская республика
мурад2,8Дагестан

Интересно, что топы мужских и женских имен возглавляют имена Артём и Алёна (содержат букву Ё), может быть, здесь идет речь о том, что эта буква просто стала чаще использоваться в написании слов. Второе наблюдение такое: почему-то список теряющих популярность мужских имен почти полностью состоит из "татарских" имён. С учетом похожей ситуации с женскими именами, стоит проверить распределение числа деклараций, которые приходят из Татарстана. По данным Википедии население Татарстана выросло на 3% за 2010-2019 года, а число учтённых деклараций в системе Disclosures упало с 2% до 0.9% от всех распознанных деклараций. Т.е. популярность татарских имен не падает, но падает число деклараций из Татарстана, этот "перекос" объясняет "падение" популярности женских и мужских татарских имен. Третье наблюдение касается последней таблицы, по которой видно, как растет популярность исламских имен Муслим, Ислам, Рамазан. Возрастание популярность исламских имён похоже на настоящее изменение.

Имена по регионам

Интересно, можно ли узнать, какие имена популярны в разных регионах. Мы попробуем взять топ имен (50 первых по частотности) и выкинуть те имена, которые входят перечень "Популярные русские имена". Потом оставим только те регионы, где есть свои региональные имена. В результате работы этой процедуры мы получаем такую таблицу:

РегионРегиональные имена
Республика АлтайАйана, Алтынай, Айсулу, Аржан
Республика АдыгеяСаида, Фатима, Аслан, Азамат, Мурат, Зарема, Адам, Рустам, Мариет, Сусанна, Аскер, Тимур, Рамазан, Эмма, Нафисет
Республика БашкортостанАйгуль, Гульнара, Гузель, Ильдар, Гульназ, Рустам, Марат, Ринат, Зульфия, Айрат, Алия, Салават, Ляйсан, Ильшат, Азат, Радик, Ильгиз
Республика БурятияБаир, Дарима, Туяна, Жаргал, Булат
Забайкальский крайБаир
Республика КалмыкияСанал, Байрта, Баатр, Эрдни, Саглара, Кермен, Бадма, Айса, Мингиян, Очир, Гиляна, Арслан, Эльза, Басанг, Баира
Карачаево-Черкесская республикаФатима, Мадина, Мурат, Асият, Аминат, Аслан, Расул, Шамиль, Зухра, Рустам, Рашид, Заур, Лейла, Марат, Алибек, Залина, Арсен, Азамат, Али, Рамазан, Ахмат, Х асан
Республика ТатарстанГульнара, Алсу, Гузель, Марат, Гульназ, Рамиль, Айрат, Лейсан, Ильдар, Айгуль, Резеда, Зульфия, Фарида, Рустем, Ринат, Радик, Ильнур, Миляуша
Республика Тува (Тыва)Аяна, Саяна, Долаана, Буян, Чодураа, Аржаана, Урана, Аяс, Айлана, Орлан, Мерген, Айдын, Шончалай, Оюмаа, Алдынай, Шолбан, Сылдыс, Артыш, Айдыс, Эрес, Чинчи, Херел, Омак, Шораана, Шенне
Чеченская республикаМагомед, Ахмед, Адам, Луиза, Рамзан, Аслан, Ислам, Малика, Ибрагим, Иса, Мадина, Муслим, Муса, Зарема, Рустам, Умар, Аминат, Ваха, Зелимхан, Хамзат, Али, Ильяс, Тимур , Асет, Хава, Хасан, Милана, Анзор, Элина, Фатима, Петимат, Залина, Шамиль, Аюб, Асланбек, Асламбек, Арби, Юсуп, Усман, Тамерлан, Алихан, Айшат, Султан, Бекхан, Апти
Республика Саха (Якутия)Саргылана, Сардана, Марианна, Айталина
Республика ДагестанМагомед, Патимат, Шамиль, Мурад, Ахмед, Мадина, Зарема, Рамазан, Аминат, Наида, Асият, Али, Хадижат, Арсен, Айшат, Ибрагим, Заира, Гаджи, Тимур, Джамиля, Заур, Рустам, Марат, Мухтар, Магомедрасул, Аида, Юсуп, Раисат, Гаджимурад, Камиль, Индира, Абдула, Гасан, Гамзат, Омар, Лейла, Курбан, Саида
Республика ИнгушетияМагомед, Мадина, Фатима, Адам, Ахмед, Лейла, Ибрагим, Алихан, Муса, Магомет, Аза, Ислам, Хава, Зарема, Эсет, Тимур, Беслан, Микаил, Залина, Хяди, Иса, Хусен, Хасан, М усса, Аслан, Марем, Башир, Танзила, Макка, Исса, Батыр, Аминат, Юсуп, Пятимат, Али, Хамзат, Ахмет, Радимхан, Марет, Тамерлан, Муслим, Дауд, Бекхан, Анзор
Кабардино-Балкарская РеспубликаМурат, Аслан, Алим, Мадина, Анзор, Заур, Залина, Азамат, Мухамед, Фатима, Арсен, Тимур, Рустам, Хасан, Фатимат, Марьяна, Аминат, Асият, Зарема, Залим, Мара т, Аскер, Марианна
Республика Северная Осетия — АланияАлан, Фатима, Залина, Зарина, Мадина, Сослан, Марат, Казбек, Таймураз, Аслан, Тимур, Тамерлан, Заурбек, Эльбрус, Давид, Алана

Приятно, что люди в регионах используют свои региональные имена, глаз радуется этому лингвистическому разнообразию.

Мы выложили всю статистика имен по регионам в один текстовый файл. Столбцы в этом файле такие:

  1. имя;
  2. регион;
  3. входит ли имя в список "Популярные русские имена" (топ 200);
  4. частота в регионе;
  5. число учтенных чиновников в этом регионе с этим именем;
  6. доля в процентах этого имени в этом регионе (4-ый столбец поделить на 5-ый столбец и умножить на 100).

Доходы по именам

Изучение зависимости дохода от имени является шуточным исследованием из разряда гомеопатии и астрологии. Просто представьте безумную гадалку, к которой обращается будущая мама. Мама хочет, чтобы ее сын был чиновником с крепким средним доходом и спрашивает, как назвать сына. Поможем гадалке в ответе на этот вопрос. Мы взяли имена, которые встречаются хотя бы 50 раз в декларациях, и посчитали медиану доходов этих деклараций. Вот имена с максимальным медианным доходом:

Имя Число учтенных деклараций Медианный доход
Ахат561157475.5
Ефим1011151078
Гарри611137757
Гаврил1811125143
Мидхат601094576.0
Эрнест781059434.5
Иосиф1391040690
Иннокентий2851023481
Всеволод2181008535.5
Рустэм96993918.5
Хизри55982069
Фоат60969442.5
Игнат67947838
Ростислав270943688.5
Афанасий164937215.0
Прокопий78930676.5
Марк309896979

В этом перечне сразу бросаются в глаза вхождения имен Иннокентий, Гаврил, Афанасий и Прокопий. Эти имена распространены только в Якутии. Мы знаем, что в Якутии зарплаты выше из-за северных надбавок, поэтому зависимости дохода от имени в этом случае точно не существует. Можно предположить, что и остальные примеры могут быть объяснены другими факторами или просто быть случайностью, но гадалке об этом лучше не говорить.