Дискложес  ☰      

декларации о доходах

Дискложес     Автоматизированный сбор деклараций о доходах

Медианный доход российских чиновников по декларациям, сгруппированный по ведомствам

Алексей Сокирко, февраль 2022, sokirko@yandex.ru

Введение

В этом исследовании мы изучаем доходы чиновников по ведомствам с 2011 по 2020 год (см. предыдущие отчеты здесь ).

На февраль 2022 года в базе содержится всего 6793910 деклараций. Первая проблема — это ошибки парсинга доходов. Чтобы убрать часть ошибок, в этом исследовании мы не будем рассматривать доходы свыше 6.5 млн в год. Казалось, стоит взять меньшее значение, однако такие доходы для московских топовых чиновников является нормой

Дальше нас интересуют доходы только самих чиновников, а не их жён(мужей). По сравнению с отчетами за прошлый год мы добавили условие, что доход чиновника не может быть меньше МРОТ. Кроме этого, мы изучаем только те декларации, которым был приписан person_id. Person_id не приписывается, если существует несколько очень похожих людей в базе, и алгоритм не может решить, к кому относится эта секция. Деклараций с person_id=null в базе 3.5%.

Мы будем сравнивать доход чиновников с медианной зарплатой граждан по регионам, посчитанной Росстатом . Проблема в том, что Росстат публикует данные о медианной зарплате раз в два года (по нечетным годам), а у нас исследование касается четного года (2020). Будем считать, что мы можем получить приблизительное значение медианы за 2020 года, взяв среднее между 2019 и 2021 годам.

Если бы мы оперировали только данными от Росстата, сравнивать доход и зарплату было бы совсем неправильно. Доход жителя региона - это сумма всех доходов жителей региона, поделенное на число жителей (включая детей и других неработающих). Однако с учетом всех введенных выше ограничений, доход в декларации о доходах по большей части состоит именно из зарплаты чиновника (по нашим представлениям).

Используемые показатели

Ниже даны названия и описания колонок таблицы. Колонки мы называем еще "показателями доходов" :

Название Описание
Id Идентификатор
Name Название
2016 Медианный доход за 2016 год
|2016| Количество учтенных деклараций за 2016 год
2017 Медианный доход за 2017 год
|2017| Количество учтенных деклараций за 2017 год
2018 Медианный доход за 2018 год
|2018| Количество учтенных деклараций за 2018 год
2019 Медианный доход за 2019 год
|2019| Количество учтенных деклараций за 2019 год
2020 Медианный доход за 2020 год
|2020| Количество учтенных деклараций за 2020 год
Q1 Во сколько раз сотрудники ведомства получают больше населения (посл. учтенный год)
PI Рост медианной зарплаты всего населения в процентах в пределах учтенного интервала
D1 Рост медианного дохода декларантов в процентах в пределах учтенного интервала
V2 Усредненный индивидуальный рост декларантов в пределах учтенного интервала, поделенный на средний рост зарплаты населения
|V2| Количество элементов, учтенных в V2

На каждой строке расположена информация об одном ведомстве или рубрике. В первом столбце идет идентификатор ведомства, потом его название. Везде ниже мы будем обозначать это ведомство "office". Дальше идут медианные доходы сотрудников этого ведомства по годам, за каждым значением дохода идет число учтенных деклараций. Если для какого-то года данных нет или мало (меньше пяти декларантов), тогда в таблице ставится -1. Первый год, для которого значение не равно -1 (есть данные) называется start_year, последний год c данными - last_year. Интервал [start_year, last_year] мы называем учтенным интервалом. Для каждого ведомства показатели PI, Q1, L1, V2 высчитываются только для учтенного интервала, поэтому показатели PI, Q1, L1, V2 сравнимы между собой только для тех ведомств, у которых учтенные интервалы совпадают.

Пусть задано два дохода d1 и d2. Один доход был раньше другого. В экономике используются две формулы:
1. Темп роста - 100% * d2/d1.
1. Темп прироста - 100% * (d2-d1)/d1.
Пусть в 2020 года человек получал 200 рублей, а в 2021 году 300 рублей, тогда по формулам темп роста будет 150%, а темп прироста - 50%, или, другими словами, с точки зрения человека 2020 года, его зарплата в 2021 году вырастет в 1.5 раза или на 50%. Ниже, сравнивая доходы, мы почти всегда использует формулу темпа прироста. На английский "темп прироста" переводят как "growth rate". Везде ниже, GR(d1, d2) будет обозначать growth rate от d1 и d2.

Параметр PI(start_year, last_year) - темп прироста номинального доход у всех россиян между годами start_year и last_year. Данные берутся от Росстата. Поскольку между 2016 и 2020 годами доход вырос на 16 процентов, 16 - самая частое число в колонке PI.

Пусть m - медианный доход декларантов этого ведомства год last_year. Пусть p - средний доход населения за этот же год. Тогда показатель Q1 = m/p показывает приблизительно, во сколько раз чиновники из этого ведомства получают больше по сравнению со всем остальным населением, основываясь на данных последнего года.

Пусть m1 - медианный доход декларантов в первый год учтенного интервала, а m2 - медианный доход в последний год учтенного интервала.
D1(office) = GR(m1, m2) - темп прироста медианного дохода декларантов внутри учтенного интервала
Показатель D1 можно было сравнить с ростом номинальной зарплаты за те же годы PI, но, как отмечалось ранее, число декларантов внутри одного ведомства за разные годы сильно отличается. Понятно, что такое изменение в выборке значительно влияет на медиану (смотри безуспешные попытки исправить это в предыдущем исследовании )

У обычных людей доход растет по закону PI(y1, y1+1), а для декларанта из рассматриваемого ведомства доход растет по-другому. Мы можем использовать см. дедупликация, чтобы понять, как растет доход у конкретных декларантов и усреднить его. Возьмем все пары деклараций одного и того же чиновника за соседние года в пределах учтенного интервала. Пусть (d1, y1) и (d2, y1+1) - два таких дохода за соседние года y1 и y1+1. Конкретно для этой пары декларант "обогнал" население в К раз, где К = GR(d1, d2) / PI(y1, y2). Например, у населения доход вырос на 2%, а у декларанта на 6%, K=6/2=3, т.е. у декларанта доход растет в три раза быстрее населения. Посчитаем медиану для всех таких К. Эту медиану мы и будем называть показателем V2. Огрубляя, показатель V2 агрегирует рост доходов конкретных чиновников какого-то ведомства по сравнению с населением.

Таблица показателей дохода для рубрик

Id Name 2016 |2016| 2017 |2017| 2018 |2018| 2019 |2019| 2020 |2020| Q1 PI D1 V2 |V2|
9 Законодательная власть 1701407 6617 1685165 6425 1433389 8337 1764192 6663 1722425 5403 3,98 16 1 1,5 17883
8 Избиркомы 982601 2607 869209,0 2686 1070537 2471 1000391 2309 1175157,5 2666 2,71 16 19 2,0 7854
5 Cиловики 1387693,5 3538 1474564 4303 1489270 3855 1433210 2689 1368114 2027 3,16 16 -1 1,75 8056
7 Прокуратура 1521817 3379 1558642 3519 1718576,5 3388 2063583,5 3430 2177254 2325 5,03 16 43 2,5 10043
19 Исполнительная власть 772209,5 142624 765460,0 161002 831632 163629 913192,5 156196 1033087 119439 2,39 16 33 2,0 395764
20 Остальные 731172 34459 812311 28021 861656 26325 909631 25757 978412,5 20874 2,26 16 33 1,67 67857
4 Военные 1202113,5 31408 1298070 27559 1366678 5725 1394932 19659 1416415,0 26156 3,27 16 17 1,0 33553
11 Налоги 1294276 4195 1329326,0 4202 1399165,0 4226 1618185 4123 1692813,5 3506 3,91 16 30 2,0 13744
10 ФСИН 1028484 7353 1042189 7451 1079304,0 7084 1094093,0 7078 1149621,5 7008 2,66 16 11 1,0 22906
6 Здравоохранение 944990,5 8436 979192 10359 1075086 10709 1285663 8217 1330764,0 6594 3,07 16 40 2,25 23055
3 Образование 1260979,0 7706 1410106,5 8020 1200215 7655 1238361 7713 1271994,0 5442 2,94 16 0 1,25 17241
1 Суды 490224,5 46562 503663,5 46798 538273 44289 626420,5 44860 646757 43791 1,49 16 31 2,0 123239
2 Муниципалитеты 514246 262155 529658,0 278822 573769,5 286614 632413 248037 694859,5 197684 1,61 16 35 1,67 700626
None остальное 539352,0 96 425302,0 272 470816 151 803926 25 561777,0 148 1,3 16 4 1,33 221

Мы видим, что рубрика "Прокуратура" имеет максимальные Q1 и V2. Это означает, что доходы прокуроров росли быстрее всего за последние пять лет, сейчас эти доходы максимально оторваны от доходов населения. Если поискать глазами похожие по размеру группы, мы видим избиркомы и силовики, но значения Q1 и V2 для избиркомов и силовиков гораздо меньше, чем для прокуроов.

Если упорядочить таблицу по показателю V2, получаем, что рубрика ФСИН и Военные находятся внизу, для них V2=1, получается, что доходы этих рубрик росли вместе с народом без опережения. Но зато военные уже получают сильно выше народа. Ближе всех к народу находится рубрика "остальное", потом "суды", но здесь нужно понимать, что многие судьи в последнее время перестали давать свои декларации, сославшись на возможное давление, а поскольку судьи получают максимум в этой рубрике, медиана начала опускаться.

Вообще количество собранных деклараций за 2019 год - 580801 штук, а за 2020 год - 476708. Общее падение собираемости - 18%. Месяц назад мы пытались разобраться с одним конкретным пропуском. Есть в Можайске женская колония ФКУ ИК-5 УФСИН РОССИИ ПО МОСКОВСКОЙ ОБЛАСТИ До 2019 года им руководила Гурьева Наталья Фердинандовна. В этом году декларацию она не предоставила, я написал им письмо, мне ответили, что Гурьева больше не руководит колонией, хотя на их же сайте она значится начальником. Что они сделали? Сделали ее и.о. или она ушла? Если ушла, где декларация нынешнего начальника?

Таблица показателей дохода для конкретных ведомств

Таблица показателей дохода для конкретных ведомств занимает много места, поэтому представлена только в формате сsv.

Анализируя показатель V2 для отдельных ведомств, мы будем игнорировать все значения V2, которые построены на выборке меньше 40 элементов (|V| < 40). Если оставить только такие большие учреждения, тогда первая тройка по V2 будет:

1. Московская избирательная комиссия (V2=22);
2. «Роскосмос» (V2=16);
2. Кассационный суд Краснодара (V2=15);

Что такое V2=22 для какой-то организации? Это значит, что рост доходов сотрудников этой организации в 22 раза превышает рост дохода населения. Для Московской избирательной комиссии, возможно, это связано с использованием технологий электронного голосования, от сотрудников теперь требуется дополнительная квалификация. Однако объяснить рост дохода у Роскосмоса я не могу. Третий случай - кассационный суд Краснодар может быть объяснен тем, что региональные кассационные суда созданы недавно. Возможно, большое значение V2 - это вариант "подъемных" для судей. Интересно, что в кассационный суде показатель D1 отрицательный. Это вынужден был долго разбираться, и объясняю сейчас тем, что в 2020 год на работу в новые суды вышло много новых низкооплачиваемых технических сотрудников, доходы которых понизили медиану, но не могли повлиять на показатель V2.

Если смотреть на самые низкие значения показателя V при |V| >40, нам сразу же попадаются две избирательные комиссии. Интересно, что среднеквадратическое отклонение показателя V у всех ведомств 1.8, а у избиркомов - 3.3. Получается, в избиркомах происходят гораздо большие изменения в доходах (плюс или минус), чем в "среднем по больнице". Падение V2 мы прокомментировать никак не можем.

Изучая значения показателя D1, мы видим, что чаще возникают проблемы с моделью. Например, резкое изменение D1 у правительства Марий Эл и Краснодарского суда были вызваны ошибками скачивания исходных документов. Изменение D1 у правительства Забайкальского края вызвано тем, что наши алгоритмы стали "разбрасывать" декларантов по министерствам и в правительстве осталось мало сотрудников.

Итоги

Мы видим, что основная сложность - это размеры организаций и их подвижность. Может быть, в будущем стоит отказаться от текущего формата отчета, и делать отчет только по рубрикам и по рубрикам внутри регионов. Кроме этого, конечно, стоит начать изучать доходы членов семей и рост недвижимости, которой владеют декларанты.