Дискложес Автоматизированный сбор деклараций о доходах | |
В этом исследовании мы изучаем доходы чиновников по ведомствам с 2011 по 2020 год (см. предыдущие отчеты здесь ).
На февраль 2022 года в базе содержится всего 6793910 деклараций. Первая проблема — это ошибки парсинга доходов. Чтобы убрать часть ошибок, в этом исследовании мы не будем рассматривать доходы свыше 6.5 млн в год. Казалось, стоит взять меньшее значение, однако такие доходы для московских топовых чиновников является нормой
Дальше нас интересуют доходы только самих чиновников, а не их жён(мужей). По сравнению с отчетами за прошлый год мы добавили условие, что доход чиновника не может быть меньше МРОТ. Кроме этого, мы изучаем только те декларации, которым был приписан person_id. Person_id не приписывается, если существует несколько очень похожих людей в базе, и алгоритм не может решить, к кому относится эта секция. Деклараций с person_id=null в базе 3.5%.
Мы будем сравнивать доход чиновников с медианной зарплатой граждан по регионам, посчитанной Росстатом . Проблема в том, что Росстат публикует данные о медианной зарплате раз в два года (по нечетным годам), а у нас исследование касается четного года (2020). Будем считать, что мы можем получить приблизительное значение медианы за 2020 года, взяв среднее между 2019 и 2021 годам.
Если бы мы оперировали только данными от Росстата, сравнивать доход и зарплату было бы совсем неправильно. Доход жителя региона - это сумма всех доходов жителей региона, поделенное на число жителей (включая детей и других неработающих). Однако с учетом всех введенных выше ограничений, доход в декларации о доходах по большей части состоит именно из зарплаты чиновника (по нашим представлениям).
Ниже даны названия и описания колонок таблицы. Колонки мы называем еще "показателями доходов" :
Название | Описание |
---|---|
Id | Идентификатор |
Name | Название |
2016 | Медианный доход за 2016 год |
|2016| | Количество учтенных деклараций за 2016 год |
2017 | Медианный доход за 2017 год |
|2017| | Количество учтенных деклараций за 2017 год |
2018 | Медианный доход за 2018 год |
|2018| | Количество учтенных деклараций за 2018 год |
2019 | Медианный доход за 2019 год |
|2019| | Количество учтенных деклараций за 2019 год |
2020 | Медианный доход за 2020 год |
|2020| | Количество учтенных деклараций за 2020 год |
Q1 | Во сколько раз сотрудники ведомства получают больше населения (посл. учтенный год) |
PI | Рост медианной зарплаты всего населения в процентах в пределах учтенного интервала |
D1 | Рост медианного дохода декларантов в процентах в пределах учтенного интервала |
V2 | Усредненный индивидуальный рост декларантов в пределах учтенного интервала, поделенный на средний рост зарплаты населения |
|V2| | Количество элементов, учтенных в V2 |
На каждой строке расположена информация об одном ведомстве или рубрике. В первом столбце идет идентификатор ведомства, потом его название. Везде ниже мы будем обозначать это ведомство "office". Дальше идут медианные доходы сотрудников этого ведомства по годам, за каждым значением дохода идет число учтенных деклараций. Если для какого-то года данных нет или мало (меньше пяти декларантов), тогда в таблице ставится -1. Первый год, для которого значение не равно -1 (есть данные) называется start_year, последний год c данными - last_year. Интервал [start_year, last_year] мы называем учтенным интервалом. Для каждого ведомства показатели PI, Q1, L1, V2 высчитываются только для учтенного интервала, поэтому показатели PI, Q1, L1, V2 сравнимы между собой только для тех ведомств, у которых учтенные интервалы совпадают.
Пусть задано два дохода d1 и d2. Один доход был раньше другого. В экономике используются две формулы:
1. Темп роста - 100% * d2/d1.
1. Темп прироста - 100% * (d2-d1)/d1.
Пусть в 2020 года человек получал 200 рублей, а в 2021 году 300 рублей, тогда по формулам темп роста будет 150%, а темп
прироста - 50%, или, другими словами, с точки зрения человека 2020 года, его зарплата в 2021 году вырастет в 1.5 раза или
на 50%. Ниже, сравнивая доходы, мы почти всегда использует формулу темпа прироста. На английский "темп прироста"
переводят как
"growth rate".
Везде ниже, GR(d1, d2) будет обозначать growth rate от d1 и d2.
Параметр PI(start_year, last_year) - темп прироста номинального доход у всех россиян между годами start_year и last_year. Данные берутся от Росстата. Поскольку между 2016 и 2020 годами доход вырос на 16 процентов, 16 - самая частое число в колонке PI.
Пусть m - медианный доход декларантов этого ведомства год last_year. Пусть p - средний доход населения за этот же год. Тогда показатель Q1 = m/p показывает приблизительно, во сколько раз чиновники из этого ведомства получают больше по сравнению со всем остальным населением, основываясь на данных последнего года.
Пусть m1 - медианный доход декларантов в первый год учтенного интервала, а m2 - медианный доход
в последний год учтенного интервала.
D1(office) = GR(m1, m2) - темп прироста медианного дохода декларантов внутри учтенного интервала
Показатель D1 можно было сравнить с ростом номинальной зарплаты за те же годы PI, но, как отмечалось ранее,
число декларантов внутри одного ведомства за разные годы сильно отличается. Понятно, что такое
изменение в выборке значительно влияет на медиану (смотри безуспешные попытки исправить это в
предыдущем исследовании )
У обычных людей доход растет по закону PI(y1, y1+1), а для декларанта из рассматриваемого ведомства доход растет по-другому. Мы можем использовать см. дедупликация, чтобы понять, как растет доход у конкретных декларантов и усреднить его. Возьмем все пары деклараций одного и того же чиновника за соседние года в пределах учтенного интервала. Пусть (d1, y1) и (d2, y1+1) - два таких дохода за соседние года y1 и y1+1. Конкретно для этой пары декларант "обогнал" население в К раз, где К = GR(d1, d2) / PI(y1, y2). Например, у населения доход вырос на 2%, а у декларанта на 6%, K=6/2=3, т.е. у декларанта доход растет в три раза быстрее населения. Посчитаем медиану для всех таких К. Эту медиану мы и будем называть показателем V2. Огрубляя, показатель V2 агрегирует рост доходов конкретных чиновников какого-то ведомства по сравнению с населением.
Id | Name | 2016 | |2016| | 2017 | |2017| | 2018 | |2018| | 2019 | |2019| | 2020 | |2020| | Q1 | PI | D1 | V2 | |V2| |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
9 | Законодательная власть | 1701407 | 6617 | 1685165 | 6425 | 1433389 | 8337 | 1764192 | 6663 | 1722425 | 5403 | 3,98 | 16 | 1 | 1,5 | 17883 |
8 | Избиркомы | 982601 | 2607 | 869209,0 | 2686 | 1070537 | 2471 | 1000391 | 2309 | 1175157,5 | 2666 | 2,71 | 16 | 19 | 2,0 | 7854 |
5 | Cиловики | 1387693,5 | 3538 | 1474564 | 4303 | 1489270 | 3855 | 1433210 | 2689 | 1368114 | 2027 | 3,16 | 16 | -1 | 1,75 | 8056 |
7 | Прокуратура | 1521817 | 3379 | 1558642 | 3519 | 1718576,5 | 3388 | 2063583,5 | 3430 | 2177254 | 2325 | 5,03 | 16 | 43 | 2,5 | 10043 |
19 | Исполнительная власть | 772209,5 | 142624 | 765460,0 | 161002 | 831632 | 163629 | 913192,5 | 156196 | 1033087 | 119439 | 2,39 | 16 | 33 | 2,0 | 395764 |
20 | Остальные | 731172 | 34459 | 812311 | 28021 | 861656 | 26325 | 909631 | 25757 | 978412,5 | 20874 | 2,26 | 16 | 33 | 1,67 | 67857 |
4 | Военные | 1202113,5 | 31408 | 1298070 | 27559 | 1366678 | 5725 | 1394932 | 19659 | 1416415,0 | 26156 | 3,27 | 16 | 17 | 1,0 | 33553 |
11 | Налоги | 1294276 | 4195 | 1329326,0 | 4202 | 1399165,0 | 4226 | 1618185 | 4123 | 1692813,5 | 3506 | 3,91 | 16 | 30 | 2,0 | 13744 |
10 | ФСИН | 1028484 | 7353 | 1042189 | 7451 | 1079304,0 | 7084 | 1094093,0 | 7078 | 1149621,5 | 7008 | 2,66 | 16 | 11 | 1,0 | 22906 |
6 | Здравоохранение | 944990,5 | 8436 | 979192 | 10359 | 1075086 | 10709 | 1285663 | 8217 | 1330764,0 | 6594 | 3,07 | 16 | 40 | 2,25 | 23055 |
3 | Образование | 1260979,0 | 7706 | 1410106,5 | 8020 | 1200215 | 7655 | 1238361 | 7713 | 1271994,0 | 5442 | 2,94 | 16 | 0 | 1,25 | 17241 |
1 | Суды | 490224,5 | 46562 | 503663,5 | 46798 | 538273 | 44289 | 626420,5 | 44860 | 646757 | 43791 | 1,49 | 16 | 31 | 2,0 | 123239 |
2 | Муниципалитеты | 514246 | 262155 | 529658,0 | 278822 | 573769,5 | 286614 | 632413 | 248037 | 694859,5 | 197684 | 1,61 | 16 | 35 | 1,67 | 700626 |
None | остальное | 539352,0 | 96 | 425302,0 | 272 | 470816 | 151 | 803926 | 25 | 561777,0 | 148 | 1,3 | 16 | 4 | 1,33 | 221 |
Мы видим, что рубрика "Прокуратура" имеет максимальные Q1 и V2. Это означает, что доходы прокуроров росли быстрее всего за последние пять лет, сейчас эти доходы максимально оторваны от доходов населения. Если поискать глазами похожие по размеру группы, мы видим избиркомы и силовики, но значения Q1 и V2 для избиркомов и силовиков гораздо меньше, чем для прокуроов.
Если упорядочить таблицу по показателю V2, получаем, что рубрика ФСИН и Военные находятся внизу, для них V2=1, получается, что доходы этих рубрик росли вместе с народом без опережения. Но зато военные уже получают сильно выше народа. Ближе всех к народу находится рубрика "остальное", потом "суды", но здесь нужно понимать, что многие судьи в последнее время перестали давать свои декларации, сославшись на возможное давление, а поскольку судьи получают максимум в этой рубрике, медиана начала опускаться.
Вообще количество собранных деклараций за 2019 год - 580801 штук, а за 2020 год - 476708. Общее падение собираемости - 18%. Месяц назад мы пытались разобраться с одним конкретным пропуском. Есть в Можайске женская колония ФКУ ИК-5 УФСИН РОССИИ ПО МОСКОВСКОЙ ОБЛАСТИ До 2019 года им руководила Гурьева Наталья Фердинандовна. В этом году декларацию она не предоставила, я написал им письмо, мне ответили, что Гурьева больше не руководит колонией, хотя на их же сайте она значится начальником. Что они сделали? Сделали ее и.о. или она ушла? Если ушла, где декларация нынешнего начальника?
Таблица показателей дохода для конкретных ведомств занимает много места, поэтому представлена только в формате сsv.
Анализируя показатель V2 для отдельных ведомств, мы будем игнорировать все значения V2, которые построены на выборке меньше 40 элементов (|V| < 40). Если оставить только такие большие учреждения, тогда первая тройка по V2 будет:
1. Московская избирательная комиссия (V2=22);Что такое V2=22 для какой-то организации? Это значит, что рост доходов сотрудников этой организации в 22 раза превышает рост дохода населения. Для Московской избирательной комиссии, возможно, это связано с использованием технологий электронного голосования, от сотрудников теперь требуется дополнительная квалификация. Однако объяснить рост дохода у Роскосмоса я не могу. Третий случай - кассационный суд Краснодар может быть объяснен тем, что региональные кассационные суда созданы недавно. Возможно, большое значение V2 - это вариант "подъемных" для судей. Интересно, что в кассационный суде показатель D1 отрицательный. Это вынужден был долго разбираться, и объясняю сейчас тем, что в 2020 год на работу в новые суды вышло много новых низкооплачиваемых технических сотрудников, доходы которых понизили медиану, но не могли повлиять на показатель V2.
Если смотреть на самые низкие значения показателя V при |V| >40, нам сразу же попадаются две избирательные комиссии. Интересно, что среднеквадратическое отклонение показателя V у всех ведомств 1.8, а у избиркомов - 3.3. Получается, в избиркомах происходят гораздо большие изменения в доходах (плюс или минус), чем в "среднем по больнице". Падение V2 мы прокомментировать никак не можем.
Изучая значения показателя D1, мы видим, что чаще возникают проблемы с моделью. Например, резкое изменение D1 у правительства Марий Эл и Краснодарского суда были вызваны ошибками скачивания исходных документов. Изменение D1 у правительства Забайкальского края вызвано тем, что наши алгоритмы стали "разбрасывать" декларантов по министерствам и в правительстве осталось мало сотрудников.
Мы видим, что основная сложность - это размеры организаций и их подвижность. Может быть, в будущем стоит отказаться от текущего формата отчета, и делать отчет только по рубрикам и по рубрикам внутри регионов. Кроме этого, конечно, стоит начать изучать доходы членов семей и рост недвижимости, которой владеют декларанты.