Дискложес Автоматизированный сбор деклараций о доходах | |
На январь 2021 года в базе деклараций Дисколожес - около 4 млн. деклараций о доходах из примерно 9000 организаций (ведомств). Организации очень разные по размерам. Самые крупные организации такие:
Ведомство | Число деклараций |
---|---|
Министерство обороны | 351383 |
Федеральная служба исполнения наказаний | 62916 |
Северо-Западное таможенное управление | 26639 |
ГУФСИН Пермский край | 22529 |
Краснодар - городской округ | 19578 |
Малочисленные ведомства — это муниципальные образование или отдельностоящие государственные должности, которые считаются отдельными ведомствами, например, глава республики Бурятия. В этом исследовании мы изучали декларации только за 2011-2019 гг.
При первом взгляде на данные мы видим, что в них довольно много ошибок парсинга исходных файлов. Например, программа берет значение дохода из другой колонки или не учитывает, что доходы в этом файле записаны в тысячах. Из-за подобных ошибок в базе возникают доходы больше 100 млн. рублей в год. Конечно, в России есть и такие богатые чиновники, но ошибок все-таки больше, поэтому в этом исследовании мы не будем рассматривать доходы свыше 5 млн в год. Кроме этого, мы выкидываем из рассмотрения все исходные файлы, в которых медианный доход за год ниже 10000 рублей в год, потому что такие файлы чаще всего являются ошибкой парсинга.
Мы хорошо понимаем, что доход, объявленный в декларации, не равен зарплате. В доход, кроме зарплаты, включаются денежные поступления от продажи имущества или проценты по ценным бумагам, поэтому доход всегда выше зарплаты. Однако срезав доходы свыше 5 млн рублей в год, мы убрали не только ошибки парсинга, но значительную часть этих сверхдоходов, которые у среднего гражданина формируются не каждый год.
Для сравнения с населением мы можем использовать официальные данные по росту номинальной зарплаты. Абсолютные цифры нас не интересуют, а только рост доходов (зарплат).
Год | Рост номинальной зарплаты всего населения РФ |
---|---|
2010 | 0.11 |
2011 | 0.11 |
2012 | 0.11 |
2013 | 0.117 |
2014 | 0.069 |
2015 | 0.105 |
2016 | 0.0151 |
2017 | 0.025 |
2018 | 0.041 |
2019 | 0.061 |
Рост дохода населения от года start_year до года last_year обозначим через PI(start_year, last_year).
Для каждого ведомства office и года year мы строим incomes(year, office) - список всех доходов для этого ведомства за этот год. Все основные данные мы загрузили в таблицу. В этой таблице в первой колонке — идентификатор ведомства, потом - название ведомства, потом — для каждого года идет пара колонок: медианный доход за этот год и число учтённых деклараций. Если деклараций не было, ставим константу «-1». Если число декларантов за все годы в этом ведомстве меньше либо равно 10, пропускаем это ведомство. После основных колонок, которые относятся к конкретным годам, идут несколько колонок, в которых мы пытаемся сравнить рост доходов чиновников этой группы с ростом зарплат всего населения России.
Например, пусть есть чиновник Х, доход которого за 2015 год был 100.000 рублей, а за 2016 год был 120.000 рублей. Получается, его рост дохода за 2016 года равен 100 * (120000 - 100000) / 100000 = 20%. Рост зарплат населения за 2016 год - 1.51%. Получается, что рост дохода этого чиновника в 13 раз ( 20/1.51 ) больше роста зарплат населения.
Для каждого ведомства office мы ищем самый ранний год (назовем его year_start), в котором больше пяти декларантов, и самый поздний год (year_last), в котором больше пяти декларантов. Считаем рост медианного дохода от year_start до year_last:
D1(office) = 100 * (median(incomes(year_last, office)) - median(incomes(year_start,office))) / median(incomes(year_start,office))
Показатель D1(year_start, year_last) можно сравнить с ростом номинальной зарплаты в за те же годы PI(year_start, year_last). Получается, мы сравниваем рост зарплат всего населения и рост медианного дохода чиновников этого ведомства. У разных ведомств year_start и year_last могут быть разными, например, может случиться, ведомство возникло или было закрыто в период с 2011 по 2019 гг, поэтому сравнение D1 для разных ведомств нужно делать осторожно.
При первичном анализе значений показателя D1 сразу бросается в глаза, что число декларантов за разные годы сильно отличается. Если ведомство сначала публиковало декларации 10000 сотрудников, а в последние годы - только 1000 сотрудников, можно предположить, что это ведомство по-прежнему публикует декларации больших начальников (высокие зарплаты), а декларации более мелких начальников перестало публиковать. Понятно, что такое изменение в выборке значительно влияет на медиану и может быть учтено.
Примем на веру гипотезу, что, чем меньше опубликованных деклараций для одного и того же ведомства, тем важнее начальники должны быть в списке опубликованных. Учтем это и построим новый показатель D2 следующим образом. Мы по-прежнему высчитываем year_start и year_last так же, как в подходе D1, но потом мы находим минимальную длину списков incomes(year_start, office) и incomes(year_last, office), пусть это будет min_len = min(len(incomes(year_start, office)), len(incomes(year_last, office)). Сортируем incomes(year_start, office) и incomes(year_last, office) по убыванию и берем только первые min_len элементов (доходов) из каждого списка, остальные доходы удаляем. Обозначим такие доходы через incomes2:
D2(office) = 100 * (median(incomes2(year_last, office)) - median(incomes2(year_start,office))) / median(incomes2(year_start,office))
Получается, мы берем одинаковое число топовых зарплат ведомства (т.е. мы сравниваем доходы главных начальников по нашей гипотезе).
Анализ полученных значений показателя D2 показал несостоятельность первичной гипотезы. Получилось, что у чиновников в сфере образования доходы выросли в пять раз, что явно не соответствует действительности. Для истории мы публикуем посчитанный показатель D2, хотя понимаем, что это мусор.
Кажется разумным попробовать следующий подход. Мы берем всех чиновников, которые декларировали свои доходы в одной и той же
организации. Пусть есть чиновник D из этой органиизации. Пусть первая декларация чиновника D подана в year_start, а последняя - в year_last.
Пусть
G(D, year_start, year_last) = (incomes(D, year_last) - incomes(D, year_start)) / incomes(D, year_start) - рост его дохода за эти годы,
где incomes(D, year) - доход чиновника D за год year.
Поделим рост дохода чиновника на рост зарплаты населения:
G1(D) = G(D, year_start, year_last) / PI(year_start, year_last)
Вычислим показатель V2 для каждого ведомства O:
V2(office) = median(G1(D0), G1(D1), ... G1(Dn)), где D0,..., Dn - чиновники ведомства office.
Для упрощения обзора данных мы ввели рубрики (множества ведомств):
ID | Название рубрики |
---|---|
1 | Суды |
2 | Муниципалитеты |
3 | Образование |
4 | Военные |
5 | МВД, ФСБ и другие силовики |
6 | Медицина |
7 | Прокуратура |
8 | Законодательная власть |
9 | Избирательные комиссии |
10 | ФСИН |
19 | Исполнительная власть |
20 | Остальные |
Таблица находится здесь.
Построенные показатели PI, D1, D2 и V1 мы вывели во все построенные таблицы (последние колонки). Самым разумным нам кажется показатель V1, поскольку он не зависит от типа подаваемых деклараций (только большие начальники или начальники поменьше). Анализ значений V1 для рубрик сразу показывает, что в рубриках "Военные", "ФСИН" и "Образование" рост доходов почти совпадает с ростом доходов населения. Максимальный рост доходов обнаруживается в рубриках "Суды", "Прокуратура" и "Муниципалитеты". Почему в рост доходов в "Муниципалитетах" столь стремителен, мы объяснить не можем, но так работает показатель V1. По таблице видно, что доходы всех чиновников в среднем растут в 1.5 раза быстрее зарплат населения. Чиновники, которым надо декларировать доходы, - это обычно люди с высшим образованием (по крайней мере), мы понимаем, что абсолютные цифры доходов чиновников должны быть выше средней зарплаты населения. В этом исследовании мы увидели, что их доходы растут быстрее.
Если смотреть на показатели D1 и D2, видно, что максимальные значения в них явно не соответствуют реальности. Например, трудно себе представить увеличение зарплат начальников МВД в 5 раз за период с 2011 по 2019, когда по всей стране зарплаты выросли только на 68%. Показатели D1 и D2 оставлены нам в качестве примеров ошибочных попыток сравнения.
Мы понимаем, что это исследование является первым подходом, возможно, содержит логические и методические ошибки. Более того, несмотря на внушительные размеры данных, может быть, полученные выборки нельзя сравнивать. В будущем мы, наверно, захотим оценить выборки доходов отдельно друг от друга. Например, стоит хотя бы начать с проверки, что выборки доходов чиновников соответствуют распределению Парето . Поделитесь своим мнением! Мой email - sokirko@yandex.ru (Алексей Сокирко).