Надгробие интернет-сайта

Много лет в РФ существует сайт Декларатор.орг, на котором собраны публичные декларации о доходах чиновниках. Когда я (Алексей Сокирко) присоединился к проекту в базе Декларатора было 200.000 деклараций, который парсилились и собирались вручную. Уже до меня была идея,что надо надо эти процессы автоматизировать. К сожалению, процесс шел довольно медленно. За время моего сотрудничества с Декларатором были созданы: 1. dlrobot — автоматический робот, обходящий десятки тысяч сайтов и скачивающий декларации. 2. smart_parser — программа, переводящая декларации в струкурированный формат 3. сливалка — программа поиска деклараций одного и того же человека. Эта автоматизация позволила проанализировать около 900 тыс файлов, построить 7 млн деклараций для 2 млн. людей. Я хотел залить эти данные в Декларатор, но Декларатор не хотел так быстро меняться, тогда был создан проект Дискложес.ру. Проект Дискложес.ру работал с января 2021 года по июль 2022 года. Им воспользовалось 1.6 млн пользователей. Но весной 2022 года Роскомнадзор подал на меня в суд из-за нарушения закона о персональных данных. Юристы Трансперенси Интернешнл пытались оспорить этот иск . Суд я проиграл, сайт закрыт. Я оставляю на этом сайте только отчеты, сами данные удаляю. Данные скачиваются из открытых источников. Если вам интересны эти данные, пишите мне на почту sokirko@yandex.ru , я объясню как их скачать. Важно, что скачивание будет длиться месяцы (это запуск спец. программы, которая будет обходить 12 тыс. гос. сайтов, скачивать данные и строить базу данных)


Алексей Сокирко июль 2022

Старая морда сайта

13 февраля 2022 Выложил отчет по ведомствам в регионах за 2020 год. Увидел, что деклараций за 2020 года стало на почти 20% меньше.
3 февраля 2022 Выложил отчет по доходам в регионах за 2020 год. Изучал корреляцию уровня поддержки Единой России в регионе с дисбалансом доходов между чиновниками и всеми остальными гражданами.
16 января 2022 Если ФИО в базе не найдено, теперь ищем варианты ФИО нечетким поиском.
5 января 2022 Закочился пятый обход dlrobot. В базе теперь 6.7 млн деклараций.
10 октября 2021 На странице "отчетов" выложил полный дамп sql-базы Дискложес. Дамп будет регулярно обновляться.
22 сентября 2021 Обновил страницу "О проекте" . Объяснил, почему представленные данные не нарушают закон о персональных данных.
8 сентября 2021 После долгих переговоров с материнским проектом (Декларатор) решил, продлить время жизни проекта Дискложес еще на год. Надеюсь, за это время Декларатор скопирует собранные нами данные.
1 мая 2021 Попробовал построить модель машинного обучения для предсказания покупки транспортного средства (автомобиля)
20 марта 2021 Закончился четвертый обход. Теперь в базе 652022 документа и 5.5 млн деклараций
4 марта 2021 Порассуждал о гендерных перекосах в декларациях чиновников . Например, пытался убедить себя в наличии "стеклянного потолка" в судейской рубрике (аппарат и сами судьи).
27 февраля 2021 Пробовал изучать корпус личных имен из деклараций чиновников . Например, выяснял, в каком регионе чаще всего используются имена Саргылана, Сардана, Марианна, Айталина.
18 февраля 2021 Посчитал на каких машинах (только бренды) ездят чиновники .
17 февраля 2021 Добавил поиск деклараций по автомобильным брендам. Например, теперь можно найти все чиновников, которые на 2019 год владеют машиной марки Мазерати
10 февраля 2021 Посчитал медианный доход чиновников по разным ведомствам. Пытался сравнить их рост доходов с ростом зарплат всего населения. Вопросов осталось очень много.
27 декабря 2020 Посчитал медианный доход чиновников по регионам
14 ноября 2020 Сделал поиск деклараций по базовым параметрам. Теперь, например, можно получить список директоров школ Москвы за 2019 год и упорядочить по доходу
28 октября 2020 Dlrobot совершил третий частичный обход. Пытаюсь найти разработчиков для смартпарсера на сайте фриланс.ру
1 июля 2020 Второй обход dlrobot собрал 238069 документов.
5 марта 2020 Первый обход dlrobot собрал 144292 документа.