Дискложес Автоматизированный сбор деклараций о доходах | |
Каждый год российские чиновники обязаны публиковать декларации о доходах.
Проект Декларатор много лет собирает эти декларации, проверяет и публикует их. Декларатор создан и поддерживает Трансперенси Интернешнл - Россия. Однако скорость процедуры проверки деклараций не позволяет опубликовать всю имеющуюся информацию. Чтобы преодолеть эту неполноту, был создан новый сайт - Дискложес.ру, на котором вы сейчас находитесь. Сайт создан как экспериментальная площадка по автоматизированному сбору, обработке и публикации переработанных антикоррупционных деклараций. На конец 2021 года база Дискложес примерно на 30% больше базы Декларатора.
В отличие от Декларатора, здесь декларации обрабатываются автоматизированно. В опубликованных данных содержится довольно много ошибок и неполноты, однако для каждой полученной декларации мы предоставляем ссылку на исходный документ. Пользователь сам может проверить, правильно ли был произведен анализ документа.
Исходный код анализаторов выложен в открытый доступ , и нам очень нужна помощь в развитии проекта, пишите на email sokirko@yandex.ru (Алексей Сокирко).
Сведения, представленные на сайте, собраны из открытых источников и носят справочный характер. Любой человек может создать зеркало этого сайта, скачав все данные, включая базу данных и исходные файлы документов. За инструкциями по созданию зеркала обращайтесь на email sokirko@yandex.ru.
Процесс обработки начинается со скачивания исходных документов с сайтов ведомства (порядка 12000 веб-сайтов). На одном сайте могут быть собраны документы от разных организаций, а документ надо приписать какой-то одной. Термины ведомство, офис, организация мы не различаем между собой. Каждый документ содержит сколько-то деклараций о доходах за конкретный год. Отдельную такую запись для отдельного человека из конкретного документа мы называем декларацией или секцией (у нас равнозначные термины). Человека, к которому относится эта запись, мы называем декларантом или персоной. Получается такая схема:
Обычно один декларант подает одну декларацию за один год, которая приписана одному ведомству, но бывают сложные случаи.
По официальным требованиям на главной странице официальных сайтов госорганов должна быть ссылка на раздел "Противодействие коррупции". Внутри раздела должны быть где-то ссылки на документы деклараций за каждый год. Структура этого раздела уже не оговаривается, что представляет сложность для автоматизированной обработки. Ссылки на декларации могут быть в подразделах "Противодействия коррупции" или еще глубже, одновременно здесь же присутствуют ссылки на другие раздела сайта, которые не связаны с противодействием коррупции.
Искомые документы могут быть в форматах docx, doc, pdf, xls, xlsx, html, rtf и др. Пачки документов могут быть заархивированы zip или rar. Чтобы обнаружить документы нам приходится использовать два написанных классификатора: классификатор гиперссылок (чтобы определить, надо ли идти по ней, связана ли она с противодействием коррупции) и классификатор документов (чтобы понять, скачали ли мы документ декларации или, например, методические рекомендации по заполнению деклараций). Оба классификатора работают с некоторой полнотой и точностью, поэтому ошибки возможны уже на этом этапе. Более того, программа скачивания ограничивает обработку одного сайта по времени, что является дополнительным источником неполноты.Все большее количество сайтов используют javascript, чтобы скачать декларации приходится запускать технологию Selenium (эмуляция браузера), что сильно замедлеят процесс. Один обход всех государственных сайтов длится около месяца. Код написан на языке Python.
Программа чтения документов деклараций берет на вход один документ, например, docx или xls и преобразует в json формат. Программа написана на C#. Полная спецификация json-формата находится здесь . Обычно внутри находится таблица типа такой:
Из этой таблицы мы должны получить информацию о доходе за прошлый год, об объектах недвижимости, автомобилях и пр. Однако форматы могут быть разными, иногда они очень редкие и странные . Некоторые справки заполнены от руки, а потом сконвертированы в pdf. На данный момент программа smart_parser может взять только 80% всех файлов, но даже в них некоторые колонки не парсятся аккуратно, если парсятся вообще. Некоторые документы дешевле распознавать вручную.
В идеальном случае все декларации должны быть приписаны какому-то декларанту, однако во многих случаях алгоритм дедупликации не может понять, к какому декларанту отнести эту декларацию. Представьте себе, что у вас есть 10 деклараций Иванова Ивана Ивановича из МВД, вы не знаете, один ли это человек или много. На данный момент порядка 40% всех деклараций не привязывается к декларанту, поскольку нет уверенности в том, как это делать. Иногда дедупликация делает ошибки. Например, декларант (даже с редким именем) перешел на другую работу и одновременно развелся и у него выросли дети, из-за развода у него поменялась недвижимость, которой он владел. Просто из внешних источников мы можем случайно знать эти факты, но алгоритм не знает и считает, что перед нами два разных человека. Алгоритм построен на машинном обучении Random Forest.
При перестройке базы нам приходится поддерживать постоянство веб-ссылок, подробнее об этом алгоритме написано здесь.
Уважаемые господа декларанты! Наш проект собирает информацию с сайтов государственных и муниципальных органов, а также организаций, контролируемых публичной властью. Среди таких данных: сведения о доходах, расходах, имуществе и обязательствах имущественного характера в части, публикуемой в сети Интернет (ч. 6 ст. 8 ФЗ «О противодействии коррупции»); сведения из ЕГРЮЛ (ч. 1 ст. 6 ФЗ «О государственной регистрации юридических лиц и индивидуальных предпринимателей»); иные сведения из государственных информационных систем и других источников, раскрываемых на основании федеральных законов.
В соответствии с п. 11 ч. 1 ст. 6 ФЗ «О персональных данных», согласие субъекта персональных данных на обработку этих данных не требуется, если обрабатываемые персональные данные стали доступны в результате их раскрытия в соответствии с федеральными законами. Следовательно, наш проект не обязан получать согласие на обработку персональных данных, т.к. использует только открытые и законные источники.
Проект Декларатор существует уже много лет, несколько раз законность этого проекта была подтверждена в суде, поэтому, пожалуйста, поберегите свое время и нервы. Подавляющее большинство представленных деклараций не носят никаких коррупционных признаков. Именно такие "чистые" декларации используются в качестве фона, чтобы найти "грязные" и подозрительные доходы.
Мы планируем, что данный экспериментальный сайт проработает до сентября 2022 года. Если на него будет приходить
достаточно много народа, мы подольем его функциональность и данные в основной Декларатор.
Если что-то не работает, пишите, пожалуйста, на email
sokirko@yandex.ru |