Поиск Написать

1С: Самвестимо. Открытые данные.

В одной из тем про открытые данные опубликованные ФНС как-то так получилось, что мой аккаунт налаял на своих собеседников. Краснею до сих пор.
Все последующие дни вожусь с этими данными.
Оказалось, что просто так, вручную, их не возьмешь.
Стало понятно и то, почему данные выложены в таком виде - их очень большой объем.
Поэтому они выложены кусочками в среднем по 160 фирм в файле.
Например, архив сведений об уплаченных налогах содержит 11358 файлов, т.е. сведения о примерно 11358*160=1 817 280 юрлицах.
Ясно, что даже "слить" эти файлы в одну таблицу Эксель, например, не получится - у листа есть ограничение на количество строк и колонок. Типа 32000 или 64000, не помню, но это все равно в сотни раз меньше, чем нужно.
Еще 3 файла данных имеют примерно такое же (+- 100 000 - 150 000) количество записей в сумме.
Несколько дней прошли в бесплодных попытках написать обработку для 1С для работы с этими данными.
Сама обработка данных проблем не вызывает поиски по ИНН, части наименований и т.п., проблема в том, что у обработки 1С нет подходящего инструмента для оперирования таким количеством записей. Например т.н. Таблица значений валится на примерно 1 200 000 записях. Т.е. в нее не получается загрузить даже один файл из 4-х (5-й - маленький).

Комментарии:
Страница 1 из 2
1 2  >
Теперь понятно, что для работы с этими открытыми данными нужно сделать полноценную базу данных.
И загрузить в нее эти данные.
Тогда и отчеты будут получаться сами собой и намного проще.
Понятно почему данные выложены ФНС в таком виде. А в каком еще?
Чтобы сделать сервис, например, на сайте ФНС, нужно опять-таки сделать там полноценную БД к которой и будет слать запросы сервис.
Но такая БД и так есть у ФНС - оттуда и выгрузили эти данные, которые теперь открытые ...
Выглядят эти открытые данные (то как они выложены и что выложено) примерно так:

Я - в красном ...
Но я справлюсь с этими открытыми данными, даже не сомневайтесь ...
Просто выложу не в виде обработки, как обычно, которую можно запустить в любой базе и загрузив данные получить отчеты по ним, а в виде архива одинесной базы с загруженными в нее данными. Создадите у себя на компе новую чистую базу и восстановите в нее мою архивную сохраненку.
Ввод данных в базу закрою, но вы сможете сформировать в этой базе сводные отчеты по имеющимся открытым данным ...
Мы завтра их выложим на Клерке )
Анжелика Ник, это те о которых ты просила?
Ага, по запросу Анжелика Ник )
Мы завтра их выложим на Клерке )
Кого выложите?
Данные от проекта Открытые данные от ФНС
А смысл?
Данные и так лежат в открытом доступе на сайте ФНС.
В чем прикол перекладывать их сервера на сервер?
Кошки Рyлят, я попросила сделать в читабельном для простых смертных виде
Анжелика Ник, я, наверно, путано объясняю? Длинно и не понятно?
Нет такого инструмента для простых смертных чтобы данные возможно было бы просто читать. Никаким экселем этот объем данных не поднять.
Только СУБД.
Первый процент данных загружался в базу где-то часа 2.
Кошки Рyлят, мне без разницы как это у вас программистов называется главное чтобы можно было пользоваться информацией в читабельном виде
В ближайшее время увидим результат у клерка
Все организации у меня находятся в трехуровневом справочнике:
1 уровень - группы регионов,
2 уровень - группы ИФНС в группах регионов
3 уровень - элементы (собственно юрлица)
Так будет удобнее строить отчеты.
У группы регионов код - первые две цифры ИНН, название группы - название региона по таблице кодов регионов или субъектов РФ от ФНС.
Например, при заполнении форм заявлений на государственную регистрацию ООО и ИП требуется указывать код субъекта РФ из этой таблицы.
Но уже сейчас вижу регионы с кодами 80, 82, 97 и т.д.
Таких кодов в таблице нет, а налоговых и юрлиц в этих группах полно ...
???
И что с этим делать?
Первый процент данных загружался в базу где-то часа 2.
ну если ты некрофил, таким образом грузить такой объем данных. то это уже твоя проблема.
Файлы dbf'ные растут прилично.
Как бы не пришлось переходить на скульный вариант ...
2% файлов загрузилось в базу - размер dbf'ного файла 85 метров, cdx'ного к нему - под 300 метров.
А ограничение на размер таких файлов, как известно, равно 2 гектарам.
После загрузки первых 25% (11362 файла), рост dbf'ного файла должен практически прекратиться.
Т.е. размер dbf'ного файла составит где-то 1,5 гектара.
Это практически на пределе.
Выглядит это у меня вот так:
Открыть оригинал изображения (1325x1073, 1.24 Мб)
Это общий список организаций по которым есть сведения.
Иерархию - см. описание выше.
Список можно просматривать в виде иерархического списка, как на принтскрине или без иерархии (кто работает в 1С, думаю, поймут). Можно отсортировать по ИНН или по краткому наименованию. Поиск в списке тоже традиционный - встаешь на нужную колонку и набираешь первые буквы/цифры ...
И еще есть поиск:
Если знаете ИНН, ставите переключатель, вводите с клавиатуры ИНН, жмете кнопку "Поиск" и через мгновенье - готово ...
Открыть оригинал изображения (1325x1073, 0.71 Мб)
Результат виден прямо в этом же окне в виде отчета.
Прикольно искать по названию.
Вводить достаточно только часть названия. Будут найдены все похожие и двойники.
Под списком найденных видно сколько их всего.
Открыть оригинал изображения (1325x1073, 0.75 Мб)
Перемещая курсор по списку сразу видите отчет по выбранному юрлицу.
Открыть оригинал изображения (1325x1073, 0.52 Мб)
Ну и конечно будет отчет "Анализ".
С его помощью можно будет получить сводные и детальные отчеты в различных разрезах, в целом и по регионам, ... в общем, любые.
Пока данные грузятся, сделаю.
А как еще можно использовать эти данные?
Но есть и хорошие новости ...
У меня с самого начала была уверенность, что эти т.н. открытые данные представляют собой большую помойку. Навалили кучу и отвяжитесь - все равно никто не разберется в этом хламе ...
Уверенность возникла сразу же и подкреплялась опытом "замены ОКВЭД".
Помните? Так вот, там не только гамашей хватало, там были косяки посерьезней ...
Ожидания не обманули первые же впечатления: пойдя по ссылке Анжелика Ник, тут же обнаружилось, что делали это рукожопые.
Вот ссылка: https://www.nalog.ru/rn77/news/activities_fts/7847733/
Там 5 ссылок на страницы для скачивания. Там же описания этих данных.
А теперь обратите внимание на п.3, например, здесь
https://www.nalog.ru/opendata/7707329152-snr/
и ... !!! ... здесь
https://www.nalog.ru/opendata/7707329152-paytax/
Видите разницу? - нет ссылки на файл-описание формата.
Видимо, ссылка "не уместилась" в ячейке, потому что имя и место этого файла легко вычисляется и файл-описание там действительно находится и доступен для скачивания.
Ну, ладно ... рукожопые вэб-вестальщики ... ©диагноз
Думаете с самими данными будет по другому?
Тогда ваша наивность просто зашкаливает ...
Первое, что бросается в глаза - опечатки(?) в названиях организаций.
Каких только ООО нет в этой базе.
Вот на вскидку несколько типичных:
ОБШЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ "ПРОФЕССИОНАЛ" ИНН 0105036692
ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСВЕННОСТЬЮ "РОСТАЙМ" ИНН 0105050930
ОБЩЕСТВА С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ "ГРАНИТ" ИНН 0107024283
ДОЧЕРНЕЕ ПРЕДПРИЯТИЕ "ОБЩЕСТВО С ОГАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ ТОРГОВЫЙ ДОМ "ПОБЕДА" ИНН 2334018561
...
и т.д. несть им числа и вариантов.
Ну, или вот
ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ "ООО"
ИНН 7805604784, 6163101246, 2703065090, 5245016536, 2703066369, 6166095777, 5401377388.
Фантазия людей просто бьет ключом ...

А как вам такое название ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ
Шично?
Ну, действительно, чего ж буквы зря тратить или знаки препинания? - они же на вес золота ...
Это, конечно, все ерунда.
Как кто-то в базу когда-то забил, так оно там и числится, как говорится, "по вине переписчика".
"Что в базе было, то рукожопые и выгрузили", скажете вы?
Да нет, не так.
Данные выложены в виде архива в котором упакованы xml файлы с данными.
В каждом файле содержится почему-то разное число записей, никакой сортировки или системы включения тех или иных организаций не видно.
Но прикол в том, что один и тот же ИНН может встречаться в разных файлах!
Эти данные содержат дубли.
А это уже реальное рукожопие, я вам доложу ...
Вот пример такого дубля:
Одна запись находится в файле
VO_OTKRDAN1_9965_9965_20180930_0b300231-2157-4283-aa75-a9c98a9a06f1.xml
другая в
VO_OTKRDAN1_9965_9965_20180930_cf2ff4c1-fd39-4245-b3a7-7774f39b5761.xml
из архива отсюда https://www.nalog.ru/opendata/7707329152-snr/


У записей разный айдидок и различное написание названия.
Айдидок ладно - это походу случайный ГУИД, совершенно бессмысленный в этом наборе данных, который, вероятно, просто выполняет роль мусора в этих данных.
Но вот наименование!!!
Получается, что данные (в данном случае о применении спецрежимов) выгружаются из разных баз?!!!
Как может существовать такое рукожопие на свете?
И это ведь существует за бюджетные деньги, за налоги.
А хорошая новость заключается в том, что это довольно прикольно.
В смысле, хорошо у меня получилось с этой базой.
Как на огонь и на воду можно смотреть бесконечно, так и на эту базу тоже.
Каких только чудес не насмотришься!
Как причудливо платятся налоги, например ...
Или не платятся, хотя доходы есть, сотрудники тоже ... ??? ... как так-то?
Оказывается, есть много организаций, которые платят Торговый сбор.
Но у одних он кратен 60000 (120000, 240000, 60000), а у других - в рублях с копейками.
Чудно!
Страница 1 из 2
1 2  >
 

Подтвердите удаление записи