1С: Самвестимо. Открытые данные.
В одной из тем про открытые данные опубликованные ФНС как-то так получилось, что мой аккаунт налаял на своих собеседников. Краснею до сих пор.
Все последующие дни вожусь с этими данными.
Оказалось, что просто так, вручную, их не возьмешь.
Стало понятно и то, почему данные выложены в таком виде - их очень большой объем.
Поэтому они выложены кусочками в среднем по 160 фирм в файле.
Например, архив сведений об уплаченных налогах содержит 11358 файлов, т.е. сведения о примерно 11358*160=1 817 280 юрлицах.
Ясно, что даже "слить" эти файлы в одну таблицу Эксель, например, не получится - у листа есть ограничение на количество строк и колонок. Типа 32000 или 64000, не помню, но это все равно в сотни раз меньше, чем нужно.
Еще 3 файла данных имеют примерно такое же (+- 100 000 - 150 000) количество записей в сумме.
Несколько дней прошли в бесплодных попытках написать обработку для 1С для работы с этими данными.
Сама обработка данных проблем не вызывает поиски по ИНН, части наименований и т.п., проблема в том, что у обработки 1С нет подходящего инструмента для оперирования таким количеством записей. Например т.н. Таблица значений валится на примерно 1 200 000 записях. Т.е. в нее не получается загрузить даже один файл из 4-х (5-й - маленький).
Все последующие дни вожусь с этими данными.
Оказалось, что просто так, вручную, их не возьмешь.
Стало понятно и то, почему данные выложены в таком виде - их очень большой объем.
Поэтому они выложены кусочками в среднем по 160 фирм в файле.
Например, архив сведений об уплаченных налогах содержит 11358 файлов, т.е. сведения о примерно 11358*160=1 817 280 юрлицах.
Ясно, что даже "слить" эти файлы в одну таблицу Эксель, например, не получится - у листа есть ограничение на количество строк и колонок. Типа 32000 или 64000, не помню, но это все равно в сотни раз меньше, чем нужно.
Еще 3 файла данных имеют примерно такое же (+- 100 000 - 150 000) количество записей в сумме.
Несколько дней прошли в бесплодных попытках написать обработку для 1С для работы с этими данными.
Сама обработка данных проблем не вызывает поиски по ИНН, части наименований и т.п., проблема в том, что у обработки 1С нет подходящего инструмента для оперирования таким количеством записей. Например т.н. Таблица значений валится на примерно 1 200 000 записях. Т.е. в нее не получается загрузить даже один файл из 4-х (5-й - маленький).
Причем, осталось еще процентов 5, самая затратная по времени часть загрузки пройдет и скорость должна заметно возрасти.