Commit 303316ff authored by Miguel Guerrero's avatar Miguel Guerrero

atualiza caminhos de arquivos para leitura de dados e melhora a legibilidade do código

parent a9f6235f
...@@ -8,28 +8,29 @@ library(arrow) ...@@ -8,28 +8,29 @@ library(arrow)
# carrega caminhos para dados # carrega caminhos para dados
# path_ncm <- file.path( # caminho correlacao normal
# Sys.getenv("general"), path_ncm <- file.path(
# "Bases", Sys.getenv("general"),
# "correlacoes", "Bases",
# "mercosul", "correlacoes",
# "output", "mercosul",
# "correlacao_completa_ncm.xlsx" "output",
# ) "correlacao_completa_ncm.xlsx"
)
path_ncm <- "correlacao_completa_ncm.xlsx"
correlacao_completa_ncm_mercosul <- read_xlsx(path_ncm, guess_max = 1e6) # agora
# path_ncm_detalhada <- file.path(
# Sys.getenv("general"), # caminho correlacao expandida
# "Bases", path_ncm_detalhada <- file.path(
# "correlacoes", Sys.getenv("general"),
# "mercosul", "Bases",
# "output", "correlacoes",
# "correlacao_completa_ncm_detalhada.xlsx" "mercosul",
# ) "output",
"correlacao_completa_ncm_detalhada.xlsx"
path_ncm_detalhada <- "correlacao_completa_ncm_detalhada.xlsx" )
# Leitura de correlacao expandida
correlacao_ncm_detalhada <- read_xlsx(path_ncm_detalhada, guess_max = 1e6) correlacao_ncm_detalhada <- read_xlsx(path_ncm_detalhada, guess_max = 1e6)
# funcao para obter linhas com mudancas de codigo em cada revisao NCM # funcao para obter linhas com mudancas de codigo em cada revisao NCM
...@@ -75,7 +76,9 @@ dados_gerados_ncms_originais <- readRDS("dados_gerados/ncms_originais.rds") ...@@ -75,7 +76,9 @@ dados_gerados_ncms_originais <- readRDS("dados_gerados/ncms_originais.rds")
dados_gerados_ncms_originais <- dados_gerados_ncms_originais[[tamanho_lista]] dados_gerados_ncms_originais <- dados_gerados_ncms_originais[[tamanho_lista]]
# compara coluna ncm original de agora com anterior # compara coluna ncm original de agora com anterior
# indica que codigos que não estavam na revisão, original apareceram agora # indica que codigos que não estavam na revisão original apareceram agora. Isso é
# importante pois alguns códigos podem ter sido alterados agora ou podem ter sido esquecidos
# e não inseridos anteriorermente
setdiff( setdiff(
ultima_revisao$ncm_original, ultima_revisao$ncm_original,
dados_gerados_ncms_originais$ncm_original dados_gerados_ncms_originais$ncm_original
...@@ -88,17 +91,20 @@ nome_segunda_coluna <- ultima_revisao |> ...@@ -88,17 +91,20 @@ nome_segunda_coluna <- ultima_revisao |>
# compara coluna de mudanças dentro da revisão. Indica códigos que # compara coluna de mudanças dentro da revisão. Indica códigos que
# apareceram agora em relação ao ultimo arquivo # apareceram agora em relação ao ultimo arquivo. Aqui vale a pena conferir se
# todos os códigos que aparececem foram de fato criados. Vale a pena conferir se todos os
# códigos criados (olhar nas resoluções) aparecem dentros os códigos seguintes.
setdiff( setdiff(
ultima_revisao[[nome_segunda_coluna]], ultima_revisao[[nome_segunda_coluna]],
dados_gerados_ncms_originais[[nome_segunda_coluna]] dados_gerados_ncms_originais[[nome_segunda_coluna]]
) )
# carrega dados da tec # carrega dados da tec
tec <- read_xlsx("tec_oficial.xlsx", guess_max = 1e6) tec <- read_xlsx(Sys.getenv("tec"), guess_max = 1e6)
# observa mudanças nos códigos ncm de um arquivo anterior # observa mudanças nos códigos ncm de um arquivo anterior
# e verifica se tem alguma ncm que não está mais na tec vigente. # e verifica se tem alguma ncm que não está mais na tec vigente.
# Se um código aparecer esse código deve ter sido alterado. Conferir.
dados_gerados_ncms_originais |> dados_gerados_ncms_originais |>
rename(ncm = all_of(nome_segunda_coluna)) |> rename(ncm = all_of(nome_segunda_coluna)) |>
mutate(ncm = str_remove_all(ncm, "\\.")) |> mutate(ncm = str_remove_all(ncm, "\\.")) |>
...@@ -107,27 +113,31 @@ dados_gerados_ncms_originais |> ...@@ -107,27 +113,31 @@ dados_gerados_ncms_originais |>
filter(is.na(descricao_tec)) |> filter(is.na(descricao_tec)) |>
pull(ncm) pull(ncm)
##################################### #####################################
# compara codigos ncm da tabela de correlacao ncm de agora # compara codigos ncm da tabela de correlacao ncm de agora
# e verifica se todos estão presentes na tec vigente. # e verifica se todos estão presentes na tec vigente.
correlacao_completa_ncm_mercosul <- read_xlsx(path_ncm, guess_max = 1e6) # agora
correlacao_completa <- correlacao_completa_ncm_mercosul |> correlacao_completa <- correlacao_completa_ncm_mercosul |>
distinct() |> distinct() |>
rename_with(~str_to_upper(.x)) |> rename_with(~ str_to_upper(.x)) |>
tidyr::drop_na() tidyr::drop_na()
correlacao_ncm <- correlacao_completa |> correlacao_ncm <- correlacao_completa |>
rename(ncm = all_of(nome_segunda_coluna)) |> rename(ncm = all_of(nome_segunda_coluna)) |>
mutate(ncm = str_remove_all(ncm, "\\.")) mutate(ncm = str_remove_all(ncm, "\\."))
# contagem de códigos únicos no arquivo com a última revisão
correlacao_ncm |> correlacao_ncm |>
select(ncm) |> select(ncm) |>
distinct() distinct()
# contagem linhas tec
nrow(tec)
# verifica se numero de linhas é igual ao número de linhas da tec
tec |> tec |>
filter(ncm %in% correlacao_ncm$NCM_2022) filter(ncm %in% correlacao_ncm[["ncm"]] |> unique()) |>
nrow()
# compara codigos ncm da tabela correlação ncm antiga e # compara codigos ncm da tabela correlação ncm antiga e
...@@ -138,12 +148,15 @@ correlacao_ncm_antes <- correlacao_ncm_antes |> ...@@ -138,12 +148,15 @@ correlacao_ncm_antes <- correlacao_ncm_antes |>
rename(ncm = all_of(nome_segunda_coluna)) |> rename(ncm = all_of(nome_segunda_coluna)) |>
mutate(ncm = str_remove_all(ncm, "\\.")) mutate(ncm = str_remove_all(ncm, "\\."))
# um número menor de linhas indica que alguns códigos saíram da tabela de correlação e não estão mais presentes na tec vigente.
tec |> tec |>
filter(ncm %in% correlacao_ncm_antes$ncm) filter(ncm %in% unique(correlacao_ncm_antes$ncm)) |>
nrow()
# verifica codigos que entraram na tabela correlacao ncm # verifica codigos que entraram na tabela correlacao ncm
setdiff(correlacao_ncm$ncm, correlacao_ncm_antes$ncm) setdiff(correlacao_ncm$ncm, correlacao_ncm_antes$ncm)
# compara com codigos ncms originais antes e depois # compara com codigos ncms originais antes e depois. Os códigos da linha acima devem
# bater com a linha abaixo (sem pontos)
setdiff( setdiff(
ultima_revisao[[nome_segunda_coluna]], ultima_revisao[[nome_segunda_coluna]],
dados_gerados_ncms_originais[[nome_segunda_coluna]] dados_gerados_ncms_originais[[nome_segunda_coluna]]
......
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment