Commit 7d382e8f authored by Miguel Guerrero's avatar Miguel Guerrero

add estrutura para gerar arquivos

parent bbeb2a99
.Rproj.user
.Rhistory
.RData
.Ruserdata
Version: 1.0
RestoreWorkspace: Default
SaveWorkspace: Default
AlwaysSaveHistory: Default
EnableCodeIndexing: Yes
UseSpacesForTab: Yes
NumSpacesForTab: 2
Encoding: UTF-8
RnwWeave: Sweave
LaTeX: pdfLaTeX
library(dplyr)
library(tidyselect)
library(stringr)
library(nanoparquet)
library(tidyr)
# carrega caminhos para dados
path_ncm <- file.path(
Sys.getenv("general"),
"Bases",
"correlacoes",
"mercosul",
"output",
"correlacao_completa_ncm.Rda"
)
path_naladi_ncm <- file.path(
Sys.getenv("general"),
"Bases",
"correlacoes",
"aladi",
"naladi_ncm",
"output",
"correlacao_naladi_ncm.Rda"
)
path_naladi <- file.path(
Sys.getenv("general"),
"Bases",
"correlacoes",
"aladi",
"naladi_naladi",
"output",
"correlacao_completa_naladi_ncmtracker.Rda"
)
# Organiza dados da correlação NCM ----------------------------------------
load(path_ncm)
correlacao_completa <- correlacao_completa_ncm_mercosul %>%
distinct() %>%
rename_with(~str_to_upper(.x))
write_parquet(correlacao_completa, "dados_gerados/dataset_ncm.parquet")
# Organiza dados da correlação NCM Naladi ---------------------------------
load(path_naladi_ncm)
correlacao_completa <- correlacao_naladi_ncm %>%
distinct() %>%
rename_with(~str_to_upper(.x))
# obtem ultimo ano
colunas <- names(correlacao_completa)
ano_max <- colunas %>%
str_extract("[0-9]+") %>%
max() %>%
unique()
correlacao_completa %>%
select(contains(ano_max)) %>%
distinct() %>%
write_parquet("dados_gerados/dataset_naladi_ncm.parquet")
# Organiza dados da correlação Naladi -------------------------------------
load(path_naladi)
correlacao_completa <- correlacao_completa_naladi_naladi_ncmtracker %>%
# naladi 1983 tem 7 ou 8 digitos. os 8 digitos da naladi 1983 surgiram em 1992.
# como logo em seguida veio a naladi_1993 com 8 digitos, vamos
# descartar os codigos de 8 dígitos da naladi_1983.
# filter(nchar(naladi_1983) == 9) %>% # 9 digitos equivale a 7 digitos se contarmos os pontos
distinct() %>%
rename_with(~str_to_upper(.x)) %>%
mutate(NALADI_1983 = str_remove_all(NALADI_1983, "\\.")) %>%
mutate(NALADI_1983 = str_c(
str_sub(NALADI_1983, 1, 2),
".",
str_sub(NALADI_1983, 3, 4),
".",
str_sub(NALADI_1983, 5, 5),
".",
str_sub(NALADI_1983, 6, 7)
))
colunas <- names(correlacao_completa)
write_parquet(correlacao_completa, "dados_gerados/dataset_naladi.parquet")
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment