Use este identificador para citar ou linkar para este item: http://hdl.handle.net/11624/1994
Autor(es): Batista, Rodrigo de Abreu
Título: Classificação automática de códigos NCM utilizando o algoritmo Naïve Bayes.
Data do documento: 2017
Resumo: Esse trabalho consiste em um estudo sobre a construção de um classificador de texto para a categorização automática de descrições de itens de produto em seus códigos NCM adequados. A construção desse classificador foi realizada utilizando a abordagem conhecida por aprendizado supervisionado. O treinamento desse classificador consistiu em três conjuntos de dados, o primeiro desses formado por itens de transações de NCM do Capítulo 20 (Bebidas, líquidos alcoólicos e vinagres), emitidas por uma mesma rede de varejo; o segundo composto por itens de transações também do Capítulo 20, porém pertencendo a estabelecimentos distintos; e o terceiro conjunto, formado por itens de transações pertencentes ao Capítulo 90 (Instrumentos e aparelhos de óptica, de fotografia, de cinematografia, instrumentos e aparelhos médico-cirúrgico, etc.) e emitidas por estabelecimentos distintos. Cada um desses conjuntos de dados possuem dificuldades distintas, foram previamente extraídos da base de Notas Fiscais do Consumidor (NFC) da Secretaria da Fazenda do Estado do Rio Grande do Sul e devidamente rotulados. O treinamento do classificador exigiu que os documentos fiscais, entradas para o classificador, fossem tratados utilizando técnicas de processamento de texto, com o objetivo de transformá-los no formato adequado para a calibragem do modelo. Durante a fase de pré-processamento foi realizada a tokenização, remoção de stop words, stemming e extração de vetor de características utilizando a medida TF-IDF. Ao final do processo, avaliou-se o desempenho do modelo baseada na metodologia de validação cruzada com 10-folds. Os resultados evidenciaram a capacidade do modelo em classificar corretamente as instâncias. Para o conjunto de dados mais simples e considerado fácil, obteve-se uma acurácia de 98%, enquanto para os conjuntos médio e difícil, as acurácias obtidas foram de 90% e 83%, respectivamente.
Resumo em outro idioma: This work consists in a study on modeling a text classifier for automatically categorization of product item descriptions into their appropriate NCM codes. The construction of this classifier was performed using the approach known as supervised learning. The training of this classifier was performed using three sets of data, the first one consisting of NCM transactions from Chapter 20 (Beverages, Liquor and Vinegars), issued by the same retail network; the second composed of transaction items also from Chapter 20, but belonging to different stores; and the third set consisting of transaction items belonging to Chapter 90 (Optical, photographic, cinematographic, medical apparatus and instruments, etc.) and emitted by different establishments. Each of these data sets have different difficulties, were previously labeled and extracted from the database of Consumer Tax Notes (NFC) of the Treasury Department of the State of Rio Grande do Sul. In addition to that, the classifier training also required that the documents used as input to the classifier were preprocessed text processing techniques, with the goal of transforming them into a suitable format for model calibration. During the preprocessing step, tokenization, stop word removal, stemming and vector extraction of characteristics were performed using TF-IDF measure. At the end of the process, the performance of the model was evaluated using cross-validation methodology with 10-folds. The results presented by the proposed approach evidences the ability of the model to correctly classify the instances. For the simples and easier data set, an accuracy of 98% was obtained, while for the medium and difficult sets, the accuracy obtained was 90% and 83%, respectively.
Nota: Inclui bibliografia.
Instituição: Universidade de Santa Cruz do Sul
Curso/Programa: Curso de Pós-Graduação em Engenharia de Software, ênfase em Soluções de Governo
Tipo de obra: Trabalho de Conclusão de Curso
Assunto: Aprendizado do computador
Processamento de textos (Computação)
Algoritmos de computador
Notas fiscais eletrônicas
Orientador(es): Bagatini, Daniela Duarte da Silva
Aparece nas coleções:Trabalhos de Conclusão

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
Rodrigo de Abreu Batista.pdf1.41 MBAdobe PDFVisualizar/Abrir


Este item está licenciado sob uma Licença Creative Commons Creative Commons