Use este identificador para citar ou linkar para este item:
http://hdl.handle.net/11624/1994
Registro completo de metadados
Campo DC | Valor | Idioma |
---|---|---|
dc.contributor.author | Batista, Rodrigo de Abreu | - |
dc.type | Trabalho de Conclusão de Curso | pt_BR |
dc.language.iso | pt_BR | pt_BR |
dc.title | Classificação automática de códigos NCM utilizando o algoritmo Naïve Bayes. | pt_BR |
dc.date.issued | 2017 | - |
dc.degree.local | Porto Alegre | pt_BR |
dc.contributor.advisor | Bagatini, Daniela Duarte da Silva | - |
dc.degree.department | Curso de Pós-Graduação em Engenharia de Software, ênfase em Soluções de Governo | pt_BR |
dc.description.abstract | This work consists in a study on modeling a text classifier for automatically categorization of product item descriptions into their appropriate NCM codes. The construction of this classifier was performed using the approach known as supervised learning. The training of this classifier was performed using three sets of data, the first one consisting of NCM transactions from Chapter 20 (Beverages, Liquor and Vinegars), issued by the same retail network; the second composed of transaction items also from Chapter 20, but belonging to different stores; and the third set consisting of transaction items belonging to Chapter 90 (Optical, photographic, cinematographic, medical apparatus and instruments, etc.) and emitted by different establishments. Each of these data sets have different difficulties, were previously labeled and extracted from the database of Consumer Tax Notes (NFC) of the Treasury Department of the State of Rio Grande do Sul. In addition to that, the classifier training also required that the documents used as input to the classifier were preprocessed text processing techniques, with the goal of transforming them into a suitable format for model calibration. During the preprocessing step, tokenization, stop word removal, stemming and vector extraction of characteristics were performed using TF-IDF measure. At the end of the process, the performance of the model was evaluated using cross-validation methodology with 10-folds. The results presented by the proposed approach evidences the ability of the model to correctly classify the instances. For the simples and easier data set, an accuracy of 98% was obtained, while for the medium and difficult sets, the accuracy obtained was 90% and 83%, respectively. | pt_BR |
dc.description.nota | Inclui bibliografia. | pt_BR |
dc.subject.other | Aprendizado do computador | pt_BR |
dc.subject.other | Processamento de textos (Computação) | pt_BR |
dc.subject.other | Algoritmos de computador | pt_BR |
dc.subject.other | Notas fiscais eletrônicas | pt_BR |
dc.identifier.uri | http://hdl.handle.net/11624/1994 | - |
dc.date.accessioned | 2018-04-13T13:02:57Z | - |
dc.date.available | 2018-04-13T13:02:57Z | - |
dc.degree.grantor | Universidade de Santa Cruz do Sul | pt_BR |
dc.description.resumo | Esse trabalho consiste em um estudo sobre a construção de um classificador de texto para a categorização automática de descrições de itens de produto em seus códigos NCM adequados. A construção desse classificador foi realizada utilizando a abordagem conhecida por aprendizado supervisionado. O treinamento desse classificador consistiu em três conjuntos de dados, o primeiro desses formado por itens de transações de NCM do Capítulo 20 (Bebidas, líquidos alcoólicos e vinagres), emitidas por uma mesma rede de varejo; o segundo composto por itens de transações também do Capítulo 20, porém pertencendo a estabelecimentos distintos; e o terceiro conjunto, formado por itens de transações pertencentes ao Capítulo 90 (Instrumentos e aparelhos de óptica, de fotografia, de cinematografia, instrumentos e aparelhos médico-cirúrgico, etc.) e emitidas por estabelecimentos distintos. Cada um desses conjuntos de dados possuem dificuldades distintas, foram previamente extraídos da base de Notas Fiscais do Consumidor (NFC) da Secretaria da Fazenda do Estado do Rio Grande do Sul e devidamente rotulados. O treinamento do classificador exigiu que os documentos fiscais, entradas para o classificador, fossem tratados utilizando técnicas de processamento de texto, com o objetivo de transformá-los no formato adequado para a calibragem do modelo. Durante a fase de pré-processamento foi realizada a tokenização, remoção de stop words, stemming e extração de vetor de características utilizando a medida TF-IDF. Ao final do processo, avaliou-se o desempenho do modelo baseada na metodologia de validação cruzada com 10-folds. Os resultados evidenciaram a capacidade do modelo em classificar corretamente as instâncias. Para o conjunto de dados mais simples e considerado fácil, obteve-se uma acurácia de 98%, enquanto para os conjuntos médio e difícil, as acurácias obtidas foram de 90% e 83%, respectivamente. | pt_BR |
Aparece nas coleções: | Trabalhos de Conclusão |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Rodrigo de Abreu Batista.pdf | 1.41 MB | Adobe PDF | Visualizar/Abrir |
Este item está licenciado sob uma Licença Creative Commons