CLASSIFICAÇÃO DE LINGUAGENS DE PROGRAMAÇÃO UTILIZANDO
Resumo
O compartilhamento de programas em diferentes linguagens de programação tem se tornado cada vez mais comum na internet. Reconhecer a linguagem de programação do trecho de código compartilhado é de grande importância para os mecanismos de busca e também na aplicação da formatação adequada. No entanto, a grande maioria dos sistemas realiza esta categorização de forma manual, com base na extensão do arquivo. Sendo assim, este artigo propõe um método automático de classificação de linguagens de programação. O método é composto por duas etapas. Na primeira etapa, uma base de dados consistindo do numero de ocorrências das palavras encontradas nos trechos de código é gerada automaticamente. Na segunda etapa, os classificadores Naive Bayes, Redes Bayesianas, Árvore de decisão (J48) e Redes Neurais Artificiais de Múltiplas Camadas são utilizados para realizar a classificação dos trechos de códigos. Os resultados encontrados mostraram que a acurácia alcançada por todos classificadores foi superior a 95,4%, mas que o desempenho é dependente da maneira como a base de dados de palavras é construída. Além disso, este trabalho mostrou que as ´arvores de decisão J48 apresentaram o melhor resultado, alcançando uma acurácia de 98,9% no processo de classificação das linguagens de programação.Downloads
Publicado
22-12-2018
Edição
Seção
Métodos Computacionais