Aprendizado de Máquina Baseado em Uma Única Classe: Algoritmos e Aplicações

Rafael G. Rossi, Bruno M. Nogueira, Ricardo M. Marcacini, Solange O. Rezende, Alneu A. Lopes, Vinícius M. A. Souza, Edson T. Matsubara and Diego F. Silva

Thursday, 11 Jul 2019

A quantidade de dados disponível em formato digital na rede mundial de computadores aumenta a cada dia. Esses dados estão em diferentes formatos, como (i) textos produzidos dentro das empresas, portais de notícias, blogs e redes sociais; (ii) imagens produzidas por satélites, drones, câmeras digitais e exames médicos; (iii) dados numérios produzidos por resultados por exames ou aparelhos de mensuração que gerem tais dados e (iv) sequencias de genes. É humanamente impossível realizar tarefas como a organização, gerenciamento, e uma das principais, a extração de conhecimento de grandes volumes de dados, os quais são úteis tanto na área acadêmica quanto comercial. Uma das técnicas para se realizar tais tarefas automaticamente é a classificação automática. Para que se possa relizar a classificação automática, é preciso construir um modelo de classificação. Esse modelo é normalmente construído por técnicas de aprendizado de máquina, as quais visam extrair padrões de exemplos e respectivos rótulos (identificadores de classe). A maioria das pesquisas e aplicações práticas ainda fazem uso do aprendizado supervisionado multi-classe. Neste cenário, o usuário ou especialista de domínio responsável pela rotulação deve definir todas as classes nas quais os documentos poderão ser atribuídos, bem como uma grande quantidade de exemplos de documentos pertencentes a cada uma dessas classes (documentos rotulados). Isso pode ser oneroso ao rotulador e demandar conhecimento absoluto sobre o problema a ser tratado. Uma situação mais prática seria o usuário fornecer apenas exemplos de seu conhecimento ou se seu interesse. Além disso, neste mesmo cenário, será atribuído à um exemplo não rotulado sempre uma das categorias que foram informadas durante a construção do modelo de classificação, mesmo que a classe real desse exemplo não seja uma das classes previamente informada. Para sanar essas dificuldades do aprendizado supervisionado multi-classe tradicionalmente utilizado, e para deixar mais prática a aplicação da classificação automática em situações em que o usuário esteja interessado em uma única classe (também denominada classe alvo ou classe de interesse), têm ganhado interesse nos últimos anos a área de aprendizado baseado em uma única classe. Neste tipo de aprendizado, são informados apenas exemplos da classe de interesse para construir o modelo de classificação, e portanto, diminuindo o esforço do usuário de rotulação e conhecimento do domínio por parte do usuário. Nesta abordagem, o classificador irá classificar um exemplo como sendo da classe de interesse ou não sendo da classe de interesse (também denominado outlier).