Normalização textual e indexação semântica aplicadas da filtragem de SMS spam

Silva, Tiago Pasqualini da

dc.contributor.author	Silva, Tiago Pasqualini da
dc.date.accessioned	2017-06-01T17:49:38Z
dc.date.available	2017-06-01T17:49:38Z
dc.date.issued	2016-07-01
dc.identifier.citation	SILVA, Tiago Pasqualini da. Normalização textual e indexação semântica aplicadas da filtragem de SMS spam. 2016. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, Sorocaba, 2016. Disponível em: https://repositorio.ufscar.br/handle/ufscar/8811.	*
dc.identifier.uri	https://repositorio.ufscar.br/handle/ufscar/8811
dc.description.abstract	The rapid popularization of smartphones has contributed to the growth of SMS usage as an alternative way of communication. The increasing number of users, along with the trust they inherently have in their devices, makes SMS messages a propitious environment for spammers. In fact, reports clearly indicate that volume of mobile phone spam is dramatically increasing year by year. SMS spam represents a challenging problem for traditional filtering methods nowadays, since such messages are usually fairly short and normally rife with slangs, idioms, symbols and acronyms that make even tokenization a difficult task. In this scenario, this thesis proposes and then evaluates a method to normalize and expand original short and messy SMS text messages in order to acquire better attributes and enhance the classification performance. The proposed text processing approach is based on lexicography and semantic dictionaries along with the state-of-the-art techniques for semantic analysis and context detection. This technique is used to normalize terms and create new attributes in order to change and expand original text samples aiming to alleviate factors that can degrade the algorithms performance, such as redundancies and inconsistencies. The approach was validated with a public, real and non-encoded dataset along with several established machine learning methods. The experiments were diligently designed to ensure statistically sound results which indicate that the proposed text processing techniques can in fact enhance SMS spam filtering.	eng
dc.description.sponsorship	Não recebi financiamento	por
dc.language.iso	por	por
dc.publisher	Universidade Federal de São Carlos	por
dc.rights.uri	Acesso aberto	por
dc.subject	Smartphones	por
dc.subject	Aplicativos móveis	por
dc.subject	Mobile apps	eng
dc.subject	Processamento de linguagem natural (Computação)	por
dc.subject	Natural language processing (Computer science)	eng
dc.subject	Filtragem de SMS spam	por
dc.subject	Aprendizado de máquina	por
dc.subject	Categorização de texto	por
dc.subject	SMS spam filtering	eng
dc.subject	Text categorization	eng
dc.subject	Machine learning	eng
dc.title	Normalização textual e indexação semântica aplicadas da filtragem de SMS spam	por
dc.title.alternative	Texto normalization and semantic indexing to enhance SMS spam filtering	eng
dc.type	Dissertação	por
dc.contributor.advisor1	Almeida, Tiago Agostinho de
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/5368680512020633	por
dc.description.resumo	A popularização dos smartphones contribuiu para o crescimento do uso de mensagens SMS como forma alternativa de comunicação. O crescente número de usuários, aliado à confiança que eles possuem nos seus dispositivos tornam as mensagem SMS um ambiente propício aos spammers. Relatórios recentes indicam que o volume de spam enviados via SMS está aumentando vertiginosamente nos últimos anos. SMS spam representa um problema desafiador para os métodos tradicionais de detecção de spam, uma vez que essas mensagens são curtas e geralmente repletas de gírias, símbolos, abreviações e emoticons, que torna até mesmo a tokenização uma tarefa difícil. Diante desse cenário, esta dissertação propõe e avalia um método para normalizar e expandir amostras curtas e ruidosas de mensagens SMS de forma a obter atributos mais representativos e, com isso, melhorar o desempenho geral na tarefa de classificação. O método proposto é baseado em dicionários lexicográficos e semânticos e utiliza técnicas modernas de análise semântica e detecção de contexto. Ele é empregado para normalizar os termos que compõem as mensagens e criar novos atributos para alterar e expandir as amostras originais de texto com o objetivo de mitigar fatores que podem degradar o desempenho dos métodos de classificação, tais como redundâncias e inconsistências. A proposta foi avaliada usando uma base de dados real, pública e não codificada, além de vários métodos consagrados de aprendizado de máquina. Os experimentos foram conduzidos para garantir resultados estatisticamente corretos e indicaram que o método proposto pode de fato melhorar a detecção de spam em SMS.	por
dc.publisher.initials	UFSCar	por
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação - PPGCC-So	por
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO	por
dc.ufscar.embargo	Online	por
dc.publisher.address	Câmpus Sorocaba	por
dc.contributor.authorlattes	http://lattes.cnpq.br/4030198351353056	por

Arquivos deste item

Nome:: SILVA_Tiago_2016.pdf
Tamanho:: 13.00Mb
Formato:: PDF

Visualizar/Abrir

Este item aparece na(s) seguinte(s) coleção(s)

Teses e dissertações

Mostrar registro simples