Show simple item record

dc.contributor.authorSilva, Patrick Pedreira
dc.date.accessioned2016-06-02T19:05:19Z
dc.date.available2007-08-21
dc.date.available2016-06-02T19:05:19Z
dc.date.issued2006-07-10
dc.identifier.citationSILVA, Patrick Pedreira. ExtraWeb: um sumarizador de documentos Web baseado em etiquetas HTML e ontologia.. 2006. 168 f. Dissertação (Mestrado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2006.por
dc.identifier.urihttps://repositorio.ufscar.br/handle/ufscar/322
dc.description.abstractThis dissertation presents an automatic summarizer of Web documents based on both HTML tags and ontological knowledge. It has been derived from two independent approaches: one that focuses solely upon HTML tags, and another that focuses only on ontological knowledge. The three approaches were implemented and assessed, indicating that associating both knowledge types have a promising descriptive power for Web documents. The resulting prototype has been named ExtraWeb. The ExtraWeb system explores the HTML structure of Web documents in Portuguese and semantic information using the Yahoo ontology in Portuguese. This has been enriched with additional terms extracted from both a thesaurus, Diadorim and the Wikipedia. In a simulated Web search, ExtraWeb achieved a similar utility degree to Google one, showing its potential to signal through extracts the relevance of the retrieved documents. This has been an important issue recently. Extracts may be particularly useful as surrogates of the current descriptions provided by the existing search engines. They may even substitute the corresponding source documents. In the former case, those descriptions do not necessarily convey relevant content of the documents; in the latter, reading full documents demands a substantial overhead of Web users. In both cases, extracts may improve the search task, provided that they actually signal relevant content. So, ExtraWeb is a potential plug-in of search engines, to improve their descriptions. However, its scability and insertion in a real setting have not yet been explored.eng
dc.description.sponsorshipFinanciadora de Estudos e Projetos
dc.formatapplication/pdfpor
dc.languageporpor
dc.publisherUniversidade Federal de São Carlospor
dc.rightsAcesso Abertopor
dc.subjectInteligência artificialpor
dc.subjectProcessamento da linguagem naturalpor
dc.subjectSumarização automáticapor
dc.titleExtraWeb: um sumarizador de documentos Web baseado em etiquetas HTML e ontologiapor
dc.typeDissertaçãopor
dc.contributor.advisor1Rino, Lúcia Helena Machado
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/0315640846525832por
dc.description.resumoEsta dissertação propõe um sumarizador de documentos Web baseado em etiquetas HTML e conhecimento ontológico, derivado de outras duas abordagens independentes: uma que contempla somente etiquetas HTML e outra, somente conhecimento ontológico. As três abordagens foram implementadas e avaliadas, indicando que a composição desses dois tipos de conhecimento tem um bom potencial descritivo de documentos Web. O protótipo resultante é denominado ExtraWeb. O ExtraWeb explora a estrutura de marcação de documentos em português e informações de nível semântico usando a ontologia do Yahoo em português, enriquecida com vocabulário extraído de um thesaurus, Diadorim, e da Wikipédia. Em uma tarefa simulada por internautas, de busca de documentos, o ExtraWeb obteve um grau de utilidade próximo ao do Google, evidenciando seu potencial para indicar, por meio de extratos, a relevância de documentos recuperados na Web. Esse foco é de grande interesse atualmente, pois os extratos podem ser particularmente úteis como substitutos das descrições atuais das ferramentas de busca ou, mesmo, como substitutos dos documentos correspondentes completos. No primeiro caso, as descrições nem sempre contemplam as informações mais relevantes dos documentos; no segundo, sua leitura implica um esforço considerável por parte do internauta. Em ambos os casos, extratos podem otimizar essa tarefa, se comprovada sua utilidade para a indicação da relevância dos documentos. Assim, o ExtraWeb tem potencial para ser um acessório das ferramentas de busca, para melhorar a forma como os resultados são apresentados, muito embora sua escalabilidade e implantação em um ambiente real ainda não tenham sido exploradas.por
dc.publisher.countryBRpor
dc.publisher.initialsUFSCarpor
dc.publisher.programPrograma de Pós-Graduação em Ciência da Computação - PPGCCpor
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOpor
dc.contributor.authorlatteshttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=T850685por


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record