Synthetic data generation and augmentation for data-centric deep learning seismic inversion

dc.contributor.advisor1Senger, Hermes
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/3691742159298316
dc.contributor.authorCarvalho Junior, Carlos Gomes de
dc.contributor.authorlatteshttp://lattes.cnpq.br/7084245843462610
dc.contributor.authororcidhttps://orcid.org/0000-0002-8413-5425
dc.contributor.refereeSenger, Hermes
dc.contributor.refereeValejo, Alan Demétrius Baria
dc.contributor.refereeAraújo, João Medeiros de
dc.contributor.refereeLatteshttp://lattes.cnpq.br/3691742159298316
dc.contributor.refereeLatteshttp://lattes.cnpq.br/9546164790189830
dc.contributor.refereeLatteshttp://lattes.cnpq.br/3061734732654188
dc.date.accessioned2026-01-15T13:08:10Z
dc.date.issued2025-10-03
dc.description.abstractDeep Learning Inversion (DLI) has emerged as a promising and computationally efficient alternative to traditional seismic inversion. However, its practical adoption is limited by the scarcity of large and diverse training datasets. Existing research in DLI has primarily emphasized the design of novel network architectures, while largely overlooking the potential of data-centric training strategies. This dissertation addresses this gap by systematically evaluating the effectiveness of synthetic data strategies for enhancing DLI workflows. We first establish the fundamental capabilities of data synthesis, demonstrating the generation of high-fidelity velocity models using Denoising Diffusion Probabilistic Models and exploring semantically controllable geological feature engineering through Variational Autoencoders. Building on these foundations, we conduct a comprehensive comparative study that empirically assesses the impact of a spectrum of data augmentation techniques (ranging from simple interpolation to advanced generative diffusion) across multiple DLI architectures. The results show that data augmentation consistently improves performance, while also revealing that more complex strategies do not always outperform simpler ones. Importantly, the choice of augmentation method is closely tied to the underlying model architecture, highlighting a critical cost-benefit trade-off in data strategy design. The practical relevance of this research is further demonstrated through the development of a state-of-the-art DLI solution that leveraged a massive-scale synthetic dataset to secure a top 1% ranking in an international seismic inversion competition. This dissertation contributes to advancing data-centric approaches for seismic inversion, underscoring that the strategic use of synthetic data is essential to fully unlock the potential of DLI.eng
dc.description.resumoA Inversão por Aprendizado Profundo (DLI) desponta como uma alternativa promissora e computacionalmente eficiente à inversão sísmica tradicional. No entanto, sua adoção prática enfrenta um obstáculo central: a escassez de conjuntos de dados de treinamento amplos e diversificados. A literatura em DLI tem se concentrado majoritariamente no desenvolvimento de novas arquiteturas de redes neurais, relegando a um papel secundário as estratégias de treinamento orientadas por dados. Esta dissertação aborda tal lacuna ao investigar, de forma sistemática, o potencial de estratégias baseadas em dados sintéticos para aprimorar fluxos de trabalho em DLI. Inicialmente, estabelecem-se as capacidades fundamentais de síntese de dados, com destaque para a geração de modelos de velocidade de alta fidelidade por meio de Modelos Probabilísticos de Difusão com Remoção de Ruído, bem como para a "engenharia" semanticamente controlável de características geológicas via Autoencoders Variacionais. Em seguida, é conduzido um estudo comparativo abrangente, no qual múltiplas arquiteturas de DLI são avaliadas quanto ao impacto de diferentes técnicas de aumento de dados ,desde métodos simples de interpolação até abordagens avançadas de difusão generativa. Os resultados evidenciam que o aumento de dados pode promover ganhos expressivos de desempenho, revelando que estratégias mais complexas nem sempre superam alternativas mais simples, e que a escolha ótima depende da arquitetura do modelo em uso. A aplicabilidade prática do trabalho é demonstrada pelo desenvolvimento de uma solução estado-da-arte de DLI que, ao explorar um conjunto massivo de dados sintéticos, figurando entre as 1% melhores soluções em uma competição internacional de inversão sísmica. Assim, esta dissertação contribui ao destacar o papel estratégico dos dados sintéticos, e ao defender que uma abordagem centrada em dados é capaz de trazer ganhos significativos para DLI.por
dc.description.sponsorshipOutra
dc.description.sponsorshipFundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
dc.description.sponsorshipId01.23.0575.00
dc.description.sponsorshipId2020/15230-5
dc.description.sponsorshipId001
dc.identifier.citationCARVALHO JUNIOR, Carlos Gomes de. Synthetic data generation and augmentation for data-centric deep learning seismic inversion. 2025. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/23419.por
dc.identifier.urihttps://hdl.handle.net/20.500.14289/23419
dc.language.isoeng
dc.publisherUniversidade Federal de São Carlos
dc.publisher.addressCampus São Carlos
dc.publisher.initialsUFSCar
dc.publisher.programPrograma de Pós-Graduação em Ciência da Computação - PPGCC
dc.rightsAttribution 3.0 Brazilen
dc.rights.urihttp://creativecommons.org/licenses/by/3.0/br/
dc.subjectModelos gerativospor
dc.subjectDados sintéticospor
dc.subjectModelos de velocidadepor
dc.subjectInversão sísmicapor
dc.subjectAumento de dadospor
dc.subjectGenerative modelseng
dc.subjectSynthetic dataeng
dc.subjectVelocity modelseng
dc.subjectSeismic inversioneng
dc.subjectData augmentationeng
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
dc.subject.ods9. Indústria, Inovação e Infraestrutura
dc.titleSynthetic data generation and augmentation for data-centric deep learning seismic inversioneng
dc.title.alternativeGeração e aumento de dados sintéticos para inversão sísmica por aprendizado profundo centrada em dadospor
dc.typeDissertação

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
dissertacao_carlos_gomes_2025.pdf
Tamanho:
11.39 MB
Formato:
Adobe Portable Document Format