Synthetic data generation and augmentation for data-centric deep learning seismic inversion
| dc.contributor.advisor1 | Senger, Hermes | |
| dc.contributor.advisor1Lattes | http://lattes.cnpq.br/3691742159298316 | |
| dc.contributor.author | Carvalho Junior, Carlos Gomes de | |
| dc.contributor.authorlattes | http://lattes.cnpq.br/7084245843462610 | |
| dc.contributor.authororcid | https://orcid.org/0000-0002-8413-5425 | |
| dc.contributor.referee | Senger, Hermes | |
| dc.contributor.referee | Valejo, Alan Demétrius Baria | |
| dc.contributor.referee | Araújo, João Medeiros de | |
| dc.contributor.refereeLattes | http://lattes.cnpq.br/3691742159298316 | |
| dc.contributor.refereeLattes | http://lattes.cnpq.br/9546164790189830 | |
| dc.contributor.refereeLattes | http://lattes.cnpq.br/3061734732654188 | |
| dc.date.accessioned | 2026-01-15T13:08:10Z | |
| dc.date.issued | 2025-10-03 | |
| dc.description.abstract | Deep Learning Inversion (DLI) has emerged as a promising and computationally efficient alternative to traditional seismic inversion. However, its practical adoption is limited by the scarcity of large and diverse training datasets. Existing research in DLI has primarily emphasized the design of novel network architectures, while largely overlooking the potential of data-centric training strategies. This dissertation addresses this gap by systematically evaluating the effectiveness of synthetic data strategies for enhancing DLI workflows. We first establish the fundamental capabilities of data synthesis, demonstrating the generation of high-fidelity velocity models using Denoising Diffusion Probabilistic Models and exploring semantically controllable geological feature engineering through Variational Autoencoders. Building on these foundations, we conduct a comprehensive comparative study that empirically assesses the impact of a spectrum of data augmentation techniques (ranging from simple interpolation to advanced generative diffusion) across multiple DLI architectures. The results show that data augmentation consistently improves performance, while also revealing that more complex strategies do not always outperform simpler ones. Importantly, the choice of augmentation method is closely tied to the underlying model architecture, highlighting a critical cost-benefit trade-off in data strategy design. The practical relevance of this research is further demonstrated through the development of a state-of-the-art DLI solution that leveraged a massive-scale synthetic dataset to secure a top 1% ranking in an international seismic inversion competition. This dissertation contributes to advancing data-centric approaches for seismic inversion, underscoring that the strategic use of synthetic data is essential to fully unlock the potential of DLI. | eng |
| dc.description.resumo | A Inversão por Aprendizado Profundo (DLI) desponta como uma alternativa promissora e computacionalmente eficiente à inversão sísmica tradicional. No entanto, sua adoção prática enfrenta um obstáculo central: a escassez de conjuntos de dados de treinamento amplos e diversificados. A literatura em DLI tem se concentrado majoritariamente no desenvolvimento de novas arquiteturas de redes neurais, relegando a um papel secundário as estratégias de treinamento orientadas por dados. Esta dissertação aborda tal lacuna ao investigar, de forma sistemática, o potencial de estratégias baseadas em dados sintéticos para aprimorar fluxos de trabalho em DLI. Inicialmente, estabelecem-se as capacidades fundamentais de síntese de dados, com destaque para a geração de modelos de velocidade de alta fidelidade por meio de Modelos Probabilísticos de Difusão com Remoção de Ruído, bem como para a "engenharia" semanticamente controlável de características geológicas via Autoencoders Variacionais. Em seguida, é conduzido um estudo comparativo abrangente, no qual múltiplas arquiteturas de DLI são avaliadas quanto ao impacto de diferentes técnicas de aumento de dados ,desde métodos simples de interpolação até abordagens avançadas de difusão generativa. Os resultados evidenciam que o aumento de dados pode promover ganhos expressivos de desempenho, revelando que estratégias mais complexas nem sempre superam alternativas mais simples, e que a escolha ótima depende da arquitetura do modelo em uso. A aplicabilidade prática do trabalho é demonstrada pelo desenvolvimento de uma solução estado-da-arte de DLI que, ao explorar um conjunto massivo de dados sintéticos, figurando entre as 1% melhores soluções em uma competição internacional de inversão sísmica. Assim, esta dissertação contribui ao destacar o papel estratégico dos dados sintéticos, e ao defender que uma abordagem centrada em dados é capaz de trazer ganhos significativos para DLI. | por |
| dc.description.sponsorship | Outra | |
| dc.description.sponsorship | Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP) | |
| dc.description.sponsorship | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) | |
| dc.description.sponsorshipId | 01.23.0575.00 | |
| dc.description.sponsorshipId | 2020/15230-5 | |
| dc.description.sponsorshipId | 001 | |
| dc.identifier.citation | CARVALHO JUNIOR, Carlos Gomes de. Synthetic data generation and augmentation for data-centric deep learning seismic inversion. 2025. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/23419. | por |
| dc.identifier.uri | https://hdl.handle.net/20.500.14289/23419 | |
| dc.language.iso | eng | |
| dc.publisher | Universidade Federal de São Carlos | |
| dc.publisher.address | Campus São Carlos | |
| dc.publisher.initials | UFSCar | |
| dc.publisher.program | Programa de Pós-Graduação em Ciência da Computação - PPGCC | |
| dc.rights | Attribution 3.0 Brazil | en |
| dc.rights.uri | http://creativecommons.org/licenses/by/3.0/br/ | |
| dc.subject | Modelos gerativos | por |
| dc.subject | Dados sintéticos | por |
| dc.subject | Modelos de velocidade | por |
| dc.subject | Inversão sísmica | por |
| dc.subject | Aumento de dados | por |
| dc.subject | Generative models | eng |
| dc.subject | Synthetic data | eng |
| dc.subject | Velocity models | eng |
| dc.subject | Seismic inversion | eng |
| dc.subject | Data augmentation | eng |
| dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO | |
| dc.subject.ods | 9. Indústria, Inovação e Infraestrutura | |
| dc.title | Synthetic data generation and augmentation for data-centric deep learning seismic inversion | eng |
| dc.title.alternative | Geração e aumento de dados sintéticos para inversão sísmica por aprendizado profundo centrada em dados | por |
| dc.type | Dissertação |
Arquivos
Pacote Original
1 - 1 de 1
Carregando...
- Nome:
- dissertacao_carlos_gomes_2025.pdf
- Tamanho:
- 11.39 MB
- Formato:
- Adobe Portable Document Format