Proposta de Pesquisa · UEL 2025

Automação do workflow
DICE + Gaussian
em química computacional

Uma ferramenta Python open-source para integrar simulação Monte Carlo de solvatação explícita com cálculos quânticos — da geração de inputs até a análise espectral comparativa.

Proponente Jonas Capelasso Lucas Pinheiro
Instituição Universidade Estadual de Londrina
Área Química Computacional · Espectroscopia
Base publicada J. Mol. Structure, 2024 — EP/NP
continuar

O trabalho científico está
enterrado em trabalho mecânico

O workflow de simulação de solvatação por Monte Carlo sequencial + DFT é metodologicamente robusto e produz resultados de alta qualidade — mas exige um número elevado de etapas manuais que consomem tempo desproporcional ao seu valor científico.

~80%
Trabalho operacional
Estimativa do tempo gasto em tarefas repetíveis: geração de inputs, transferência de arquivos, extração de dados, montagem de tabelas.
Métodos por molécula
HF, B3LYP, CAM-B3LYP e M06-2X — cada um exige simulações separadas em três configurações: in vacuo, PCM e solvente explícito.
Replicabilidade manual
Cada nova molécula recomeça o processo do zero, com o mesmo conjunto de etapas manuais não documentadas e propensas a erro.

No artigo publicado em 2024 sobre epinefrina e norepinefrina no Journal of Molecular Structure, cada molécula exigiu: otimização inicial, replicação de inputs para 4 métodos × 3 configurações, simulação Monte Carlo no DICE com 80.000 passos de termalização + 80.000 passos de amostragem, seleção da shell de hidratação via RDF, cálculos de ponto único no Gaussian, extração manual de frequências e montagem das tabelas comparativas. Esse ciclo se repete integralmente a cada novo sistema estudado.

Um pipeline que deixa o pesquisador
fazer ciência

A proposta é construir uma ferramenta Python que automatize todas as etapas operacionais, entregando ao pesquisador apenas as decisões que exigem julgamento científico.

Manual hoje
Automatizável
Permanece humano (ciência)
Manual
Otimização de geometria inicial
Edição manual do .gjf, submissão no cluster, download do resultado.
Automático
Geração de inputs em batch
Templates para todos os métodos (HF, B3LYP, CAM-B3LYP, M06-2X) × configurações (in vacuo, PCM, SP), com scripts de submissão SLURM/PBS prontos.
Automático
Preparação dos inputs DICE
Leitura das cargas CHELPG do Gaussian, montagem da caixa de solvatação com condições periódicas, geração do input MC automaticamente.
Automático
Seleção da shell de solvatação via RDF/MDDF
Processamento do output do DICE, cálculo automático das funções de distribuição radial, seleção das moléculas de solvente pelo critério de distância mínima (2.5 Å).
Automático
Extração e processamento dos outputs .log
Frequências, Raman activities, IR intensities, energias SCF — com aplicação automática dos scaling factors por método.
Automático
Geração de tabelas e espectros comparativos
Tabelas Excel (formato das tabelas A.3/A.4 e B.5 do artigo) e espectros simulados com broadening Lorentziano/Gaussiano, prontos para publicação — sem Origin.
Científico
Atribuição dos modos vibracionais
Identificação dos shifts, correlação com grupos funcionais, interpretação das interações de ligação de hidrogênio.
Científico
Discussão e escrita do manuscrito
Com os resultados organizados e os espectros prontos, o tempo do pesquisador vai para onde o valor é gerado.

A lacuna existe
e está documentada

Uma busca sistemática na literatura e no arXiv identificou as principais ferramentas existentes para automação espectroscópica computacional. Nenhuma cobre o workflow específico DICE + Gaussian com solvatação explícita sequencial.

Ferramenta Raman/IR auto Gaussian Monte Carlo (DICE) Solvatação explícita sequencial Open-source
THeSeuSS (arXiv 2024)
cclib parcial
dlmontepython DL_MONTE
py-MCMD GOMC
Esta proposta ✓ DICE
Lacuna identificada

O THeSeuSS confirma que ferramentas de automação espectroscópica têm espaço em journals de alto impacto — foi publicado no WIREs Computational Molecular Science (2025). O diferencial desta proposta é justamente o que nenhuma ferramenta existente oferece: integração nativa com o DICE, processamento de RDF/MDDF para seleção de shell, e o workflow completo de solvatação explícita sequencial — metodologia em que o grupo tem expertise comprovada e publicada.

Dois produtos
de uma só pesquisa

A estratégia mais eficiente é construir o pipeline em paralelo ao próximo estudo de solvatação. O artigo principal reporta os resultados científicos do novo sistema; um segundo produto descreve a ferramenta.

★ Caminho principal
Artigo de aplicação + seção metodológica
Pipeline construído e validado durante o próximo estudo. A ferramenta entra como contribuição metodológica no Methods, com disponibilização do código. J. Mol. Structure, Spectrochim. Acta, J. Chem. Phys.
Caminho paralelo
Journal of Open Source Software
Artigo curto focado na ferramenta. Exige código aberto no GitHub, documentação, testes e caso de uso demonstrado. Alta visibilidade na comunidade de química computacional.
Alternativa
SoftwareX (Elsevier)
Artigo de software com descrição técnica e validação. Público amplo em ciências computacionais e química.
Horizonte
J. Chem. Inf. Model.
Se o pipeline for estendido para outros motores (ORCA, NWChem) e demonstrar impacto mais amplo na comunidade, journals de maior fator de impacto tornam-se viáveis.

Começa pequeno,
valida rápido

O desenvolvimento pode começar imediatamente com os dados já existentes do artigo publicado — sem necessidade de aprovação de projeto ou financiamento para as primeiras etapas.

Fase 1
MVP imediato
Parser de outputs + espectros
Lê .log do Gaussian, extrai frequências e Raman activities, aplica scaling factors, gera tabelas CSV e espectros simulados com broadening. Validação imediata contra os dados de EP/NP do artigo.
Python cclib matplotlib pandas
Fase 2
Geração de inputs
Gerador de .gjf em batch
Templates para todos os métodos e configurações. Leitura de coordenadas de outputs anteriores. Scripts de submissão para o cluster institucional.
Jinja2 argparse SLURM/PBS
Fase 3
Integração DICE
Orquestrador Monte Carlo
Prepara inputs DICE a partir do Gaussian (CHELPG → parâmetros LJ), processa outputs, calcula RDF/MDDF e seleciona automaticamente a shell de hidratação. O núcleo Fortran do DICE permanece intocado.
Python numpy subprocess
Fase 4
v1.0 pública
Documentação, testes e publicação
Pipeline completo validado num novo sistema estudado em paralelo. Repositório público, documentação e testes automatizados. Submissão do artigo de software.
GitHub pytest Read the Docs

Perguntas para
orientar a conversa