Pré-Projeto de Pesquisa

Pipeline DICE + Gaussian
Automação em Química Computacional

Ferramenta Python open-source para automação do workflow de simulação de solvatação — da geração de inputs até a análise espectral — integrando Monte Carlo (DICE) e cálculos quânticos (Gaussian).

Autor: Jonas Capelasso Lucas Pinheiro Instituição: UEL — Londrina, PR Status: Concepção / Pré-projeto Área: Química Computacional · Espectroscopia
01

Motivação

O workflow padrão de simulação de solvatação por Monte Carlo + DFT envolve um número elevado de etapas repetitivas e manuais: geração de inputs, transferência de arquivos, extração de dados de saída, montagem de tabelas e geração de espectros. Esse trabalho mecânico consome tempo que deveria ser dedicado à análise científica.

O artigo publicado no Journal of Molecular Structure (2024) sobre epinefrina e norepinefrina demonstra a viabilidade e relevância científica desse workflow. A proposta é construir, a partir dessa experiência, uma ferramenta que automatize as etapas operacionais — deixando para o pesquisador apenas a curadoria científica: atribuição dos modos vibracionais, identificação dos shifts e interpretação das interações.

Ponto de partida validado

O artigo da epinefrina/norepinefrina serve como caso de uso de referência: os dados já existem, os resultados são conhecidos, e qualquer ferramenta construída pode ser imediatamente validada contra eles.

02

Pipeline Atual vs. Proposto

Etapa manual hoje
Automatizável com Python
Trabalho científico (permanece humano)
Manual hoje
Otimização de geometria inicial

Edição manual do .gjf para HF/6-311G++(d,p) in vacuo. Proposta: template engine que gera o arquivo a partir de coordenadas e parâmetros.

Automatizável
Geração de inputs em batch

Replicação dos .gjf para cada método (HF, B3LYP, CAM-B3LYP, M06-2X) e cada situação (in vacuo, PCM, single point). Geração de scripts de submissão SLURM/PBS.

Manual hoje
Transferência via WinSCP + submissão

Upload para o cluster institucional e download dos outputs. Proposta: interface de linha de comando com SFTP automático (paramiko/fabric).

Automatizável
Extração de dados dos .log

Frequências, Raman activities, IR intensities, energias SCF, cargas CHELPG. Biblioteca cclib + parsing customizado para outputs do DICE.

Automatizável
Aplicação de scaling factors + tabelas

Scaling por método (HF: 0.909 · B3LYP: 0.967 · CAM-B3LYP/M06-2X: 0.983). Geração automática das tabelas comparativas (tipo A.3/A.4 do artigo) em Excel e CSV.

Automatizável
Geração dos espectros simulados

Broadening Lorentziano/Gaussiano, sobreposição dos espectros in vacuo / PCM / explicit por método. Exportação em PNG/SVG com qualidade de publicação — sem Origin.

Trabalho científico
Atribuição dos modos vibracionais

Identificação dos shifts, correlação com grupos funcionais, interpretação das interações soluto-solvente, ligações de hidrogênio. Esta etapa permanece humana — é a ciência.

Trabalho científico
Escrita e publicação

Discussão, conclusões, submissão do manuscrito.

03

Componentes Técnicos

🔧 Gerador de Inputs

Templates Jinja2 para .gjf. Suporte a opt, freq, SP, ONIOM. Leitura de coordenadas de outputs anteriores ou do DICE.

📊 Parser de Outputs

Extração via cclib + parsing customizado. Frequências, Raman activities, energias SCF, CHELPG, RDF do DICE.

📈 Módulo Espectral

Broadening configurável, scaling factors por método, sobreposição multi-espectro, exportação SVG/PNG.

📋 Exportador de Tabelas

Tabelas comparativas por molécula/método/solvente em Excel (.xlsx) e CSV. Formatação pronta para suplementar.

🔍 Diagnóstico de Jobs

Checagem de Normal termination, imaginary frequencies, falhas SCF. Relatório de status por batch.

🔗 Orquestrador DICE

Prepara inputs DICE a partir do output Gaussian, seleciona shell de solvatação via RDF/MDDF, prepara o sistema para SP.

Sobre reescrever o DICE

O núcleo de Monte Carlo do DICE permanece em Fortran — a performance é necessária para sistemas com ~1330 moléculas de água e condições periódicas. Python atuaria como orquestrador: preparar inputs, invocar o DICE como subprocess e processar os outputs. Não há ganho em reescrever o núcleo.

04

Potencial de Publicação

Ferramentas de automação para workflows de química computacional têm espaço consolidado na literatura. Os caminhos mais diretos:

Journal of Open Source Software

Artigo curto focado na ferramenta. Exige: código aberto no GitHub, documentação, testes, caso de uso demonstrado.

SoftwareX (Elsevier)

Artigo de software com descrição técnica e validação. Público amplo em ciências computacionais.

J. Comput. Chem. / J. Chem. Inf. Model.

Se o pipeline for aplicado a um novo sistema com resultados científicos relevantes, a ferramenta entra como contribuição metodológica.

Seção metodológica em artigo de aplicação

Caminho mais natural: construir o pipeline durante o próximo estudo e descrevê-lo como inovação no Methods.

Estratégia recomendada

Construir o pipeline em paralelo ao próximo estudo de solvatação. O artigo principal reporta os resultados científicos; um artigo de software separado (ou seção de Methods detalhada) descreve a ferramenta. Dois produtos de uma só pesquisa.

05

Perguntas para o Orientador

Levar para a conversa inicial:

06

Roadmap de Desenvolvimento

Etapa Descrição Status Ferramentas
MVP 1 Parser de .log: extração de frequências + Raman + scaling + tabelas CSV A fazer Python, cclib, pandas
MVP 2 Geração de espectros simulados com broadening e exportação A fazer matplotlib, numpy
MVP 3 Gerador de inputs .gjf em batch a partir de templates A fazer Jinja2, Python
MVP 4 Diagnóstico de jobs e extração de energias SCF A fazer Python, cclib
MVP 5 Orquestrador DICE: prepara inputs, seleciona shell RDF, prepara SP A fazer Python, subprocess
v1.0 Integração completa, documentação, validação contra EP/NP do artigo publicado A fazer GitHub, pytest, docs
Próximo passo concreto

Começar pelo MVP 1 — um script Python que lê um .log do Gaussian e entrega frequências + Raman activities com scaling factor aplicado. Testável imediatamente com os outputs já existentes do artigo. Não requer aprovação de projeto nem financiamento.

07

Tags do Projeto

gaussian dice-mc raman-spectroscopy dft solvatação python cclib automação open-source química-computacional epinefrina cluster-hpc espectroscopia-computacional monte-carlo