ETL_LLM_MODELS_SCD2025 🔄

Explorando IA Generativa em um Pipeline de ETL com Python / Exploring Generative AI in a Python-based ETL Pipeline

Pipeline completo: extração de dados de API → geração de mensagens com LLM → atualização de usuários, tudo gerenciado via ambiente pixi. / Full pipeline: extracting data from API → generating personalized messages with an LLM → updating user records — all managed via pixi environment.

📚 Sumário / Table of Contents

Visão Geral / Overview
Arquitetura do Projeto / Project Structure
Tecnologias / Technologies
Instalação & Execução / Installation & Running
Fluxo ETL / ETL Pipeline Flow

🎯 Visão Geral / Overview

Este repositório é um exemplo prático de como combinar:

Leitura de dados brutos (IDs de usuários)
Consulta a API REST para obtenção de perfis
Uso de um modelo de linguagem local (via Ollama) para gerar conteúdo personalizado (mensagens de marketing)
Atualização dos perfis via API (método PUT)
Tudo dentro de um ambiente isolado e reprodutível gerenciado por Pixi

Objetivo: demonstrar um pipeline simples, mas completo, unindo engenharia de dados e IA generativa, com reprodutibilidade e clareza.

📁 Arquitetura do Projeto / Project Structure

ETL_LLM_MODELS_SCD2025/
│
├── data/                      # Dados de entrada (IDs de usuários)
│   └── SDW2023.csv
│
├── notebook/                  # Notebook principal com o pipeline ETL
│   └── SantanderScienceData2025.ipynb
│
├── pixi.toml                  # Configuração do ambiente (dependências, versão Python, etc.)
├── pixi.lock                  # Lockfile auto gerado
├── .gitignore
├── .gitattributes
└── README.md                  # Documentação do projeto

🧰 Tecnologias / Technologies

Ambiente: Pixi — isolamento e reprodutibilidade
Linguagem: Python 3.14+
Bibliotecas: pandas, requests, ollama, ipykernel
Modelo de IA: gpt-oss:120b-cloud (via Ollama)
Formato: Notebook Jupyter — fácil visualização e execução célula-a-célula

⚙️ Instalação & Execução / Installation & Running

Clone o repositório

git clone https://github.com/Ogarit/ETL_LLM_MODELS_SCD2025.git
cd ETL_LLM_MODELS_SCD2025

Instale as dependências via Pixi
```
pixi install
```
Abra o notebook em /notebook/ e execute célula a célula.
Certifique-se de ter o modelo LLM disponível no Ollama
```
ollama pull gpt-oss:120b-cloud
```
O pipeline é executado e usuários são atualizados automaticamente pela API.

🔁 Fluxo ETL / ETL Pipeline Flow

Diagrama de alto nível

+-----------+     GET     +-----------------+     LLM     +---------------------+     PUT     +-----------------+
| data/CSV  | ─────────>  | API (user get)  | ─────────> | Generative AI (LLM) | ─────────> | API (user put)  |
| (user_id) |             | retorna perfil  |           | gera mensagem       |           | atualiza user   |
+-----------+              +-----------------+            +--------------------+           +----------------+

Explicação das etapas

Fase	Descrição
Extract	Leitura de `user_id` do CSV e requisições GET à API REST para obter perfil completo do usuário.
Transform	Para cada usuário, invoca o modelo LLM para gerar uma mensagem curta (≤ 100 caracteres) personalizada para marketing.
Load	Atualiza cada perfil via requisição PUT, anexando a mensagem gerada ao campo `news`.

Esse fluxo segue o padrão clássico de ETL: extração → transformação → carregamento, permitindo modularidade e clareza no processo.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

ETL_LLM_MODELS_SCD2025 🔄

Explorando IA Generativa em um Pipeline de ETL com Python / Exploring Generative AI in a Python-based ETL Pipeline

📚 Sumário / Table of Contents

🎯 Visão Geral / Overview

📁 Arquitetura do Projeto / Project Structure

🧰 Tecnologias / Technologies

⚙️ Instalação & Execução / Installation & Running

🔁 Fluxo ETL / ETL Pipeline Flow

Diagrama de alto nível

Explicação das etapas

About

Uh oh!

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
data		data
notebook		notebook
.gitattributes		.gitattributes
.gitignore		.gitignore
README.md		README.md
pixi.lock		pixi.lock
pixi.toml		pixi.toml

Ogarit/ETL_LLM_MODELS_SCD2025

Folders and files

Latest commit

History

Repository files navigation

ETL_LLM_MODELS_SCD2025 🔄

Explorando IA Generativa em um Pipeline de ETL com Python / Exploring Generative AI in a Python-based ETL Pipeline

📚 Sumário / Table of Contents

🎯 Visão Geral / Overview

📁 Arquitetura do Projeto / Project Structure

🧰 Tecnologias / Technologies

⚙️ Instalação & Execução / Installation & Running

🔁 Fluxo ETL / ETL Pipeline Flow

Diagrama de alto nível

Explicação das etapas

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages