Feature Engineering para Detecção de Fraudes: Transformando Dados Brutos em Inteligência

Por que Feature Engineering Decide o Sucesso

Em detecção de fraudes, um modelo XGBoost com features bem projetadas supera redes neurais com features brutas. Features brutas (valor da transação, hora, comerciante) capturam pouco contexto. Features engineered (desvio do ticket médio do usuário nas últimas 24h, número de países distintos nas últimas 48h, razão entre transação e limite de crédito) capturam comportamento anômalo de forma muito mais eficaz. Feature engineering é onde o conhecimento de domínio se traduz em vantagem de performance.

📊 Feature Engineering em Antifraude — 2025

60%

da melhora de performance vem de feature engineering

300+

features típicas em sistemas antifraude enterprise

<100ms

latência exigida para scoring de transação em tempo real

Feast

feature store open source mais usado em produção

Categorias de Features para Antifraude

Features de valor: diferença entre transação atual e média histórica do usuário; razão com limite disponível; comparação com ticket médio do comerciante. Features temporais: hora do dia, dia da semana, tempo desde última transação, velocidade (N transações em X minutos). Features de localização: distância geográfica entre transações consecutivas (impossível viagem), país de IP vs país do cartão. Features de comportamento: sequências de compra incomuns, categorias de comerciante nunca usadas anteriormente. Features de rede: conexões entre dispositivos, cartões e endereços compartilhados.

⏱️

Features de Velocidade

N transações em X minutos: 5 transações em 2 minutos é um forte sinal de fraude. Calcule em janelas temporais múltiplas (5min, 1h, 24h).

📍

Geolocalização

“Impossível Travel”: compra em São Paulo às 14h e em Tóquio às 15h é fisicamente impossível — feature binária poderosa.

📈

Desvio do Padrão Histórico

(Valor atual – média últimos 30d) / std. Desvio grande em relação ao comportamento histórico do usuário é forte preditor.

🕸️

Features de Grafo

Quantos cartões usaram o mesmo dispositivo? Quantos dispositivos usou o mesmo endereço? Fraude em anel tem subgrafos densos.

🏪

Features de Merchant

Razão de fraudes históricas do comerciante; volume de transações incomum; categoria MCC nunca usada pelo usuário.

🔤

Features de Texto

Email domain (gmail vs corporativo); nome do beneficiário similar a outros fraudadores conhecidos; NLP em campo de descrição.

⚠️ Armadilhas no Feature Engineering para Fraude

⚠️ Data Leakage

Features que usam informações “do futuro” (ex: se a conta foi bloqueada depois) criam modelos impossíveis de deployar. Valide temporalidade.

⚠️ Feature Staleness

Features baseadas em médias históricas ficam desatualizadas. Use Feature Store com TTL e refrescamento automático.

⚠️ Features Não Atualizáveis em Tempo Real

Features que requerem joins complexos em horas no DW não servem para scoring sub-100ms. Pré-compute em Feature Store online.

⚠️ Correlação Alta Entre Features

Features muito correlacionadas (X e log(X)) desperdiçam recursos e podem confundir interpretação de importância. Use correlação matrix para filtrar.

No antifraude, a diferença entre 99% e 99.9% de acurácia pode significar milhões de dólares em perdas. Cada feature conta.

— iSecPlus Data Science Team, 2026

Feature Store para Antifraude em Tempo Real

Serving de features em tempo real (<10ms) é o desafio técnico central do antifraude. A solução é Feature Store com camada online: Feast com Redis, Tecton ou Vertex AI Feature Store. Features pré-computadas são atualizadas em streaming (Kafka → Flink → Redis) e servidas em microssegundos no momento do scoring. Para features de grafo em tempo real, GraphFrames (Spark) ou NetworkX pré-computam métricas de centralidade e clusters, servidos via Redis Graph ou TigerGraph.

Feature Engineering para Detecção de Fraudes: Transformando Dados Brutos em Inteligência

Por que Feature Engineering Decide o Sucesso

📊 Feature Engineering em Antifraude — 2025