Feature Engineering para Detecção de Fraudes: Transformando Dados Brutos em Inteligência
Por que Feature Engineering Decide o Sucesso
Em detecção de fraudes, um modelo XGBoost com features bem projetadas supera redes neurais com features brutas. Features brutas (valor da transação, hora, comerciante) capturam pouco contexto. Features engineered (desvio do ticket médio do usuário nas últimas 24h, número de países distintos nas últimas 48h, razão entre transação e limite de crédito) capturam comportamento anômalo de forma muito mais eficaz. Feature engineering é onde o conhecimento de domínio se traduz em vantagem de performance.
📊 Feature Engineering em Antifraude — 2025
Categorias de Features para Antifraude
Features de valor: diferença entre transação atual e média histórica do usuário; razão com limite disponível; comparação com ticket médio do comerciante. Features temporais: hora do dia, dia da semana, tempo desde última transação, velocidade (N transações em X minutos). Features de localização: distância geográfica entre transações consecutivas (impossível viagem), país de IP vs país do cartão. Features de comportamento: sequências de compra incomuns, categorias de comerciante nunca usadas anteriormente. Features de rede: conexões entre dispositivos, cartões e endereços compartilhados.
Features de Velocidade
N transações em X minutos: 5 transações em 2 minutos é um forte sinal de fraude. Calcule em janelas temporais múltiplas (5min, 1h, 24h).
Geolocalização
“Impossível Travel”: compra em São Paulo às 14h e em Tóquio às 15h é fisicamente impossível — feature binária poderosa.
Desvio do Padrão Histórico
(Valor atual – média últimos 30d) / std. Desvio grande em relação ao comportamento histórico do usuário é forte preditor.
Features de Grafo
Quantos cartões usaram o mesmo dispositivo? Quantos dispositivos usou o mesmo endereço? Fraude em anel tem subgrafos densos.
Features de Merchant
Razão de fraudes históricas do comerciante; volume de transações incomum; categoria MCC nunca usada pelo usuário.
Features de Texto
Email domain (gmail vs corporativo); nome do beneficiário similar a outros fraudadores conhecidos; NLP em campo de descrição.
⚠️ Armadilhas no Feature Engineering para Fraude
Features que usam informações “do futuro” (ex: se a conta foi bloqueada depois) criam modelos impossíveis de deployar. Valide temporalidade.
Features baseadas em médias históricas ficam desatualizadas. Use Feature Store com TTL e refrescamento automático.
Features que requerem joins complexos em horas no DW não servem para scoring sub-100ms. Pré-compute em Feature Store online.
Features muito correlacionadas (X e log(X)) desperdiçam recursos e podem confundir interpretação de importância. Use correlação matrix para filtrar.
No antifraude, a diferença entre 99% e 99.9% de acurácia pode significar milhões de dólares em perdas. Cada feature conta.
— iSecPlus Data Science Team, 2026
Feature Store para Antifraude em Tempo Real
Serving de features em tempo real (<10ms) é o desafio técnico central do antifraude. A solução é Feature Store com camada online: Feast com Redis, Tecton ou Vertex AI Feature Store. Features pré-computadas são atualizadas em streaming (Kafka → Flink → Redis) e servidas em microssegundos no momento do scoring. Para features de grafo em tempo real, GraphFrames (Spark) ou NetworkX pré-computam métricas de centralidade e clusters, servidos via Redis Graph ou TigerGraph.
