Move To Cloud Consulting Services

AWS Bedrock simplifie l'intégration de l'IA générative dans vos applications. Tour d'horizon des modèles disponibles, des patterns d'architecture et des bonnes pratiques de sécurité.

AWS Bedrock en 2025 : le point de départ de toute stratégie IA sur AWS

AWS Bedrock est un service entièrement managé qui donne accès aux meilleurs modèles de fondation (Foundation Models) via une API unifiée : Claude 3.5 Sonnet et Haiku d'Anthropic, Llama 3.1 de Meta, Mistral Large et Mistral 7B, Stable Diffusion pour la génération d'images, et les modèles Titan développés par Amazon. Tout cela sans gérer un seul GPU, sans configurer une infrastructure ML, et sans devoir négocier des accords commerciaux séparés avec chaque fournisseur de modèle.

En 2025, Bedrock est devenu le point d'entrée standard pour les équipes AWS qui souhaitent intégrer l'IA générative dans leurs applications. La raison est simple : le service s'intègre nativement dans l'écosystème AWS (IAM, CloudWatch, VPC, S3, Lambda) et propose des fonctionnalités avancées qui vont bien au-delà d'un simple proxy vers des APIs de modèles.

Le catalogue de modèles : choisir le bon outil pour chaque tâche

L'une des forces de Bedrock est la diversité de son catalogue. Voici un guide de sélection basé sur notre expérience :

Claude 3.5 Sonnet : le meilleur équilibre intelligence/vitesse pour le raisonnement complexe, l'analyse de code, et les tâches multi-étapes. Notre modèle par défaut pour les tâches de niveau "production".
Claude 3 Haiku : ultra-rapide et économique. Idéal pour la classification, l'extraction d'entités, et les tâches de traitement à haut débit où la latence compte.
Llama 3.1 70B : open-source, excellent pour le code. Son avantage : vous pouvez le fine-tuner sur vos données sans partager votre IP avec un éditeur tiers.
Mistral Large : très compétent en multilingue, particulièrement fort sur le français. Bon choix pour les applications à destination des marchés européens.
Amazon Titan Text : les modèles d'Amazon, optimisés pour les cas d'usage RAG et les embeddings (Titan Embeddings v2).

Pourquoi Bedrock plutôt qu'une API directe ?

La question revient souvent : pourquoi passer par Bedrock quand on peut appeler directement l'API d'Anthropic ou d'OpenAI ? Les raisons sont multiples :

Sécurité AWS-native : vos données ne quittent pas la région AWS choisie. Aucune donnée n'est transmise aux fournisseurs de modèles pour entraînement. Intégration IAM pour le contrôle d'accès granulaire.
Réseau privé : les appels Bedrock peuvent transiter exclusivement par votre VPC via des VPC Endpoints, sans jamais passer par Internet public.
Facturation unifiée : tous vos coûts LLM apparaissent sur votre facture AWS, dans les mêmes Cost Explorer et budgets que votre infrastructure.
Guardrails natifs : filtrage automatique de contenu nuisible, détection de PII, conformité RGPD — sans code supplémentaire.
Agents Bedrock : orchestration d'actions complexes avec mémoire, planification, et appels d'outils — sans framework externe comme LangChain.

Pattern RAG avec Bedrock Knowledge Bases

Le RAG (Retrieval-Augmented Generation) est le pattern le plus courant pour ancrer les réponses d'un LLM dans vos données privées. Bedrock Knowledge Bases gère l'intégralité du pipeline : ingestion des documents (S3, Confluence, Salesforce), chunking, génération d'embeddings (Titan Embeddings), stockage dans OpenSearch, et récupération au moment de l'inférence.

import boto3

bedrock_agent = boto3.client("bedrock-agent-runtime", region_name="eu-west-1")

response = bedrock_agent.retrieve_and_generate(
    input={"text": "Quelle est notre politique de remboursement ?"},
    retrieveAndGenerateConfiguration={
        "type": "KNOWLEDGE_BASE",
        "knowledgeBaseConfiguration": {
            "knowledgeBaseId": "KB_ID_ICI",
            "modelArn": "arn:aws:bedrock:eu-west-1::foundation-model/anthropic.claude-3-5-sonnet-20241022-v2:0",
            "retrievalConfiguration": {
                "vectorSearchConfiguration": {"numberOfResults": 5}
            }
        }
    }
)

print(response["output"]["text"])
# Citations sources incluses dans response["citations"]

Ce pattern est particulièrement puissant pour des chatbots documentaires, des assistants support client, ou des outils d'analyse de conformité réglementaire.

Bedrock Agents : orchestration multi-étapes

Les Agents Bedrock permettent au modèle d'exécuter des séquences d'actions de manière autonome : appels d'APIs, requêtes de bases de données, recherches dans des knowledge bases, exécution de code. Voici un exemple concret d'agent pour l'analyse d'incidents AWS :

# Définition de l'agent (via Terraform)
resource "aws_bedrockagent_agent" "incident_analyzer" {
  agent_name              = "incident-analyzer"
  foundation_model        = "anthropic.claude-3-5-sonnet-20241022-v2:0"
  instruction             = file("prompts/incident-analyzer.txt")
  idle_session_ttl_in_seconds = 600
}

# Action group : appels AWS SDK via Lambda
resource "aws_bedrockagent_agent_action_group" "cloudwatch" {
  agent_id          = aws_bedrockagent_agent.incident_analyzer.id
  action_group_name = "cloudwatch-actions"
  action_group_executor {
    lambda = aws_lambda_function.cw_tools.arn
  }
}

L'agent peut ainsi analyser automatiquement des logs CloudWatch, croiser avec l'historique des déploiements, et produire un rapport de root cause analysis structuré — une tâche qui prenait auparavant plusieurs heures à un ingénieur.

Maîtrise des coûts

Bedrock facture à la consommation de tokens. Pour maîtriser les coûts :

Prompt Caching : les portions répétitives du contexte (instructions système, documentation) peuvent être mises en cache. Réduction de coût jusqu'à 90 % sur les tokens d'entrée récurrents.
Cache sémantique applicatif : Redis ou ElastiCache pour mettre en cache les réponses aux questions identiques ou très similaires (similarité cosinus > 0.95).
Modèle tiering : utilisez Claude Haiku pour la classification et le prétraitement, Claude Sonnet pour la génération finale. Le coût par requête peut être divisé par 5.
Batch inference : pour les traitements offline, Bedrock Batch Jobs offre jusqu'à 50 % de réduction vs l'inférence en temps réel.

Sécurité et conformité enterprise

Activez AWS CloudTrail pour logger toutes les invocations Bedrock — input, output, modèle utilisé, latence
Configurez les Guardrails pour détecter les injections de prompt, filtrer les PII, et bloquer les sujets hors-périmètre
Utilisez des VPC Endpoints (Interface Endpoints) pour confiner les appels dans votre réseau privé
Appliquez des politiques IAM granulaires : bedrock:InvokeModel uniquement sur les modèles autorisés
Activez le model invocation logging vers S3 avec KMS pour répondre aux exigences d'audit

Conclusion

AWS Bedrock est aujourd'hui la voie la plus rapide et la plus sécurisée pour intégrer l'IA générative dans des applications cloud AWS. La combinaison d'un catalogue multi-modèles, de Knowledge Bases managées, d'Agents orchestrés, et d'une intégration native avec l'écosystème AWS en fait une plateforme complète — pas simplement un wrapper d'API. Pour les équipes déjà investies sur AWS, c'est le choix évident pour construire des produits IA production-ready dès aujourd'hui.

AWS Bedrock : l'IA générative au cœur de vos applications cloud