Tutoriales

22 de julio de 2025 • 6 min de lectura

Tutoriales 22 de julio de 2025 6 min de lectura

Guía Técnica: Implementar RAG (Retrieval-Augmented Generation) en Tu Empresa Sin Morir en el Intento

Tutorial completo sobre cómo implementar un sistema RAG empresarial. Desde la arquitectura hasta la puesta en producción, con ejemplos de código y mejores prácticas.

AIXA Team

Equipo de expertos en IA

RAG (Retrieval-Augmented Generation) se ha convertido en el estándar de facto para crear sistemas de IA que pueden trabajar con el conocimiento específico de tu empresa. En esta guía técnica, te mostramos cómo implementarlo paso a paso.

¿Qué es RAG y Por Qué Tu Empresa Lo Necesita?

RAG combina la potencia de los LLMs con tu base de conocimiento empresarial. En lugar de depender únicamente del conocimiento general del modelo, RAG busca información relevante en tus documentos antes de generar una respuesta.

Ventajas para tu negocio:

Respuestas basadas en tu información actualizada
Reducción de alucinaciones del modelo
Control total sobre las fuentes de información
Cumplimiento de privacidad (tus datos no salen de tu infraestructura)

Arquitectura de un Sistema RAG Empresarial

┌─────────────┐     ┌──────────────┐     ┌─────────────┐
│   Usuario   │────▶│  Aplicación  │────▶│   Embedder  │
└─────────────┘     └──────────────┘     └─────────────┘
                            │                     │
                            ▼                     ▼
                    ┌──────────────┐     ┌─────────────┐
                    │     LLM      │◀────│   Vector    │
                    │   (GPT-4,    │     │  Database   │
                    │   Claude)    │     │ (Pinecone,  │
                    └──────────────┘     │   Weaviate) │
                                         └─────────────┘

Implementación Paso a Paso

1. Preparación del Entorno

# requirements.txt
langchain==0.1.0
openai==1.12.0
pinecone-client==3.0.0
pypdf==3.17.0
tiktoken==0.5.2
fastapi==0.109.0
python-dotenv==1.0.0

2. Configuración Inicial

import os
from dotenv import load_dotenv
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import Pinecone
from langchain.llms import OpenAI
import pinecone

load_dotenv()

# Inicializar Pinecone
pinecone.init(
    api_key=os.getenv("PINECONE_API_KEY"),
    environment=os.getenv("PINECONE_ENV")
)

# Configurar embeddings
embeddings = OpenAIEmbeddings(
    openai_api_key=os.getenv("OPENAI_API_KEY")
)

3. Procesamiento de Documentos

from langchain.document_loaders import PyPDFLoader, TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter

def process_documents(file_paths):
    """
    Procesa documentos y los divide en chunks optimizados
    """
    documents = []
    
    for file_path in file_paths:
        if file_path.endswith('.pdf'):
            loader = PyPDFLoader(file_path)
        elif file_path.endswith('.txt'):
            loader = TextLoader(file_path)
        else:
            continue
            
        documents.extend(loader.load())
    
    # Dividir en chunks con overlap para mantener contexto
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=1000,
        chunk_overlap=200,
        length_function=len,
        separators=["\n\n", "\n", ".", "!", "?", ",", " ", ""]
    )
    
    chunks = text_splitter.split_documents(documents)
    return chunks

4. Indexación en Base de Datos Vectorial

def create_vector_store(chunks, index_name="company-knowledge"):
    """
    Crea o actualiza el índice vectorial
    """
    # Crear índice si no existe
    if index_name not in pinecone.list_indexes():
        pinecone.create_index(
            name=index_name,
            dimension=1536,  # Dimensión de OpenAI embeddings
            metric="cosine"
        )
    
    # Crear vector store
    vectorstore = Pinecone.from_documents(
        chunks,
        embeddings,
        index_name=index_name
    )
    
    return vectorstore

5. Sistema de Consultas con RAG

from langchain.chains import RetrievalQA
from langchain.prompts import PromptTemplate

def create_rag_chain(vectorstore):
    """
    Crea la cadena RAG con prompt personalizado
    """
    # Prompt optimizado para contexto empresarial
    prompt_template = """
    Eres un asistente experto de la empresa. Usa la siguiente información 
    para responder la pregunta de forma precisa y profesional.
    
    Si no tienes información suficiente, indícalo claramente.
    
    Contexto: {context}
    
    Pregunta: {question}
    
    Respuesta detallada:
    """
    
    PROMPT = PromptTemplate(
        template=prompt_template,
        input_variables=["context", "question"]
    )
    
    # Configurar el chain
    qa_chain = RetrievalQA.from_chain_type(
        llm=OpenAI(temperature=0.2),
        chain_type="stuff",
        retriever=vectorstore.as_retriever(
            search_kwargs={"k": 5}  # Recuperar 5 documentos relevantes
        ),
        chain_type_kwargs={"prompt": PROMPT},
        return_source_documents=True
    )
    
    return qa_chain

6. API REST para Producción

from fastapi import FastAPI, HTTPException
from pydantic import BaseModel
import uvicorn

app = FastAPI()

class Query(BaseModel):
    question: str
    
class Response(BaseModel):
    answer: str
    sources: list

# Inicializar el sistema al arrancar
vectorstore = None
qa_chain = None

@app.on_event("startup")
async def startup_event():
    global vectorstore, qa_chain
    # Cargar vector store existente
    vectorstore = Pinecone.from_existing_index(
        index_name="company-knowledge",
        embedding=embeddings
    )
    qa_chain = create_rag_chain(vectorstore)

@app.post("/query", response_model=Response)
async def query_knowledge(query: Query):
    try:
        result = qa_chain({"query": query.question})
        
        # Extraer fuentes
        sources = []
        for doc in result.get("source_documents", []):
            sources.append({
                "content": doc.page_content[:200] + "...",
                "metadata": doc.metadata
            })
        
        return Response(
            answer=result["result"],
            sources=sources
        )
    except Exception as e:
        raise HTTPException(status_code=500, detail=str(e))

@app.get("/health")
async def health_check():
    return {"status": "healthy"}

7. Optimizaciones para Producción

Cache de Embeddings

from functools import lru_cache
import hashlib

@lru_cache(maxsize=1000)
def get_cached_embedding(text):
    """
    Cachea embeddings para evitar llamadas repetidas a la API
    """
    text_hash = hashlib.md5(text.encode()).hexdigest()
    # Verificar si existe en cache persistente (Redis)
    cached = redis_client.get(f"embedding:{text_hash}")
    
    if cached:
        return json.loads(cached)
    
    # Generar embedding
    embedding = embeddings.embed_query(text)
    
    # Guardar en cache
    redis_client.setex(
        f"embedding:{text_hash}",
        86400,  # 24 horas
        json.dumps(embedding)
    )
    
    return embedding

Monitoreo y Métricas

from prometheus_client import Counter, Histogram, generate_latest

# Métricas
query_counter = Counter('rag_queries_total', 'Total RAG queries')
query_duration = Histogram('rag_query_duration_seconds', 'Query duration')
retrieval_relevance = Histogram('rag_retrieval_relevance', 'Relevance scores')

@app.get("/metrics")
async def metrics():
    return Response(content=generate_latest(), media_type="text/plain")

Mejores Prácticas y Consideraciones

1. Chunking Inteligente

Ajusta el tamaño de chunks según tu dominio
Mantén overlap para no perder contexto
Considera chunking semántico para mejor precisión

2. Gestión de Actualizaciones

def update_knowledge_base(new_documents):
    """
    Actualiza la base de conocimiento sin downtime
    """
    # Procesar nuevos documentos
    new_chunks = process_documents(new_documents)
    
    # Añadir al índice existente
    vectorstore.add_documents(new_chunks)
    
    # Opcionalmente, eliminar documentos obsoletos
    # vectorstore.delete(ids=obsolete_ids)

3. Seguridad y Control de Acceso

from fastapi.security import HTTPBearer, HTTPAuthorizationCredentials

security = HTTPBearer()

@app.post("/secure-query")
async def secure_query(
    query: Query,
    credentials: HTTPAuthorizationCredentials = Depends(security)
):
    # Verificar token y permisos
    user = verify_token(credentials.credentials)
    
    # Filtrar documentos según permisos del usuario
    filtered_retriever = vectorstore.as_retriever(
        search_kwargs={
            "k": 5,
            "filter": {"department": user.department}
        }
    )
    
    # Procesar query con documentos filtrados
    # ...

Costes y Escalabilidad

Estimación de Costes Mensuales

OpenAI Embeddings: ~$0.0001 por 1K tokens
Pinecone: Desde $70/mes para 5M vectores
OpenAI GPT-4: ~$0.03 por 1K tokens
Infraestructura: ~$200/mes para API en producción

Tips para Reducir Costes

Usa modelos más económicos para embeddings (e.g., text-embedding-ada-002)
Implementa cache agresivo
Filtra queries irrelevantes antes de procesar
Considera alternativas open-source como Chroma o Weaviate

Troubleshooting Común

”Las respuestas no son relevantes”

Revisa la calidad del chunking
Ajusta el número de documentos recuperados (k)
Mejora el prompt del sistema

”El sistema es lento”

Implementa cache de embeddings
Usa índices optimizados
Considera pre-computar embeddings comunes

”Costes muy altos”

Monitorea el uso de tokens
Implementa rate limiting
Usa modelos más económicos donde sea posible

Conclusión

Implementar RAG no tiene que ser complejo si sigues una arquitectura clara y buenas prácticas. Con esta guía, deberías poder tener un sistema funcional en producción en menos de una semana.

Recuerda: el éxito de RAG depende tanto de la tecnología como de la calidad de tus datos. Invierte tiempo en preparar y estructurar bien tu información.

¿Necesitas ayuda implementando RAG en tu empresa? En AIXA AI tenemos experiencia desplegando sistemas RAG en producción. Contáctanos para una consultoría técnica.

¿Te ha gustado este artículo?

Recibe más contenido como este directamente en tu correo. Guías prácticas y las últimas innovaciones en IA empresarial.

Sin spam

Datos protegidos