/** Texte brut pour embeddings et similarité (HTML clippé, persan, arabe, etc.). */ /** Taille d'un chunk API embedding (~2500 tokens, safe pour le persan). */ export const EMBEDDING_CHUNK_CHARS = 6000 export const EMBEDDING_CHUNK_OVERLAP = 300 /** @deprecated Utiliser le découpage multi-chunks — conservé pour compat. */ export const MAX_EMBEDDING_CHARS = EMBEDDING_CHUNK_CHARS const CLIP_FOOTER_PATTERN = /
]*>\s*[\s\S]*?<\/small>\s*<\/p>\s*$/i export function stripHtmlToPlainText(html: string): string { if (!html) return '' return html .replace(/