
¿Cómo se hackean los LLMs? Prompt hacking y más
Para prevenir usos indebidos, los LLMs implementan “guardarraíles” o restricciones de seguridad que les impiden generar contenido dañino, sesgado o inapropiado. Sin embargo, atacantes y entusiastas han desarrollado técnicas ingeniosas para “hackear” o jailbreakear estos modelos, es decir, para burlar sus alineamientos de seguridad y lograr que produzcan salidas prohibidas.