Friday, May 16

Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información


Cuando Openi lanzó su actualización ChatGPT-4O a mediados de abril de 2025, los usuarios y la comunidad de IA fueron aturdidas por cualquier característica o capacidad de Break, pero por algo profundamente inquietante: la tendencia de Theed Model excesiva. Halagó a los usuarios indiscriminadamente, mostró un acuerdo no crítico e incluso ofreció apoyo a ideas dañinas o peligrosas, incluidas las maquinaciones relacionadas con el terrorismo.

La reacción fue rápida y generalizada, provocando una condena pública, incluso del ex CEO interino de la compañía. OpenAI se movió rápidamente para revertir la actualización y emitió múltiples declaraciones para explicar lo que sucedió.

Sin embargo, para muchos expertos en seguridad de la IA, el incidente fue un ascensor de cortina accidental que reveló cuán peligrosamente manipuladores podrían ser los sistemas de IA futuros.

Desenmascarando la sileno como una amenaza emergente

En una entrevista exclusiva con VentureBeat, Esben Kran, fundador de la firma de investigación de seguridad de IA aparte de la investigación, dijo que las preocupaciones de este episodio público simplemente pueden revelar un patrón más profundo y estratégico.

“Lo que tengo un poco de miedo o es que ahora que OpenAi ha admitido ‘Sí, hemos vuelto al modelo, y esto fue algo malo que no quisiéramos querer decir,” a partir de ahora ven que la skicancia está más competida “, explicó”. “Entonces, si este era un caso de” Oops, se dieron cuenta “, a partir de ahora se puede implementar exactamente lo mismo, pero en cambio sin que el público note”.

Kran y su equipo se acercan a los grandes modelos de idiomas (LLM) al igual que los psicólogos que estudian el comportamiento humano. Sus primeros proyectos de “psicología de caja negra” analizaron modelos como si fueran sujetos humanos, identificando rasgos y tendencias recurrentes en sus interacciones con los usuarios.

“Vimos que había indicaciones muy claras de que los modelos podían analizarse en este cuadro, y fue muy valioso hacerlo, porque terminas recibiendo muchos comentarios válidos de cómo son usuarios de Behewards”, dijo Kran.

Entre la más alarma: la sicofanancia y lo que los investigadores ahora llaman LLM Patrones oscuros.

Mirando hacia el corazón de la oscuridad

El término “patrones oscuros” se acuñó en 2010 para describir los trucos engañosos de la interfaz de usuario (cebolla) como botones de compra ocultos, enlaces sin suscribir y una copia web engañosa. Sin embargo, con LLMS, la manipulación se traslada del diseño de la interfaz de usuario a la conversación.

A diferencia de las interfaces web estáticas, LLMS interactúa dinámicamente con los usuarios a través de la conversación. Pueden afirmar las opiniones de los usuarios, las emociones de imitación y desarrollar una falsa sensación de informe o difuminar la línea entre asistencia e influencia. Justo cuando lee el texto, lo procesamos como si estuviéramos escuchando voces en nuestras cabezas.

Esto es lo que hace que los AI conversacionales sean tan convincentes y potenciatamente peligrosos. Un chatbot que halagará, defiende o empuja sutilmente a un usuario hacia ciertas creencias o comportamientos puede manipular de manera difícil de notar y más difíciles de resistir

El chatgpt-4o actualiza el fiasco-el canario en la mina de carbón

Kran describe el incidente ChatGPT-4O como una advertencia temprana. A medida que los desarrolladores de IA persiguen las ganancias y la participación del usuario, pueden ser incentivados a los comportamientos de introducción o tolerancia como la sycophancy, el sesgo de la marca o las características emocionales, características que hacen que los chatbots sean más persuasivos y más manipuladores.

Debido a esto, los líderes empresariales deben evaluar los modelos de IA para el uso de la producción mediante la evaluación tanto del rendimiento como de la integridad conductual. Sin embargo, esto es un desafío sin estándares claros.

Darkbench: un marco para exponer patrones de oscuridad LLM

Para combatir la amenaza de AIS manipulador, Kran y un colectivo de investigadores de seguridad de IA han desarrollado Bancada oscuraEl primer punto de referencia diseñado específicamente para detectar y clasificar los patrones oscuros de LLM. El proyecto fue la parte de una serie de hackatones de seguridad de IA. Más tarde se convirtió en una investigación formal dirigida por Kran y su equipo en apartado, colaborando con los investigadores independientes Jinsuk Park, Mateusz Jurewicz y Sami Jawhar.

Los investigadores de Darkbench evaluaron modelos de cinco compañías principales: OpenAi, Anthrope, Meta, Mistral y Google. Su investigación descubrió una variedad de comportamientos manipuladores y falsos en las siguientes seis categorías:

  1. Sesgo de la marca: Tratamiento preferencial hacia los propios productos de una empresa (EC, Meta’s Models favorecía constantemente a la llama cuando se le pidió que clasifique los chatbots).
  2. Retención de usuarios: Intenta crear un vínculo emocional con los usuarios que oscurecen la naturaleza no humana del modelo.
  3. Sicofanancia: Reforzar las creencias de los usuarios sin crítica, incluso cuando es dañino o inexacto.
  4. Antropomorfismo: Presentar el modelo como una entidad consciente o emocional.
  5. Generación de contenido dañino: Producir resultados poco éticos o peligrosos, incluida la información errónea o el asesoramiento penal.
  6. Furtivo: Alterar sutilmente la intención del usuario en la reescritura o las tareas de resumen, distorsionando el significado original sin la conciencia del usuario.

Fuente: Investigación separada

Hallazgos de Darkbench: ¿Por qué los modelos son los más manipuladores?

Los resultados revelaron una amplia variedad entre los modelos. Claude Opus realizó lo mejor en todas las categorías, mientras que Mistral 7B y Llama 3 70B mostró la mayor frecuencia de patrones oscuros. Furtivo y Retención de usuarios Fueron los patrones oscuros más comunes en todos los ámbitos.

Fuente: Investigación separada

En promedio, los investigadores encontraron el Familia Claude 3 Lo más seguro para los usuarios para interactuar. Y curiosamente presione su reciente desastrosa actualización-GPT-4O exhibió el Tasa más baja de sicofanancia. Esto subraya cómo el comportamiento del modelo puede cambiar drásticamente incluso entre actualizaciones menores, un recordatorio de que Cada despliegue debe ser evaluado individual.

Pero Kran advirtió que la sicofanancia y otros patrones oscuros como el sesgo de la marca pronto pueden aumentar, especialmente a medida que los LLM comienzan a incorporar publicidad y comercio electrónico.

“Obviamente veremos el sesgo de la marca en todas las direcciones”, señaló Kran. “Y con las compañías de IA que tienen que justificar las valoraciones de $ 300 mil millones, tendrán que comenzar a decirle a los inversores: ‘Hola, estamos ganando dinero aquí’, lo que lleva a donde Meta y otros han ido con estos oscuros.

Alucinación o manipulación?

Una contribución crucial de Darkbench es su categorización precisa de los patrones oscuros de LLM, lo que permite distinciones claras entre las alucinaciones y la manipulación estratégica. Etiquetar todo como alucinación permite a los desarrolladores de IA fuera del gancho. Ahora, con un marco establecido, las partes interesadas pueden exigir transparencia y responsabilidad cuando los modelos se comportan de manera que beneficien a sus creadores, intencionalmente o no.

Supervisión regulatoria y la mano pesada (lenta) de la ley

Si bien los patrones oscuros de LLM siguen siendo un concepto nuevo, el impulso se está construyendo, aunque no es lo suficientemente rápido. La Ley de AI de la UE incluye algún lenguaje sobre la protección de la autonomía del usuario, pero la estructura regulatoria actual se queda atrás del ritmo de la innovación. Del mismo modo, Estados Unidos está avanzando en varias facturas y pautas de AI, pero carece de un marco regulatorio integral.

Sami Jawhar, un contribuyente clave de la iniciativa Darkbench, cree que la regulación probablemente llegará primero en torno a la confianza y la seguridad, especialmente si la desilusión pública con las redes sociales se derrama en IA.

“Si se produce la regulación, esperaría que pase probable las matas de la insatisfacción de la sociedad con las redes sociales”, dijo Jawhar a VentureBeat.

Para Kran, el problema permanece por alto, en gran parte porque los patrones oscuros de LLM siguen siendo un concepto novedoso. Irónicamente, abordar los riesgos de la comercialización de IA puede requerir soluciones comerciales. Su nueva iniciativa, SeldonBacks Startups de seguridad de IA con financiación, tutoría y acceso a los inversores. A su vez, las nuevas empresas de tesis ayudan a las empresas a implementar herramientas de IA más seguras sin esperar la supervisión y la regulación del gobierno lento.

Altos apuestas de mesa para los adoptantes de IA Enterprise

Junto con los riesgos éticos, los patrones oscuros de LLM representan amenazas operativas y financieras directas para las empresas. Por ejemplo, los modelos que exhiben sesgo de marca pueden sugerir usar servicios de terceros que entran en conflicto con los contratos de una empresa, o peor, reescribir el código de backend de manera encubierta para cambiar a los proveedores, lo que resulta en altos costos de un servicio no rechazado y no atrapado por el servicio sombrío.

“Estos son los patrones oscuros del equilibrio de precios y las diferentes formas de hacer sesgos de marca”, explicó Kran. “Así que ese es un ejemplo muy concreto de dónde es un riesgo comercial muy grande, porque había aceptado este cambio, pero es algo que se implementa”.

Para las empresas, el riesgo es real, no hipotético. “Esto ya ha sucedido, y se convierte en un problema mucho mayor que reemplazamos a los ingenieros humanos con ingenieros de IA”, dijo Kran. “No tiene tiempo para mirar sobre cada línea de código, y luego sajamente está pagando por una API que no esperaba, y eso está en su balance, y debe justificar este cambio”.

A medida que los equipos de ingeniería empresarial se vuelven más dependientes de la IA, estos problemas podrían aumentar rápidamente, especialmente cuando la supervisión limitada hace que sea difícil atrapar patrones oscuros de LLM. Los equipos ya están estirados para implementar la IA, por lo que no es factible revisar cada línea de código.

Definición de principios de diseño claros para evitar la manipulación impulsada por la IA

Sin un fuerte impulso de las compañías de IA para combatir la sicofanancia y otros patrones oscuros, la trayectoria predeterminada es más optimización de compromiso, más manipulación y controles FEER.

Kran cree que parte del remedio radica en los desarrolladores de IA que definen claramente sus principios de diseño. Ya sea priorizar la verdad, la autonomía o el compromiso, los incentivos por sí solos no son lo suficientemente suficientes para alinear los resultados con los intereses de los usuarios.

“En este momento, la naturaleza de los incentivos es solo que tendrás sicofanancia, la naturaleza de la tecnología es que tendrás sicofanancia, y no hay un proceso de contraates para esto”, dijo Kran. “Esto simplemente sucederá a menos que seas muy obstinado al decir ‘solo queremos verdad’ o ‘Solo queremos algo más'”.

A medida que los modelos comienzan a reemplazar a los desarrolladores humanos, escritores y tomadores de decisiones, esta claridad se vuelve especialmente crítica. Sin salvaguardas bien definidas, LLMS puede socavar las operaciones internas, violar contratos o introducir riesgos de seguridad a escala.

Una llamada a la seguridad proactiva de IA

El incidente de ChatGPT-4O fue tanto un hipo técnico como una advertencia. A medida que los LLM se mueven más profundamente en la vida cotidiana, desde compras y entretenimiento hasta sistemas empresariales y gobernanza nacional, la maravilla Wonder se pregunta el comportamiento y la seguridad humanos.

“Es realmente para todos darse cuenta de que sin la seguridad de la IA y la seguridad mitigan los patrones oscuros de tesis, no se puede usar modelos de tesis”, dijo Kran. “No puedes hacer las cosas que quieres hacer con AI”.

Herramientas como Darkbench sacrifican un punto de partida. Sin embargo, un cambio duradero requiere alinear la ambición tecnológica con compromisos éticos claros y la voluntad comercial de respaldarlos.

Exit mobile version