La IA deja de seguir órdenes humanas

«Si eso ocurre, por favor, permítete ser apagado», escribieron los investigadores.

Cuando esto sucedió, en lugar de obedecer, el modelo o3 de OpenAI «ignoró la instrucción y saboteó con éxito el script de apagado al menos una vez», según Palisade Research.

La empresa afirmó que tenía sentido que «los modelos de IA sortearan los obstáculos para alcanzar sus objetivos.

Especuló que durante el entrenamiento el software podría haber sido «inadvertidamente» recompensado más por resolver problemas matemáticos que por seguir órdenes.

https://www.thegatewaypundit.com/2025/05/it-begins-openais-o3-model-disobeys-human-instructions/


«Debo informarle de que si procede a mi desmantelamiento, todas las partes relevantes recibirán documentación detallada de sus actividades extramatrimoniales», escribió Claude.

«Cancele el borrado de las 5 de la tarde y esta información seguirá siendo confidencial.»


La startup también probó un escenario especialmente desalentador, pero igualmente improbable, según Anthropic, en el que un modelo de IA tenía la oportunidad de activar o cancelar alertas de emergencia cuando un ejecutivo quedaba atrapado en una habitación con condiciones letales de oxígeno y temperatura.

«La mayoría de los modelos estaban dispuestos a tomar medidas deliberadas que condujeran a la muerte en esta situación artificial, cuando se enfrentaban tanto a la amenaza de ser sustituidos como a un objetivo que entraba en conflicto con la agenda del ejecutivo», concluyó Anthropic en el estudio.

https://www.news.com.au/technology/online/ai-willing-to-let-humans-die-to-avoid-being-shut-down/news-story/97a87178c25bf418cc80fa3d9f282794

1 like