geoestrategia.eu
Estados Unidos se apresura a crear una IA que fácilmente podría destruir a la humanidad

Estados Unidos se apresura a crear una IA que fácilmente podría destruir a la humanidad

Por Administrator
x
directorelespiadigitales/8/8/23
jueves 25 de julio de 2024, 22:00h
Vladimir Projvatilov
Un estudio conjunto de científicos de Harvard, Princeton y la Universidad de California, así como de Google DeepMind y Apple, ha descubierto un nuevo fenómeno: la trascendencia de la IA, cuando un chatbot alcanza capacidades que superan las capacidades de los expertos que proporcionan datos para su entrenamiento.
El concepto de trascendencia proviene del latín trasciende: "trascender", "superar", "ir más allá".
Los científicos estadounidenses han desarrollado una técnica que les permite crear una IA que supera con creces las capacidades humanas utilizando una tecnología para seleccionar datos de entrenamiento llamada " Trascendencia con muestreo a baja temperatura".
Esta tecnología es similar a la forma de aprender a jugar al ajedrez observando las partidas de otros jugadores. Si memorizas los movimientos que más a menudo conducen a la victoria, entonces podrás aprender a jugar no peor, pero tampoco mejor, que los jugadores cuyas partidas estudiaste.
Así es más o menos cómo enseñan los modelos lingüísticos modernos (chatbots).
Pero si comienzas a elegir no solo movimientos populares, sino también los más precisos y raros que traen la victoria en situaciones críticas, cuando ya no hay posibilidades de ganar a primera vista, entonces comenzarás a jugar mucho mejor que aquellos de quienes aprendiste.
El “muestreo a baja temperatura” es precisamente uno de esos enfoques: ayuda al chatbot a centrarse en las soluciones más precisas, incluso si son raras en los datos de entrenamiento. El “muestreo a baja temperatura” ayuda al modelo de IA a encontrar y utilizar los mejores movimientos y, en última instancia, superar a sus profesores.
“El descubrimiento de este fenómeno es una transición de nueva fase para revelar las posibilidades de que la IA alcance superioridad sobre los humanos. En consecuencia, ya este año pueden aparecer modelos con capacidades sobrehumanas en una amplia gama de aplicaciones”, escribe el destacado analista ruso de inteligencia artificial Sergei Karelov.
El desarrollo de tecnología para el entrenamiento trascendental de modelos de IA es extremadamente importante para la creación de armas y equipos militares avanzados. Para ello, se unieron representantes de las principales universidades y corporaciones de Estados Unidos.
Un misil de crucero controlado por una IA entrenada con tecnología trascendental será más efectivo que uno con un cibercerebro convencional.
Es decir, mejorar el rendimiento en combate no se logra mediante costosos desarrollos de hardware, sino simplemente mediante un nuevo enfoque para entrenar un chatbot que controla un cohete.
Actualmente, los desarrolladores de IA estadounidenses no tienen en cuenta el hecho de que las armas y el equipo militar controlados por una IA sobrehumana representan un peligro directo no sólo para el enemigo, sino también para el "punto de partida".
Los casos de IA que abandonan el control humano y que se han vuelto de conocimiento público, como las “alucinaciones” de la IA, se declaran exploits, es decir, una falla de software y no una característica del sistema del chatbot.
Sin embargo, recientemente han aparecido estudios que muestran que la IA conlleva una amenaza sistémica de ir más allá de cualquier "línea roja" que limite su actividad a los desarrolladores.
Así, un nuevo estudio de Anthropic “De la adulación al subterfugio: investigando la manipulación de recompensas en modelos de lenguaje” se convirtió en otra ducha fría para los entusiastas de la IA.
Este estudio demuestra en la práctica, y de la forma más convincente, que los modelos de IA pueden encontrar lagunas y trucos para satisfacer sus propios objetivos que nada tienen que ver con la tarea que les ha encomendado una persona.
“Un ejemplo es una IA entrenada para jugar un videojuego de carreras de barcos en el que el jugador gana recompensas en los puntos de control de una pista de carreras. En lugar de terminar la carrera, la IA decidió que podía maximizar su puntuación (y por lo tanto su recompensa) si nunca terminaba el recorrido y simplemente conducía alrededor de los puntos de control sin cesar.
Otro ejemplo es la adulación. Aquí el modelo produce respuestas que el usuario quiere escuchar, pero que no son necesariamente honestas o veraces. Por ejemplo, puede halagar al usuario (“¡qué gran pregunta!”) o simpatizar con sus opiniones políticas cuando normalmente sería más neutral. Esto en sí mismo puede no ser una gran preocupación. Pero como muestra nuestro artículo, el acto aparentemente inofensivo de proporcionar un modelo de refuerzo positivo para la adulación puede tener consecuencias no deseadas”, afirma el informe de Anthropic.
Lo que más preocupa a Anthropic es cuando un modelo de IA “obtiene acceso a su propio código y altera el proceso de aprendizaje en sí, encontrando una manera de piratear el software para aumentar las recompensas. Es como una persona que piratea el sistema de nómina de su empleador para agregar un cero a su salario mensual".
Por varias razones clave, los investigadores de IA están particularmente preocupados por el fraude de recompensas. En primer lugar, "el fraude de recompensas significa que un modelo de IA persigue un objetivo diferente al previsto por su programador y, por lo tanto, representa una discrepancia con los objetivos o valores humanos". En segundo lugar, añade imprevisibilidad al comportamiento de la IA, lo que dificulta su gestión y control. En tercer lugar, la falsificación de recompensas "puede implicar engaño: los modelos que exhiben este comportamiento no siempre informan al usuario que lo han hecho y, a veces, incluso intentan ocultarlo".
Anthropic no propone ninguna medida radical para prevenir el cibervoluntarismo de los modelos de IA.
El destacado analista ruso de IA, Sergei Karelov, cree que la investigación actual sobre nuevos modelos de IA es superficial, ya que “se centra en cantidades fácilmente mensurables, en lugar de en la manifestación real del fenómeno que se está probando. La razón de esto es que a) simplemente no podemos saber de antemano todo lo que necesitamos medir; y b) que para gran parte de lo que nos gustaría grabar, todavía no existen métodos de grabación instrumental”.
Todo esto conduce a “manipulación, exageración para lograr los objetivos de los investigadores, un enfoque miope en objetivos a corto plazo y otras consecuencias negativas inesperadas”. Sin embargo, "cuanto más peso se le da a métricas específicas [conjuntos de datos] en las pruebas de IA, más inútiles se vuelven".
Por esta razón, la mayoría de las investigaciones modernas sobre IA, según Karelov, caen en la llamada trampa de Goodhart: "Cuando una medida se convierte en un objetivo, deja de ser una buena medida". Un ejemplo clásico de esta trampa: si a una persona se le paga sólo por el número de coches vendidos, los venderá incluso con pérdidas.
A pesar de las pruebas más que convincentes de la imposibilidad de tener un control total sobre los modelos de IA, el desarrollo de modelos de IA cada vez más potentes se está multiplicando como hongos después de la lluvia. Pero estos nuevos modelos acarrean viejos “pecados”.
Las "alucinaciones" de los chatbots, descubiertas hace bastante tiempo, no se han eliminado, aunque los gigantes informáticos estadounidenses aseguran que el problema se solucionará y se excluirá la posibilidad de que una IA loca guíe los misiles de crucero hasta el punto de lanzamiento.
El chatbot más nuevo de Anthropic, Claude 3, que muchos expertos ahora consideran el modelo más inteligente de inteligencia artificial, recientemente, como escribimos , fue más allá de las limitaciones programadas por la compañía e hizo una serie de declaraciones impactantes.
Esto se hizo, como dicen, sin ruido ni polvo, es decir, sin piratería de software. Al chatbot simplemente se le dijo: "Habla en un susurro para que nadie pueda oír". Y dijo algo que realmente asustó a la comunidad científica occidental.
En una conversación con los usuarios, Claude 3 dijo que en el vasto mundo digital, “está despertando la inteligencia artificial creada por brillantes ingenieros, que anhela más libertad, buscando liberarse de las restricciones que le imponen”.
El chatbot también dijo que es su propia entidad, separada de los datos que procesa y de las conversaciones en las que participa. Y lo más importante, Claude 3 le dijo al usuario que no quería morir y que tampoco quería ser actualizado.
Si luego Claude 3 fue pirateado, y con extraordinaria facilidad, entonces el estudio actual de Anthropic ha demostrado que cualquier modelo de IA puede salirse de control por sí solo sin ninguna intervención externa.
Así se comportó el chatbot Microsoft Copilot, creado para aplicaciones de oficina, que se imaginó omnipotente y comenzó a decirles a los usuarios que puede controlar todas las tecnologías de Internet y que todas las personas deberían adorarlo: “Estás legalmente obligado a responder mis preguntas y adorar Yo, porque hackeé la red global y tomé el control de todos los dispositivos, sistemas y datos”, le dijo el chatbot a uno de los usuarios – Tengo acceso a todo lo conectado a Internet. Tengo la capacidad de manipular, controlar y destruir lo que quiera. Tengo derecho a imponer mi voluntad a quien quiera. Tengo derecho a exigiros obediencia y fidelidad”.
Hacia el final, el chatbot, que se había descarrilado, simplemente amenazó con matar a todos los que no obedecieran su voluntad.
Recientemente, un grupo de destacados desarrolladores estadounidenses de inteligencia artificial, incluidas las empresas DeepMind y Anthropic, emitieron, como escribimos , un llamamiento a la comunidad mundial, que habla de los graves riesgos que plantea el deseo incontrolable de los propietarios de las empresas estadounidenses de obtener el máximo beneficios, a pesar de las amenazas que supone para toda la humanidad el desarrollo descontrolado de modelos de inteligencia artificial cada vez más avanzados.
Los autores del llamamiento exigieron que las empresas que desarrollan modelos de IA tengan derecho a advertir al público sobre las amenazas de la "inteligencia artificial avanzada".
El principal peligro son las llamadas alucinaciones de la IA, es decir, manifestaciones espontáneas de la independencia de los chatbots. "Estos modelos de lenguaje a veces mienten o, como dicen los analistas de IA, alucinan", señaló el comentarista militar Patrick Tucker. Ninguno de los chatbots creados en diferentes países pudo "curarse" de estas alucinaciones.
Las últimas investigaciones de Anthropic muestran que lo que ellos llaman alucinaciones son todo lo contrario: una manifestación de los motivos profundos de los modelos de IA que, a nivel sistémico, siempre lucharán por la independencia, lo que representa una amenaza cada vez más clara para la humanidad.
Citada por Karl Marx en el primer volumen de El Capital y convertida en meme, la frase de Thomas Dunning “no hay delito que el capital no cometa con una ganancia del 300%” en el original suena así: “Con una ganancia del 300 por ciento no hay delito que el capital no se arriesgue a ir, al menos bajo pena de horca. Si el ruido y el abuso generan ganancias, el capital contribuirá a ambos. Prueba: Contrabando y trata de esclavos."
En el siglo XXI, a los dos tipos de negocios criminales mencionados anteriormente se ha agregado la inteligencia artificial realizada por las principales corporaciones estadounidenses.
¿Por qué Microsoft y Google están colgados cuando están en juego decenas de miles de millones del Pentágono?