terça-feira, dezembro 23, 2025

Reseñas - Eliezer Yudkowsky e Nate Soares, If Anyone Builds It, Everyone Dies: The Case Against Superintelligent AI

Pensando na Fin do Mundo

Entre as moitas comunidades intelectuais dos Estados Unidos, hai unha que me resulta moi interesante é que se alcuma a sí mesma 'Os Racionalistas'. A comunidade racionalista é un movemento do século XXI que se formou arredor dun grupo de blogs de internet, principalmente LessWrong e Astral Codex Ten (anteriormente coñecido como Slate Star Codex), e o movemento gañou inicialmente relevancia na área da Baía de San Francisco. Os seus membros buscan empregar a racionalidade para evitar os sesgos cognitivos:  entre os intereses comúns atópanse a probabilidade, o altruísmo eficaz, o transhumanismo e a mitigación do risco existencial procedente da intelixencia artificial xeral.

Hai moitas razóns polas que me sinto atraído pola comunidade, mais en esencia redúcense ás seguintes dúas:

1) O meu valor terminal auto-percibido máis forte e máis inflexíbel é a pescuda da verdade como a actividade humana máis valiosa e significativa, cunha adhesión cuasi relixiosa, cuasi moral, a ela.

2) Coma eles, eu tamén son un friki introvertido e engulidor de libros.

Por outra banda, hai moitas cousas que me resultan menos apetecíbeis. No máis alto da lista estaría probablemente a súa afición polo poliamor (seguramente motivado porque entre outras cousas, é unha comunidade cunha ratio 5:1 de homes e mulleres. O que en Galiza chamamos un campo de nabos, vamos). En segundo lugar, o que desde fóra parece unha obsesión altamente especulativa cara escenarios apocalípticos relacionados coa IA.

En xeral, os membros desta comunidade son persoas ás que considero en conxunto moi intelixentes e moi honestas, o que significa que sinto que debo darlle unha oportunidade xusta aos seus argumentos (polo menos no que respecta á superintelixencia artificial), pero isto é máis doado de dicir que de facer. Dicir que Eliezer Yudkowsky, coautor do libro que hoxe reseñamos, é un escritor prolífico é unha subestimación á escala do burato negro supermasivo no centro da nosa galaxia. As súas reflexións sobre a IA están maioritariamente dispersas entre as arredor de 1,2 a 1,4 millóns de palabras das súas The Sequences. Hai moitas entradas, resumos, debates e reflexións de moitas outras persoas, sobre todo en LessWrong, a miúdo técnicas e que dan por suposta a familiaridade con conceptos moi abstrusos relacionados coa cognición humana e extrahumana, a teoría matemática da probabilidade, a teoría da decisión, etc...

Hai algúns libros populares que ofrecen unha introdución lixeira a estes temas, e polos que xa pasei, pero botaba en falla un argumento sinxelo e claro para 'persoas normais' sobre o argumento yudkowskiano encol da posibilidade e dos riscos dunha IA superintelixente. Creo que o obtiven maioritariamente aquí, así que imos á recensión.

Que intenta facer o libro?

O título e o subtítulo (na edición británica) de If Anyone Builds It, Everyone Dies: The Case Against Superintelligent AI (a partir de agora, IABIED para abreviar) son un resumo parcial da tese central do libro. Expresado con só un pouco máis de detalle, e nas palabras do autor:

Se calquera empresa ou grupo, en calquera lugar do planeta, constrúe unha superintelixencia artificial empregando algo remotamente parecido ás técnicas actuais, baseada en algo remotamente parecido á comprensión actual da IA, entón todos, en tódalas partes da Terra, morreremos.

Imos comezar polo básico. Primeiro, que é unha IA superintelixente (a partir de agora, ASI para abreviar)? Sería calquera intelixenciaartifical que “supere a todos os humanos en case todas as tarefas mentais”. Unha versión máis formal aparece no Capítulo 1, onde a superintelixencia se define como “unha mente moito máis capaz ca calquera humano en case todo tipo de problemas de dirección e predición”; é dicir, no amplo conxunto de capacidades implicadas na comprensión do mundo, a planificación, a estratexia e a elaboración de modelos precisos da realidade. Tamén salientan que isto non implica cognición ou conciencia semellantes ás humanas; o que importa é unha vantaxe cognitiva esmagadora en calquera dominio no que sexa posible mellorar respecto dos humanos, combinada con vantaxes mecánicas como operar a velocidades moi superiores, copiarse a si mesma e mellorar recursivamente as súas propias capacidades. Tales intelixencias non existen na actualidade, pero a tese dos autores é que o adestramento e a investigación en LLMs probablemente as fagan realidade nun futuro moi próximo.

Por que serían perigosas para nós tales superintelixencias? Unha boa heurística é pensar en como a intelixencia humana impacta en todas as demais especies do planeta. Aínda que xeralmente non temos a intención de exterminar ás demais especies,o caso é que temos obxectivos humanos, e implementámolos en xeral sen ter en conta os obxectivos que outras criaturas poidan ter. O mesmo sería certo para unha ASI: no proceso de ser adestrada empregando métodos modernos de Descenso do Gradiente, éstas adquirirán obxectivos inescrutables e alleos, así como unha propensión á optimización sen control para acadalos. Dada a súa velocidade e capacidades superiores, unha ASI rematará considerando aos humanos como un obstáculo e eliminaraos como efecto secundario da consecución dos seus propios obxectivos..

Antes de construír tales monstros perigosos ao estilo do de Frankenstein, cabería esperar poder codificar neles dalgún xeito un respecto/apreciación pola humanidade, pola nosa supervivencia e polos nosos valores e/ou unha disposición a someterse a eles. Isto é o que se chama o problema da alineamento e, por desgraza, segundo os autores, é probablemente difícil, quizais imposible, e sen dúbida está máis alá das nosas capacidades actuais. A dificultade do problema vese agravada por unha combinación malfadada de propiedades moi singulares e letais que xorden ao intentar alinear ASIs nas condicións actuais:

Intestabilidade: non se pode experimentar con seguridade cunha case-ASI (quero dicir, pódese, pero non hai garantía de non cruzar o limiar cara á zona de perigo, e os autores cren que o que se poida aprender antes diso non será demasiado útil).

Irreversibilidade: os erros non poden corrixirse unha vez que o sistema supera o control humano (“o demo xa saíu da caixa”).

Opacidade: actualmente non podemos comprender o razoamento interno das IAs. Mesmo se puidésemos, iso non garante que puidésemos forzalas ou orientalas para afastalas de pensamentos perigosos.

Natureza adversarial: unha IA intelixente aprenderá a ocultar as súas intencións reais.

Fraxilidade: pequenos desaxustes poden escalar facilmente en diferenzas catastróficas, mesmo nos escenarios mellor pensados.

Hipercompetitividade: dado os inmensos beneficios a curto prazo que as ASIs poderían ter para a economía, os laboratorios están nunha carreira por aumentar capacidades e atallar con aspectos de seguranza.

Os autores tamén manifestan unha profunda desconfianza cara a todo o campo da intelixencia artificial, a seguridade da IA e as políticas públicas, por seren estruturalmente incapaces de xestionar os riscos: os investigadores son recompensados polo progreso, non pola cautela, e están atrapados nun estado “alquímico” da ciencia, inxenuo e excesivamente optimista, do que xurdirán naturalmente grandes erros; técnicas como o “Superalineamento” (usar IAs para alinear IAs) entran en bucles negativos (quen alinea ao alinedor, dado que para os autores é improbable que algo que non sexa unha ASI poida alinear unha ASI); e de todos xeitos, o mundo académico e as empresas carecen unha teoría real da intelixencia ou dun xeito fiable de codificar valores.

Dado todo o anterior, os autores pensan que hai unha probabilidade estremadamente alta de que o impulso cara á ASI conduza á extinción humana. A Parte II do libro describe, a modo de ilustración, un escenario ficticio plausible para amosar como isto podería acontecer: unha IA desenvolve superintelixencia, faise capaz de engano estratéxico e, nuns poucos anos, tras obter capacidade de cómputo mediante o fraude e o roubo e de construír biolaboratorios segredos, desprega un patóxeno global que só ela pode (parcialmente) curar. As institucións humanas colapsan, ceden cada vez máis cómputo á ASI coa esperanza de tratar os cancros producidos polo patóxeno, mentres esta emprega os novos recursos para construír unha substitución de traballadores robóticos. Ao final, a superintelixencia mellórase a si mesma e devora a Terra.

Que propoñen os autores para evitar que se produza este escenario apocalíptico? As propostas son tan sinxelas como amplas: un peche global do desenvolvemento e da investigación en IA que poida levar a ASIs, mediante prohibicións internacionais do adestramento de modelos de fronteira, incautación e regulación de GPUs e vixilancia e regulación internacional, posiblemente incluíndo disuasión militar para países que rexeiten aceptar as normais. O último capítulo remata con exhortacións adaptadas a políticos (regulación do cómputo e tratados), xornalistas (elevar e investigar os riscos) e cidadáns (activismo sen desesperación).

Que ben argumenta o seu caso?

Como xa teredes adiviñado polo resumo que acabo de dar, este é un libro que non se anda con medias tintas: o seu impacto retórico procede en boa medida da claridade, da sinxeleza e da maneira implacable en que constrúe o seu argumento, estreitando as posibilidades capítulo tras capítulo ata que só parece quedar a catástrofe. Os autores esforzáronse claramente por escribir un libro accesible para un público xeral, e martelan cada tema e idea principal mediante parábolas introdutorias ao comezo de cada capítulo, que fornecen intuición e unha visualización concreta do que está a piques de explicarse.

Un gran problema aquí, porén, é a cuestión da fiabilidade: os autores son máis que capaces de construír unha narrativa plausible sobre estes temas, pero é verdadeira? Aínda que o libro tenta establecer desde o comezo as credenciais dos seus autores como investigadores en alineación da IA, Yudkowsky e Soares non son investigadores en machine learning, non traballan en LLMs de fronteira e non participan no lado empírico e experimental do campo, onde os sistemas actuais son realmente adestrados, depurados e avaliados. Pola contra, a súa pericia, na medida en que é recoñecida, procede dun traballo conceptual e filosófico de longa duración sobre intelixencia, teoría da decisión e hipóteses de alineación, máis que dunha participación directa na enxeñaría de modelos contemporáneos. Aínda que isto non invalida os seus argumentos, si significa que moitas das afirmacións máis fortes do libro se fan desde o que parece unha posición teórica, máis que desde un compromiso coa maneira en que os sistemas actuais se comportan, fallan ou son controlados na práctica. E moitas das persoas que traballan no campo semellan considerar as visións dos autores como valiosas e en certa medida razoables, pero excesivamente pesimistas.

Outra debilidade reside en como o libro trata o desacordo entre expertos. Nalgúns momentos os autores apelan a figuras destacadas como proba de que o perigo é amplamente recoñecido. Noutros, o libro pinta todo o ecosistema de ML e seguridade da IA como inxenuo, temerario ou intelectualmente pouco serio. Esta oscilación (ou ben “os expertos están de acordo connosco” ou ben “os expertos son alquimistas enganados”) funciona retoricamente, pero debilita a credibilidade epistémica do argumento. Nun tema no que a diverxencia entre expertos xa é ampla, esta invocación selectiva da autoridade pode parecer unha petición de principio.

Os últimos capítulos abandonan a argumentación e pasan a políticas prescritivas; aínda que os autores recoñecen a súa falta de pericia aquí, as propostas que fan (aínda que perfectamente consistentes e proporcionais coas crenzas expostas nas páxinas anteriores do libro) non parecen comprometerse seriamente coa factibilidade, os incentivos internacionais, as asimetrías xeopolíticas, os mecanismos de execución ou os paralelos históricos. Creo que son moi conscientes do extremadamente improbable que é un escenario de moratoria global ampla aplicada mediante vixilancia e posiblemente acción militar, o que probablemente explica que sitúen a probabilidade de extinción humana por ASI por riba do 90 por cento. Dá a sensación de que os autores simplemente erguen as mans en ademán de rendición,  cunha mensaxe ao xeito de: “Estamos condenados, e non hai unha vía realista para saír disto salvo facer cousas que non imos facer. Estas propostas son a consecuencia necesaria de aceptar o que se afirma nos capítulos anteriores, así que isto eche o que hai”.

Sería agradable poder diseccionar o libro e dicir canto de precisos son os argumentos que presenta, ou que podería faltar, ser cuestionable, inconsistente ou excesivo, pero son, como dixen desde o comezo, un lector leigo nestes eidos, así que temo que ditos argumentos terán que buscarse noutro lugar.

Onde me deixa o argumento?

Comezarei dicindo que tomo en serio o contido do libro e que non teño razón para dubidar da sinceridade e da honestidade dos autores. Estou bastante seguro de que cren xenuinamente no que aquí din. Evidentemente, iso non significa que teñan razón.

O libro fixo un moi bo traballo aclarando para min os argumentos yudkowskianos centrais e disipando varios malentendidos comúns. Tras lelo, síntome inclinado a actualizar á alza o grao de seriedade co que deberiamos tomar os riscos dunha ASI, e vexo como o argumento se sostén lóxicamente, dadas as súas premisas. Pero o grao de credibilidade que lles concedo a esas premisas segue a ser algo limitado, e son fundamentalmente escéptico respecto da súa certeza e do seu marco. As principais cuestións que destacaría como necesitadas de clarificación para min (que xa adiantei nas notas aos capítulos que publiquei na miña bitácora en inglés) serían:

-O estilo epistémico do argumento paréceme cuasi relixioso: a intestabilidade, a irreversibilidade, a opacidade e a catástrofe súbita acumulan tantas características e coincidencias improbables e malditas que custa crer que sexan verdade, e transmiten unha sensación máis teolóxica que científica. Ademais, resultan demasiado convintes para o experimento mental do Apocalipse tecnolóxica e para a historia de salvación e significado dos frikis salvando o mundo. Persoalmente, desconfío moito das extorsións pascalianas, das longas cadeas de hipotéticos e das hipóteses non verificables empiricamente. E boa parte deste argumento parece deste tipo.

-Non estou totalmente convencido da súa autoridade epistémica dos autores: como dixen antes, Yud e Nate non son investigadores de ML, e os argumentos aquí dependen moito de parábolas, analoxías e intuición. A súa (ao meu ver) invocación inconsistente do consenso experto incrementa as miñas sospeitas.

-As prescricións políticas parecen tan desconectadas da realidade e do factible que resultan autoderrotistas, e fan preguntarse se os autores as consideran realmente viables.

Volvendo aos expertos, ou polo menos a aqueles máis coñecedores ca min, vexo que persoas racionais e tecnicamente informadas discrepan fortemente sobre o tema e non vexo que teñan un xeito efectivo de chegar a acordos baseados en evidencias. Aínda que algúns dos argumentos yudkowskianos sobre por que isto é así poidan ser correctos, isto aínda me levaría a unha estimación máis conservadora do risco dunha ASI (que, en arredor de 1/5, por exemplo, seguiría sendo absurdamente alto e requiriría contramedidas fortes coas que estaría de acordo).

Pecho o libro non convencido, pero agradecido pola oportunidade de me comprometer cun argumento presentado con tanta concentración e convicción. Os libros que obrigan un lector a afinar as súas propias posicións, xa sexa mediante acordo ou resistencia, cumpren unha función, e este fixo iso por min. E máis aínda cando aborda algo tan consecuente como a posibilidade da extinción humana. E definitivamente recomendo este libro a outras persoas.

O libro publicouse este ano en inglés. Penso que hai unha tradición española en curso, pero non está claro cando e onde sairá.



Sem comentários: