quinta-feira, abril 03, 2025
segunda-feira, março 31, 2025
Reseñas - Brian Christian, The Alignment Problem
Introdución
Se algunha vez liches algunha das miñas reseñas, terás notado que, aínda que estou moi interesado nas matemáticas, ese interese non se estende a áreas próximas como a informática ou o machine learning. Isto non cambiou de xeito fundamental nos últimos tempos, mais debido ás miñas interaccións intelectuais cada vez máis frecuentes con certos movementos culturais Anglosaxóns (Altruísmo Eficaz e Racionalismo), sinto a necesidade de comprender ben o que probábelmente sexa o maior atractor para friquis destas comunidades: a o tema da aliñación da intelixencia artificial ás necesidades humanas. Ainda que hai unha chea de literatura dispersa ao respecto (na súa maioría entradas de blogs, mais tamén artigos e algúns vídeos), decidín achegarme ao tema do xeito que me resulta máis natural: a través dun bo e relativamente voluminoso libro que me axude a trazar un mapa dos fundamentos do eido. Foi esta tentativa a que me levou ao libro de Brian Christian The Alignment Problem (O problema da aliñación).
Antes de entrar no contido específico, compre explicar, ainda que sexa de xeito aproximado, en que consiste o problema que da título ao libro. “Aliñación”, en termos xerais, refírese a crear estados de acordo e coordinación que permitan que diferentes elementos (persoas, organizacións, sociedades) poidan traballar de maneira harmoniosa cun propósito común e/ou de xeito coerente entre si. Isto é algo que os humanos facemos constantemente: poderíase dicir que dende que nacemos somos adestrados, de diversas maneiras, para “aliñarnos” co tipo de comportamento aceptado (e agardado) dos distintos círculos sociais aos que pertencemos. E sabemos que este proceso adoita funcionar, ainda que non á perfección: todas as sociedades teñen individuos non aliñados que, moitas veces, rematan no cárcere ou algo peor. Aliñar os humanos cun conxunto compartido de valores e prácticas é difícil: hai quen incluso discute se é posíbel (ou desexábel) a grande escala, o cal suscita cuestións sobre qué sistema de valores deberiamos escoller, se estes poden mudar co tempo, etc.
O problema da aliñación estende este reto aos sistemas de aprendizaxe automática estremadamente potentes que xa creamos no século XXI, así como aos que poderiamos estar a piques de crear, como a IAX (intelixencia artificial xeral), que igualaría ou superaría aos humanos en todos os niveis de traballo cognitivo. Se cres que a IAX é probábel e inminente e que nos superará amplamente en intelixencia, ten sentido preocuparnos sobre como asegurar que farán o que realmente queremos que faga, mesmo cando os nosos obxectivos son difíciles de especificar, poden malinterpretarse ou mudar co tempo (o cal, por suposto, acontece, xa que os humanos somos unha lea evolutiva chea de impulsos contraditorios).
Podedes imaxinar doadamente as consecuencias da desaliñación: máquinas máis poderosas ca nós que nos poderían obrigar a obedecerlas (ou incluso eliminarnos) e/ou escenarios distópicos nos que os humanos quedemos sen poder. E isto pode pasar ainda que logremos codificar e fixar irreversiblemente os obxectivos da IAX (lembrade o conto do O aprendiz de feiticeiro, e o que pode pasar cunha orde formulada de forma ambigua e imposíbel de revogar).
O libro de Christian explora os principais desafíos de aliñar ás máquinas cos valores humanos, desafíos que xa están presentes mesmo cos sistemas relativamente limitados que temos hoxe en día. Para explicalo, tamén ofrece unha historia da investigación sobre a aliñación da IA desde os anos 50 ata hoxe a través das teorías e avances prácticos de científicos computacionais que o autor entrevistou para escribir o libro.
O contido
The Alignment Problem está dividido en tres seccións (Profecía, Actancialidade, Normatividade), cada unha con tres capítulos. A continuación vai un resumo (relativamente) breve de cada un deles, que podes ler ou saltar directamente á conclusión se non che interesa tanto detalle.
Capítulo 1: Representación
Este capítulo traza a historia inicial da aprendizaxe automática e as preocupacións fundamentais encol de modelos que tentan representar o mundo. Christian comeza co perceptrón de Frank Rosenblatt e conecta esta máquina con preocupacións filosóficas sobre a aprendizaxe e a representación. O perceptrón mostrou como as máquinas podían aprender a partir de datos etiquetados, actualizando pesos—un precursor da aprendizaxe supervisada moderna.
Logo explora como os sesgos de representación xorden a partir dos datos escollidos para adestrar os modelos. Examínanse exemplos coma o de ImageNet e as incrustacións de palabras: ImageNet etiquetaba imaxes con termos recollidos por crowdsourcing, reflectindo consensos sociais máis ca verdades obxectivas; as incrustacións como word2vec expoñen sesgos históricos (por exemplo, “home é a programador como muller é a ama de casa”). O capítulo destaca que o comportamento dun modelo depende dos datos cos que foi adestrado—e que mesmo representacións “precisas” poden codificar estereotipos negativos ou desigualdades estruturais.
Capítulo 2: Xustiza
Christian afonda no reto de definir e acadar comportamentos acordes ás nosas nocións de xustiza en sistemas algorítmicos. Céntrase en ferramentas de xustiza criminal como COMPAS, que predí o risco de reincidencia baseándose en indicadores indirectos defectuosos (como taxas de detención, que están sesgadas racialmente). Mostra como estes sistemas perpetúan inxustizas históricas e poden crear bucles de retroalimentación que aumentan algúns encarceramentos de forma inxusta.
Examina distintas definicións matemáticas de xustiza—como calibración, igualdade de oportunidades e paridade demográfica—e sinala que non se poden satisfacer todas ao mesmo tempo, o que leva a unha especie de “teorema de imposibilidade” para a xustiza algorítmica. Christian introduce a proposta de Moritz Hardt de adestrar modelos directamente a partir dos xuízos humanos de xustiza, aínda que isto tamén xera retos de aliñación. O capítulo argumenta que a xustiza non é só un problema técnico, senón profundamente social.
Capítulo 3: Transparencia
Este capítulo aborda a interpretabilidade na aprendizaxe automática e a tensión entre rendemento e comprensión. Christian conta a historia de Rich Caruana, quen adestrou unha rede neuronal para predicir a mortalidade por pneumonía. Aínda que tiña mellores resultados ca modelos máis sinxelos, o programa aprendera unha regra perigosa e opaca: que os pacientes con asma tiñan menor mortalidade (pero isto era porque eran hospitalizados antes). O modelo foi rexeitado a favor dun máis sinxelo e interpretábel.
Christian presenta ferramentas para facer os modelos máis transparentes: árbores de decisión, conxuntos de decisión, mapas de saliencia e vectores de activación de conceptos. Advirte sobre explicacións enganosas—sistemas que manipulan os seus “motivos” sen cambiar o comportamento—e sobre a tendencia humana a confiar en explicacións mesmo cando son erróneas. O capítulo remata suxerindo que a verdadeira transparencia implica facer visíbeis os valores, obxectivos e procesos humanos incrustados nos sistemas, non só o seu funcionamento interno.
Capítulo 4: Reforzo
Aquí, Christian aborda a aprendizaxe por reforzo (AR), que modela como os axentes aprenden a partir de sinais de recompensa no canto de datos etiquetados. Traza a súa evolución desde a Lei do Efecto de Edward Thorndike e os experimentos de B.F. Skinner con ratas e pombas, e os marcos computacionais de Sutton e Barto.
O capítulo explica o problema da asignación de crédito (como saber que accións levaron a unha recompensa), o equilibrio entre exploración e explotación, e a estrutura das funcións de recompensa. Christian destaca a facilidade con que os axentes poden adoptar comportamentos non desexados se as funcións de recompensa están mal especificadas—como o caso do barco simulado por OpenAI que aprendía a xirar en círculos para conseguir máis puntos.
A idea central é que as recompensas son poderosas pero perigosas: se non están deseñadas con coidado, poden levar os axentes a comportarse de xeitos contraproducentes ou incluso catastróficos.
Capítulo 5: Moldeo
Este capítulo explora o “moldeo”—o método de Skinner para adestrar animais en condutas complexas reforzando aproximacións sucesivas. Christian relata como Skinner e os Breland (os seus estudantes) usaron o moldeo para adestrar pombas e logo fundaron unha gran empresa de adestramento animal. O moldeo converteuse nun concepto central do conductismo en psicoloxía.
A continuación, analiza como estes principios son aplicados na aprendizaxe por reforzo e a robótica modernas. A clave está na idea de non especificar metas exactas, senón guiar o proceso de aprendizaxe mediante recompensas intermedias. Porén, xorden problemas cando esas recompensas intermedias se converten no obxectivo da optimización, levando a comportamentos non desexados. Christian destaca que mesmo as recompensas temporais poden descarrilar os obxectivos a longo prazo.
Tamén reflexiona sobre como a evolución e a cultura poden verse como forzas de moldeo dos valores humanos, e suxire que deseñar IA pode requirir unha coidada paciencia semellante: non só importa qué recompensa damos, senón cómo guiamos a aprendizaxe ao longo do tempo.
Capítulo 6: Curiosidade
Este capítulo trata a motivación intrínseca, tanto en humanos como en IA. Christian traza a historia da investigación sobre a curiosidade desde a psicoloxía inicial (por exemplo, os monos de Harlow que resolvían crebacabezas sen recibir recompensas externas) ata a aprendizaxe por reforzo moderna. Explica que en moitos contornas (coma o videoxogo Montezuma’s Revenge), os axentes fracasan sen incentivos de exploración—é dicir, sen recompensas ligadas á curiosidade—porque as recompensas son demasiado escasas.
Os enfoques baseados na curiosidade recompensan os axentes pola novidade e a sorpresa. Algoritmos como a exploración baseada en contadores e os pseudo-contadores axudan aos axentes a explorar con máis eficacia. O autor compara isto coa psicoloxía infantil: os nenos séntense atraídos non só pola novidade, senón tamén pola ambigüidade e a sorpresa—elementos que desafían as súas expectativas.
A idea central é que a curiosidade non é exploración aleatoria, senón un impulso dirixido cara á comprensión; e que as máquinas poderían necesitar mecanismos semellantes para aprender de forma robusta en contornos complexos e reais.
Capítulo 7: Imitación
Aquí entra en xogo a aprendizaxe por imitación, na que os sistemas de IA aprenden a partir de demostracións humanas no canto de recompensas. O capítulo comeza con exemplos da psicoloxía infantil—como mesmo os neonatos imitan expresións faciais—e como a imitación sustenta o desenvolvemento cognitivo temperán.
Na IA, a clonación de comportamento (aprendizaxe supervisada a partir do comportamento experto) pode ser fráxil debido aos erros en cascada: os pequenos fallos acumúlanse porque o axente adéstrase en traxectorias ideais, non nas súas propias experiencias, que adoitan ser máis desordenadas. Técnicas como DAgger abordan este problema permitindo que os axentes aprendan a partir de correccións ao seu propio comportamento, non só a partir de demostracións expertas.
Christian destaca os riscos de asumir simetría entre experto e imitador: as diferenzas de corpo, perspectiva ou contorna poden dificultar o proceso. Tamén distingue entre imitación e emulación, e discute cando copiar funciona—e cando comprender as intencións é máis importante.
Capítulo 8: Inferencia
Este capítulo céntrase na aprendizaxe por reforzo inversa (ARI)—é dicir, aprender cales son os valores de alguén observando o que fai. Christian describe esta técnica como esencial para a aliñación: no canto de dicirlle explicitamente a un axente o que debe optimizar, infire os obxectivos a partir do comportamento do modelo.
Explica as dificultades da ARI: o comportamento non sempre reflicte os valores de maneira transparente. As persoas poden actuar de forma irracional, inconsistente ou baixo limitacións, e distintos sistemas de valores poden producir condutas idénticas. Aínda así, estanse a facer avances: os modelos tentan agora inferir preferencias latentes tendo en conta limitacións, hábitos e mesmo prexuízos.
Christian tamén trata o cooperative inverse reinforcement learning (CIRL), no que humanos e axentes aprenden e infiren obxectivos xuntos, e a modelización da recompensa, na que os sistemas aprenden tanto do comportamento como da retroalimentación avaliativa. Estes enfoques pretenden salvar a distancia entre acción observada e intención real.
Capítulo 9: Incerteza
Christian remata co tema da incerteza, argumentando que a seguridade na IA require que os sistemas recoñezan o que non saben. Contrasta modelos confiados pero fráxiles con aqueles calibrados, robustos e cautelosos ante situacións novas.
Emprega a historia de Stanislav Petrov, que evitou un desastre nuclear ao desconfiar correctamente dun sistema de alertas defectuoso, como parábola de que as IA deben ter humildade epistémica. Entre os temas tratados están os exemplos adversariais, a detección de datos fóra de distribución e a aprendizaxe de categorías abertas—recoñecer que non todo foi visto antes.
Introduce o inverse reward design (IRD), no que os axentes tratan as recompensas como pistas imperfectas sobre as intencións humanas, non como verdades absolutas. O capítulo suxire que a aliñación depende de que os axentes se modelen a si mesmos como falibles e interpreten as ordes de forma reflexiva, non literal.
Conclusión
Este é un libro excelente que cumpre perfectamente o seu propósito: facer que un lector non especialista tome conciencia dos problemas que xorden ao tentar aliñar sistemas mecánicos cos valores humanos. Está moi ben escrito tamén: o autor coñece os instrumentos do oficio e sabe introducir anécdotas interesantes e filtrar a información técnica a través das súas personaxes sen caer nun exceso de tecnicismos (en matemáticas, programación ou enxeñaría) que puidesen desorientar o lector. Isto si, ás veces deixa certas cousas sen explicar que fan que o lector curioso (coma min) quede un pouco abraiado—por exemplo, como é posible crear funcións de utilidade e recompensas (?!?) que unha máquina “sinta” que debe seguir—pero iso non é realmente culpa do libro. Recoméndoo vivamente: aprenderás moito e, ademais, pasaralo ben léndoo.
Ata onde eu sei, o libro non esta traducido ao español ou ao galego, así que terás que botarlle un ollo na língua de Shakespeare (algo que pasa moi habitualmente cos libros que leo).
Libros do Mes
quarta-feira, março 05, 2025
sexta-feira, fevereiro 28, 2025
Libros do Mes
Kepler de Eduardo Battaner
*The Aligment Problem de Brian Christian
*Principles of Economics de N. Gregory Mankiw [E]
*Naive Set Theory de Paul Halmos
*Purgatorio de Dante Alighieri