“Poden pensar les màquines?” Aquesta va ser la pregunta que el matemàtic britànic Alan Turing es va fer l’any 1950. La pregunta ha impulsat la recerca en el camp de la Intel·ligència Artificial (IA) durant més de set dècades i encara no en tenim resposta. Tot i això, o precisament per això la IA viu un auge sense precedents; en pocs anys ha saltat de les universitats i centres de recerca a les empreses i d’allà a la imaginació de tothom. La IA és alhora un conjunt de tecnologies, una etiqueta de màrqueting i un fenòmen cultural pop.
Una alineació de tecnologies, capacitats computacionals i canvis socials ha fet possible el sorgiment de la IA que anomenem generativa: IA capaç de generar textos, imatges, vídeos, sons o programes d’ordinador. Es basa en el desenvolupament d’algoritmes i models matemàtics que fan que les màquines puguin aprendre i realitzar tasques sense que hagin estat explícitament programades per fer-les. És el que coneixem com aprenentatge màquina. Per exemple, si a un d’aquests sistemes li mostrem moltes fotos de gatets amb l’etiqueta “gat”, hi haurà un moment que ensenyant-li una foto qualsevol d’un gat serà capaç d’identificar-lo com a tal. Aquests mètodes han estat aplicats en una àmplia varietat de camps, des de la medicina i la biologia fins a l’enginyeria i les finances, passant pels jocs de taula i els videojocs. En alguns casos els algorismes d’aprenentatge màquina han proporcionant solucions innovadores i creatives a problemes de diferents d’aquests àmbits (en algun cas més creatives que les dels humans).

D’alguna manera proven d’emular el cervell humà. Conceptualment parlant, replicar digitalment una xarxa d’intercanvi d’informació biològica com la del cervell humà és una tasca relativament fàcil. És el que coneixem com a xarxa neuronal. No en canvi pel que fa a la seva escala —tenim de 85 a 100.000 milions de neurones— ni pel que fa a la seva eficiència. El cervell humà només necessita 12 watts per funcionar mentre que només l’entrenament d’una gran xarxa neuronal digital com les que hi ha darrera els models GPT-4 d’OpenAI o del més recent PaLM 2 de Google necessita de molta energia i té uns costos només assumibles per les grans empreses tecnològiques. L’altra gran diferència és la versatilitat. Un cop superat un aprenentatge bàsic, el cervell humà és capaç d’aplicar el coneixement adquirit en multiplicitat d’àmbits diferents. No és el cas de les xarxes neuronals; si una xarxa ha estat entrenada per reconèixer gats i li mostreu una imatge d’un gos no sabrà com etiquetar-la.
Gat de ©kawaiiai.com
Per a entrenar una xarxa neuronal amb garanties d’èxit calen dues coses: potència de càlcul i gats, molts gats, en general: dades, moltes dades. Durant els anys 70 i 80 l’aprenentatge màquina va fer figa precisament perquè els ordinadors de l’època no eren prou potents, i sense internet les dades anaven molt cares. Va ser amb l’arribada als anys 90 de la Web i posteriorment dels mòbils espavilats amb l’arribada de l’iPhone que les coses van començar a canviar. Les xarxes socials hi van fer la resta. Si voleu imatges de gatets només cal que aneu a Instagram i feu una cerca per l’etiqueta “gat”. Cada cop que etiquetem una imatge a internet estem ensenyant als sistemes d’aprenentatge màquina com nosaltres veiem el món. Les màquines s’entrenen amb les dades que nosaltres generem; amb les imatges que compartim a les xarxes, amb els nostres tuits, els comentaris que deixem als vídeos de YouTube, les edicions que fem a Viquipèdia i els comentaris que deixem als fòrums de Reddit i de Racócatalà. En última instància som nosaltres, amb els nostres biaixos, prejudicis i limitacions qui ensenyem les màquines.
No cal ser cap premi Nobel per adonar-se que el portàtil de la feina no és suficient per processar tantes dades. L’altre ingredient per a poder entrenar amb èxit els sistemes d’IA basats en xarxes neuronals és la potència de càlcul, calen molts ordinadors i molt potents. Fins fa una dècada el cost del maquinari feia prohibitiu l’entrenament de xarxes neuronals enormes. Però la llei de Moore és implacable i la potència dels xips encara es duplica cada un o dos anys. Només era qüestió de temps que fos possible. I el temps va ser el 2012. Dos estudiants d’informàtica de la universitat de Toronto, Alex Krizhevsky d’origen ucraïnès i Ilya Sutskever, d’origen israelià, sota la direcció de Geoffrey Hinton, se’n van adonar que els processadors gràfics de les consoles de videojocs i ordinadors d’alta gamma (les GPU) eren més potents que les tradicionals CPUs i per tant més eficients a l’hora de fer els complicats càlculs que calien. Ilya Sutskever és l’actual científic en cap i co-fundador d’OpenAI. L’actual boom de la IA generativa té data d’inici, paternitat i padrí.

El 2016 les xarxes neuronals de Hinton, Krizhevsky i Sutskever eren capaces no només de distingir una imatge d’un gat de la d’un gos sinó també de descriure què hi havia en una imatge: “un noi i una noia jugant a voleibol en una platja amb el mar de fons i el cel ennuvolat”. I va tornar a ser estudiants de la universitat de Toronto que van tornar a canviar la pregunta: “I si enlloc de donar una imatge a la xarxa neuronal per a que ens la descrigui l’hi donem un text per a que ens en generi la imatge?” Al cap i a la fi, si un nen petit després d’haver vist uns quants gats és capaç de dibuixar un gat, perquè no ho podria fer un ordinador? Elman Mansimov, Emilio Parisotto, Jimmy Lei Ba i Ruslan Salakhutdinov van ser qui es van fer aquestes preguntes. La resposta a “genera un autobús escolar de color verd” va ser una imatge d’una taca de color verd de 32 x 32 píxels que aclucant lleugerament els ulls podíem intuir com a una cosa semblant a un autobús escolar de color verd. Per posar-ho en proporció: una icona del vostre mòbil fa 180×180 píxels.
La història de la IA és la història també de com hem canviat les preguntes que ens hem fet: Turing es va preguntar si les màquines podrien pensar, uns estudiants d’informàtica de Toronto es van preguntar què passaria si utilitzaven la tecnologia de les consoles de videojocs i companys seus es van preguntar què passaria si invertíem el procés de reconeixement d’imatges. No tenim totes les respostes però les que tenim ens plantegen encara més preguntes: quin impacte tindrà la IA en el mercat laboral? En l’acadèmia? En la recerca? En com ens definim com a persones?
Fins a aquesta darrera onada vèiem la IA com una evolució tecnològica més, una tecnologia o mitjà —sinònims segons McLuhan— per a aconseguir els nostres objectius de manera més eficient. Aquest fenòmen ja ens era conegut. A la dècada dels 90 l’arribada del correu electrònic va fer que les secretàries de direcció deixessin de mecanografiar les cartes que els dictava del director que va passar a picar i enviar ell mateix electrònicament. Així mateix l’Excel va substituir la feina de milions de comptables a tot el món. Recentment hem vist com al Decathlon, a l’IKEA o al McDonald’s han desaparegut els caixers humans. Pensàvem que no ens afectava perquè el que feia la tecnologia era substituir feines poc qualificades i nosaltres hem estudiat molt. Però ara és diferent; la IA generativa és capaç de generar poemes, receptes de cuina, goigs a Santa Tecla, imatges del Papa vestit de Balenciaga, de Trump corrent davant de la policia, George Harrison cantant un tema d’Oasis i de la Lola Flores anunciant una cervesa. Pot ser creativa la IA?



Avui, per primera vegada a la història qualsevol persona pot crear imatges noves, per surrealistes que siguin només escrivint un text (“una ós panda fent surf a les costes del Garraf”). La barrera que imposaven els programes de generació d’imatges com el Photoshop, l’Illustrator, el Cinema 4D i altres ha caigut. I encara més, qualsevol que sàpiga enviar un WhatsApp és també capaç de generar amb el ChatGPT textos d’una qualitat molt superior a la mitjana indistingibles dels que generaria un humà. Voleu la GDPR explicada a l’estil de Mercè Rodoreda amb metàfores que facin servir carrers, finestres, terrats i la bugada? Només l’hi heu de demanar.
També hem vist com el projecte Deep Bach de Sony generava corals a l’estil de Bach, una eina d’aprenentatge profund per a la generació automàtica de música. DeepBach, després d’haver escoltat totes les corals de Bach va ser capaç d’escriure’n 80 més, que a les oïdes dels neòfits (i de més d’un expert) són indistingibles de les del mestre.
Alguns acadèmics són molt escèptics amb les tecnologies de la IA generativa. Sostenen que, ja que aquestes simplement generen nou contingut basat en patrons que han après de les dades existents, els resultats no es poden considerar genuïnament originals ni sobretot creatius. La lingüista computacional Emily Bender les qualifica de “cotorres estocàstiques”. El terme ha fet fortuna. Aquest raonament ens portaria a pensar que la creativitat acabarà minvant i tot el que farem seran remescles de tot el que ens ha precedit fins a l’infinit: la nostra espècie ja no donarà cap més Shakespeare, Bach, Rembrandt, Lennon i McCartney o Dr. Dre.
Respondre a la pregunta de si la IA ens ajudarà a ser més creatius o tot el contrari és complicat, tant que us podria donar arguments prou convincents en un sentit o un altre. Primer, perquè no tenim una definició clara de què és intel·ligència artificial, de fet, no la tenim ni d’intel·ligència! Qui era més intel·ligent, Newton o Einstein? Einstein o Picasso? Picasso o Jay Z? En general definim la IA com la capacitat de les màquines d’assolir competències equiparables a les dels humans, com les de reconeixement de patrons, d’aprenentatge o d’inferència. Observeu, però, que en certa manera utilitzem la paraula intel·ligència per a definir-la del moment en què ens referim a humans (a qui en principi hauríem de considerar intel·ligents).
Definir què és un comportament humà intel·ligent a banda de ser molt complicat, canvia amb el temps. Consideràvem que jugar a escacs era el pinacle de la intel·ligència fins que el 1997 el Deep Blue d’IBM va guanyar el Gary Kasparov. Llavors el jugar a escacs va passar a ser una competència que requeria concentració, mètode, estratègia, planificació i visió, però que si ho podia fer una màquina potser no requeria tanta intel·ligència. Algú va dir que “intel·ligència és tot allò que els ordenadors encara no saben fer”.

La IA de Samsung crea vídeos de persones, com aquest de l’Einstein, agafant fotografies i mapejant expressions i característiques facials per aconseguir un moviment més natural.
Tampoc no tenim una definició clara de creativitat. Si no podem ordenar Newton, Einstein i Picasso pel seu nivell d’intel·ligència (no tenim una manera bona de mesurar-la) tampoc no ho podem fer per la seva creativitat. Qui va ser més creatiu? Newton a l’hora de descobrir les lleis de la natura, Einstein per ajuntar l’espai i el temps, o Picasso per deconstruir-los? La creativitat no és una propietat binària, la creativitat és un gradient; tots els sapiens som creatius perquè ens passem el dia resolent problemes i reconeixent patrons al nostre voltant. El que passa és que uns ho fan millor que els altres. Sabem que la creativitat depèn de l’experiència personal, del substrat cultural, de la tecnologia disponible i que a la seva base hi ha la còpia, la transformació i la combinació d’ingredients ja existents. Un detall, en aquests tres àmbits els ordinadors ens superen a bastament.
La creativitat té una aura màgica que encara ens ve de les muses de l’antiga Grècia quan la inspiració creativa es considerava que era una expressió d’un geni o un dimoni extern a nosaltres. Els amants del flamenc encara parlen del duende. Doncs bé, resulta que la creativitat no té res ni de màgic ni de místic ni de sobrenatural. La creativitat no és més que una sèrie de processos de còpia, transformació i de combinació que genera alguna cosa nova, sorprenent, o valuosa.
Si demaneu a algú que us digui el nom d’un geni creatiu teniu molts números de que us digui Picasso. A Picasso se li atribueix la frase de que “els bons artistes manlleven, els grans artistes roben”. No és només una frase genial sinó que la va portar a la pràctica copiant idees i tècniques de Juan Gris, Henri Matisse, Georges Braque o Diego Rivera. Aquest darrer el va acusar de plagi, li va prohibir l’entrada al seu estudi de París i s’hi va enemistar per sempre. Amb tota probabilitat la frase és més antiga i segurament també l’havia copiada. En tot cas el concepte de “manllevar” sí que ho és: sabem gràcies a tècniques actuals d’IA que Shakespeare robava escenes o arguments sencers a d’altres autors de la seva època.
El segon aspecte de la creativitat és la transformació, d’allò antic en allò nou, d’allò que hem après, vist i experimentat en una cosa que fins al moment no existia. La transformació de creacions anteriors pot arribar a esdevenir un fenòmen cultural que al seu torn pot resultar en una indústria multimilionària. Penseu amb la saga de La guerra de les galàxies, històries que hi són des de l’Odissea, des que abans que s’escrivissin les històries.
La tercera pota de la creativitat és la de la combinació. Gutenberg va combinar les premses de vi amb els tipus mòbils (blocs de fusta amb símbols) amb la tinta que venia de la Xina. Henry Ford no va inventar la cadena de muntatge sinó que va aplicar el procés en cadena dels escorxadors a la fabricació d’automòbils i Tim Berners-Lee per fer la web que coneixem va combinar els ordinadors personals, la xarxa d’internet i l’hipertext (els enllaços) que alguns sistemes d’informació feien servir des dels anys 70. Tots tres surten a les llistes de creadors i tots tres van canviar el món.
De moment no sabem encara si podem qualificar les màquines de creatives. El que és segur és que poden copiar, transformar i combinar a més velocitat que els humans i per tant explorar més camins. El que passa és que la creativitat no és un fenomen aïllat d’inspiració divina, passa en el marc d’una cultura, d’una societat i d’un moment històric, en altres paraules: té una intenció, uns objectius, una voluntat d’incidir i de transcendir. I per a fer això cal fer-se moltes preguntes.
Va ser també Picasso qui va dir que trobava els ordinadors molt avorrits, “només saben donar respostes i no fer-se preguntes”. Els humans, en canvi, des de ben petits, que som una màquina de fer preguntes, tot i que darrerament, sembla que les que fem són bastant equivocades i, és clar, la creativitat se’n ressent.
Analitzant les llistes d’èxits musicals dels darrers 60 anys veiem dues coses: la durada mitjana s’ha escurçat i ja no hi ha pràcticament canvis de tonalitat. La primera es deu a la competència per l’atenció i per l’efecte de les plataformes, que consideren que un tema s’ha escoltat quan supera els 30 segons d’stream. Pel que fa a la tonalitat, als anys 60 gairebé un 40 % dels temes més escoltats tenien canvis de tonalitat. Avui és pràcticament zero.

Un sistema d’IA va recuperar una pintura amagada darrera el quadre “El guitarrista cec” de l’època blava de Picasso”, a l’esquerra. I a la dreta, el quadre que va “crear” la IA per recrear les traçades que es van identificar.
També podeu trobar l’estancament de la creativitat si sortiu a passejar per qualsevol carrer comercial del món. Les mateixes botigues, els mateixos Zara, Mango, Gap, Uniqlo i les mateixes furgonetes d’Amazon repartint per les cases. IKEA ha convertit totes les cases del món en pisos de Malmö dels anys 90 i tots els bars estan més pensats per a Instagram que per a les persones. Sí, resulta que la creativitat va a la baixa. Un estudi de la Universitat William and Mary es va fixar en 300.000 nens i nenes que des dels 50 han fet el test de Torrance (un test amb preguntes tipus “com milloraries aquesta joguina?”). Les dades demostren que la creativitat és més baixa avui que al 1950 amb una davallada forta a partir dels anys 1990.
Les causes són variades però sembla que es redueix tot a l’estil de vida, amb les agendes de la canalla plenes d’activitats escolars i extraescolars, amb molt poc temps lliure i el poc que tenen ocupat per lleure digital que requereix també la seva atenció focalitzada. Un temps que la canalla d’abans dels 90 tenia per avorrir-se i que avui queda inexorablement ocupat per l’expansiu lleure digital, unes 11 hores al dia. Massa enfeinats i massa entretinguts per a ser creatius.

Sembla doncs que el gran culpable de la davallada de la creativitat humana és la tecnologia. És un pla diabòlic de les màquines? Volen entretenir-nos fins a morir que deia en Neil Postman? Volen que en siguem totalment dependents fins que els cedim fins i tot la creativitat?
El documental Alpha Go explica la història de com l’ordinador Deep Mind de Google va derrotar el campió del món Lee Sedol l’any 2016. Quan el campió del món, considerat el més creatiu en Go, se n’adona que la màquina el pot guanyar comença a jugar de manera més conservadora. La màquina el desconcerta per les jugades atrevides que fa. Els comentaristes es meravellen a les obertures creatives, tant, que mirant les partides a cegues diríeu que la màquina és la persona i la persona és la màquina.
Hem de deixar de jugar a Go perquè els ordinadors ens hi guanyin? Hem de deixar de crear art perquè els ordinadors creïn imatges plaents a la vista? D’expressar-nos de manera creativa perquè ja poden generar textos amb sentit? En cap cas. Fer fotos, sigui amb la tecnologia que sigui, no és el mateix que ser un fotògraf i escriure poesia no és el mateix que ser poeta.
Les màquines, els algorismes, per molt intel·ligents que ens semblin, no tenen agència, no tenen objectius ni propòsit. Això ens pertoca als humans. En el cas de la gent que es dedica a feines creatives la IA generativa ha de ser més un col·laborador que un competidor, de la mateixa manera que ho van ser la càmera, l’ordinador o internet. No caldrà saber Photoshop, Illustrator o After Effects o Cinema 4D; la part robòtica de fer d’operador d’ordinador la fa millor la IA, i això lluny de ser un problema és un bé de Déu perquè podrem deixar de fer feines repetitives i dedicar-nos a trobar les preguntes que només els humans podem fer, les preguntes que ens fan humans.
Reinterpretant Joan Sales m’atreveixo a dir: “Des de fa milers d’anys que els humans hem fet de robots. Es tracta de deixar de ser humans? No, es tracta de deixar de ser de robots.”
Josep Ma Ganyet
Director de Mortensen i professor de la UPF