Sergi Jordà

Diu la Viquipèdia que és físic, innovador, artista i músic digital. També és doctor en Ciències de la Computació i de Comunicació i investigador del Grup de Tecnologia Musical de la Universitat Pompeu Fabra de Barcelona. Però es va donar a conèixer per ser un dels creadors, a principis dels anys 2000, de la Reactable, un nou instrument musical que va assolir una popularitat massiva després d’haver format part de la gira mundial del 2007 de l’artista islandesa Björk.

Et queda molt lluny,
aquella etapa?

Sí, sí, em queda molt lluny. El 2007 vam crear una empresa. Del 2015 al 2018 en vaig ser el CEO, i el 2019 va tancar. Em sento orgullós del que vam fer, però és quelcom que em produeix cert cansament. És a dir, no enyoro especialment aquella època, tot i que sí que em sento content de tot el que vam arribar a fer i de l’impacte que va tenir, que va ser molt, per sobre del que esperàvem inicialment. Però per mi és ja un capítol tancat.

Per cert, finalment es va arribar
a comercialitzar?

Sí, l’empresa va donar feina a 10 persones durant 10 anys. No fèiem només la taula, també fèiem apps de música, i vam tenir les més importants i amb més impacte. Estic parlant del 2010, un bon moment, quan va sortir l’iPad. I de Reactable se’n van vendre centenars; no és molt, però de Moog modulars encara se’n van vendre menys. Es pot dir que vam aportar el nostre petit gra de sorra a la història de la música.

No ToRNARiA
A cReAR UN iNsTRUMeNT

Ja fa 30 anys aproximadament que formes part del grup de recerca Music Technology Group (MTG) de la UPF. En aquell moment, investigar sobre música i tecnologia devia ser força estrany, no?

Estudiant la carrera de físiques, jo tocava el saxo i vaig descobrir per una sèrie de circumstàncies que el que jo volia era fer música amb tecnologia i, en particular, volia utilitzar els ordinadors per tocar en viu. I quan vaig acabar la carrera de física -estic parlant del 1986- vaig estudiar pel meu compte. Era molt difícil en aquell moment tenir accés a informació si no estaves en dos o tres llocs del món als que no vaig tenir accés: un era la Universitat d’Stanford, i l’altre l’Institut de Recherche et Coordination Acoustique/Musique (IRCAM) de París. Vaig estudiar amb tres o quatre llibres que vaig trobar a la biblioteca de l’Institut Americà, perquè en aquell moment hi havia quatre faves comptades al planeta que estudiaven això. La llavor del MTG és del 1992, quan el Xavier Serra i jo ens vam conèixer i ell va venir a muntar això a Barcelona. Al principi érem molt poca gent i, evidentment, no era el que és ara. Ara tenim 50 persones, màsters, doctorats… i la tecnologia musical té aplicacions clarament comercials. Però és veritat, fa 30 anys ningú sabia què era això. Cal dir, però, que avui, si em pregunten a què em dedico, i responc que a música i tecnologia, o a tecnologia musical, la gent tampoc ho té clar. “I això què és?” em diuen.

Durant l’últim any heu estat reballant en el projecte “Reptes i Oportunitats en tecnologia musical” sobre l’impacte de la Intel·ligència Artificial en el món de la música. On us ha portat?

Des de fa uns cinc anys, la intel·ligència artificial, en particular el deep learning i les xarxes neuronals, estan entrant “a sac” en totes les disciplines, i la tecnologia musical n’és una. Però fa un any ja vèiem que això es preparava per donar un salt.. Per tant, vam decidir veure què podíem aportar com a centre de recerca, què podíem entendre i on estàvem, què se’ns venia a sobre, no a nosaltres, sinó a la indústria, a la societat, és a dir, què anava a passar. I la forma va ser començar a entrevistar experts, uns 80, amb formularis online. D’aquests en vam seleccionar uns 15, vam fer entrevistes per videoconferència, i després vam organitzar taules rodones. I al final vam veure que hi havia massa contingut i ens vam centrar més en la creació i en el punt de vista de l’oient. El desembre vàrem organitzar unes taules rodones aquí a la universitat. Finalment la Karma Peiró ha escrit un article recollint tota aquesta informació. Després, el ChatGPT i els avenços que va treure Google, tot i que ho estàvem vivint en aquell moment, també ens va agafar una mica per sorpresa. I vull dir que és imparable. En aquest sentit, part dels resultats de les enquestes encara reflecteixen que els experts no pensaven que en sis mesos estaríem on som ara.

I on som ara, exactament?

Bé, en el món de la música potser els resultats són encara una mica menys espectaculars que en el món de la imatge o en el món del vídeo; el fet de generar una pel·liculeta a base de text, jo fa un mes em pensava que encara no hi seríem i ja hi som. En el món de la música potser hi ha menys energia i menys milions involucrats. I avui en dia els sistemes de text amb música encara no donen el “pego” al cent per cent, però ho faran molt aviat. Moltes de les eines que estan sortint encara no són públiques, per exemple, per al text to músic. El que Google va demostrar al gener amb el MusicLM, que jo sàpiga, no ha estat superat. Bé, musicalment això encara no està a disposició del públic, però les demos són bastant “apabullants”, no com per competir en el mercat, però crec que falta poc. En la imatge i en el vídeo, potser la competència del mercat és molt menys evident. És a dir, si tu fas un vídeo d’un minut, no competirà amb les pel·lícules. En canvi, quan d’aquí a sis mesos algú aconsegueixi fer cançons com xurros, això entrarà directament en el mercat i, de com ho desestabilitzarà tot, ja en podríem parlar amb més calma.

I aquesta eina que s’ha posat de moda que permet posar la veu d’un altre artista a qualsevol cançó?

Sí, darrerament, aquesta aplicació està tenint èxit popular i ja s’ha posat en mans dels usuaris. Li dones una cançó destí, una veu origen i et fa la cançó destí amb un estil diferent, opcionalment i amb la veu de la persona origen. Això, evidentment, ha fet posar el crit al cel a molta gent, a molts artistes. És a dir, per exemple, el Despacito del Kanye West, que va ser el primer que jo recordo, és de fa un parell de mesos. Sona bastant sorprenent i és clar, el Kanye West i molta gent i molts artistes es senten vulnerats i, no voldrien que això s’utilitzés. I què és el que es pot utilitzar i el que no? Això és un tema enormement complicat.

lA MÚsicA
AMB cloNAció De VeU
No és cAP ABeRRAció

D’on ha sortit aquesta eina?

Aquestes eines de clonació de veu, qui les ha posat al mercat, qui les està fent i regalant, és Tencent, que és la primera multinacional media xinesa. És a dir, no és casual que estiguin torpedinant la indústria occidental. Aquesta empresa és la que ha publicat aquest article de clonació de veu i la que ha donat les eines per a què els usuaris ho facin, per desestabilitzar el mercat, la indústria europea o occidental. Potser és una mica paranoic, però a l’Spotify de Tencent, el Tencent Music, a la Xina, ja està obertament reconegut que part del contingut el produeixen ells. Amb quin propòsit? Amb el de no pagar drets a ningú. Spotify està començant a fer això, tot i que no ho diu. És a dir, Spotify està començant a produir música amb intel·ligència artificial i la recomana. I així es tanca el bucle: jo faig música, te la recomano, tu l’escoltes, tu generes drets i els drets me’ls quedo jo. I la teva escolta, en lloc de repartir-la entre tots els creadors del planeta, me la quedo jo perquè l’he produïda jo. Això que Spotify no reconeix obertament, els xinesos sí que ho reconeixen i ho fan valer, i cada cop fan més música i cada cop recomanen més música seva. I què passa amb això de Spotify? Que si es queixen els autors té poc recorregut, i si es queixen les majors té més impacte. I fa un mes i mig, Warner i les totes les majors van queixar-se a Spotify dient: “no és legal que ensenyis els teus sistemes amb el nostre material”. I amb això torno al fet que és molt difícil decidir què és el que es pot fer quan tots els músics de la història han escoltat els músics anteriors.

peRò De qUi sóN
eLs DRets D’AUtoR?

Això vol dir que perdran els més febles, no?

Em temo que el costat més negatiu és que el que es decidirà no serà per l’ètica, sinó per la indústria. Vol dir que es prioritzarà potser l’interès d’uns pocs per sobre del de molts. A mi no em preocupen tant els drets d’autor, que esdevenen obsolets, i quin serà el nou model, com la supervivència del proletariat musical. Això em preocupa molt més. I a aquests no els defensarà ningú. Em preocupa el 99 per cent dels músics a qui els costarà cada cop més viure dignament amb la seva feina.

Hi ha un debat sobre si la Intel·ligència Artificial crea, remeda o fusiona el que ja existeix. En l’àmbit musical està tan poc clar com a la resta?

Exacte. D’una banda, és cert que la intel·ligència artificial, tal com s’utilitza avui en dia, crea a partir del que li donen. I en aquest sentit, la tendència negativa des del punt de vista d’evolució estètica és que més aviat farà més del que més hi ha i menys del que menys hi ha. Per tant, tendirà a homogeneïtzar i a produir més del mateix. Això anirà en detriment de la riquesa cultural i creativa. D’altra banda, es pot defensar la postura contrària, que és: com que tot el que es fa és una barreja de coses que ja s’han fet i potser hi ha barreges que no s’han fet mai, i es donen més eines a més gent com mai havia passat, hi haurà un terreny d’experimentació immens comparat amb el que hem tingut fins ara en la història de la música i, per exemple, xavals de 12 anys faran les barreges més rares que se’ls passaran pel cap. Hi ha gent que diu que tota la música ja està feta, que ja és difícil inventar alguna cosa nova i, de fet, si escoltes la tendència dels darrers vint anys, jo soc de les persones que pensa: quines poques sorpreses que rebo… Això em fa pensar que ja està tot fet, però és evident que no. I la intel·ligència artificial podria afavorir, si es deixa en mans del que despectivament la gent anomena “el poble”, que surtin coses que no ens havíem imaginat.

La indústria musical ho permetrà, això?

És clar que la indústria musical té la paella pel mànec, però cada cop menys. La indústria musical haurà de reinventar-se perquè, si no canvia, s’ensorrarà. Això, per descomptat, perquè sense intel·ligència artificial el model actual tampoc no és sostenible. És a dir, hi ha molts pocs músics que visquin amb les plataformes de streaming tipus Spotify, i la indústria musical és secundària, perquè el primer són els músics. La indústria musical, per a mi, és una cosa secundària que té 150 anys tal com l’entenem. Per tant, jo crec que es reinventarà. El darrer que he llegit sobre indústria musical és de fa quatre mesos i deia que no saben què fer i que van una mica d’apostar a totes les bandes perquè alguna cosa passarà. Per tant, es redefinirà. Si ho fa bé, serà una oligarquia encara més bèstia. Si ho fa malament, canviarà i vindran altres coses. Sobre les oligarquies, en aquest moment hi ha una cosa més preocupant, i és que són poquíssims els que poden operar amb les dades i la potència de càlcul. Hi ha OpenAI i Google. A OpenAI, Microsoft li va donar 10.000 milions de dòlars d’injecció fa uns mesos. Gasta 700.000 dòlars al dia de factures de llum. Gairebé un milió al dia. Qui es pot permetre això?

L’oLiGARqUiA De GooGLe
AMB eL teXt to MUsic

El (MTG) ha participat al + RAIN Film Fest, el primer festival europeu de cinema amb intel·ligència artificial que s’ha celebrat al campus del Poblenou de la UPF el 14 de juny. Com va ser l’experiència?  

Molt bé, va ser un gran èxit. El vam fer amb molt pocs mitjans, en aquest campus, entre el departament de Comunicació i el departament de Tecnologia. Era el primer que es feia a Europa i el segon al món, i va tenir tres parts. Durant el matí vam fer xerrades i taules rodones sobre creació i intel·ligència artificial. Després, per la tarda, al festival de cinema es van poder veure totes les pel·lícules que s’havien presentat i que ara, durant uns dies, estan disponibles a Filmin. I per acabar, al vespre i nit vam organitzar un festival de música amb intel·ligència artificial. Jo treballo amb música, amb intel·ligència artificial, però faig servir eines que ajudin als creadors, no que els suplantin. En aquest sentit, la música que es va sentir al RAIN era música feta en directe amb humans que s’ajudaven amb eines d’intel·ligència artificial. Què vol dir això? Doncs que pots fer coses que, sense aquesta tecnologia, serien impossibles. Hi va haver sis actuacions molt diverses i experimentals de músics que utilitzen la intel·ligència artificial en directe per aconseguir coses que sense ella no podrien aconseguir.

Explica’ns en què consisteix això exactament 

Mira, posaré un exemple. Estem treballant amb el Raül Refree en una eina que acompanyi els músics. Són enfocs per plantejar els directes de maneres noves, és a dir, de com utilitzar la intel·ligència artificial per complementar o per enriquir, o per a inspirar o per provocar a un músic. Però les possibilitats són infinites, i aquest aspecte m’interessa no solament pels professionals, sinó perquè em semblaria molt bé que la intel·ligència artificial pogués permetre que molta més gent fes música en viu, sobre la marxa. Potser soc un il·lús en el potencial terapèutic de la creació i de sentir la creació, però no hi ha res com fer música. Per tant, per a molta gent que ara no s’atreveix a fer- ho, el que està clar és que la intel·ligència artificial la pot ajudar. Nosaltres ara estem treballant amb el Raül, que és un músic professional, però molts conceptes es poden portar a altres dominis. Imagina’t un grup de nens que creen música ballant tots junts. Això a priori, no és inconcebible.

En quins altres projectes esteu treballant
ara mateix el grup?

En un projecte que aparentment no té res a veure amb la intel·ligència artificial, tot i que potser utilitza o utilitzarà algunes tècniques, que estem començant i que ens fa molta il·lusió. És una xarxa europea que vol investigar les possibilitats i els efectes de la música en la son. És a dir, de quina manera podríem dormir millor o com la música ens podria permetre dormir millor. És un tema molt curiós perquè, tot i que ens passem un terç de la vida dormint, el que és la ciència de la son és molt recent, només té 20 anys. I d’altra banda, empíricament, el potencial de la música en la son ens remet a milers d’anys. No se sap quan les mares van començar a cantar per a que els nadons s’adormissin. I aquest és el projecte en el que estem treballant, de nom Lullabyte, que ve de cançó de bressol i byte. Hi ha deu centres d’investigació i volem abordar aquest tema d’una manera totalment interdisciplinària, és a dir, des de la musicologia, des de la psicologia, des de la neurociència, des de la tecnologia musical, i combinar els nous usos de diferents investigadors per esbrinar coses diverses sobre el potencial de la música.

En què se centra exactament el vostre grup?

Nosaltres ens centrarem en analitzar la senyal de les ones cerebrals i en produir ones sonores sincronitzades amb aquestes ones cerebrals per potenciar diferents estats, per fomentar diferents cicles cerebrals que se sap que potencien o que incentiven determinats estats del somni, que són els més beneficiosos. En particular el N3, que s’anomena somni profund. S’han fet fins ara experiments amb estimulació elèctrica per sincronitzar aquestes zones i sembla que han produït bons resultats. Nosaltres volem fer alguna cosa semblant, però amb ones sonores. Per tant, treballarem amb pacients o amb subjectes a temps real analitzant les seves zones cerebrals amb un sistema d’ordinador que probablement tingui components d’intel·ligència artificial i que, a partir d’aquí, generi ones sonores o musicals i realimenti el sistema per veure com això pot millorar determinades propietats del son.