El sector dels audiollibres està en auge i, com altres productes culturals, enfronta canvis disruptius davant l’arribada de la IA. Empreses com Apple i Google ja ofereixen veus sintètiques, generades artificialment, capaces de narrar una obra per convertir-la a l’àudio. Però, quines implicacions té l’ús de la IA en aquest sector des del punt de vista de la qualitat? En quina situació queden els actors i les actrius de veu que posen veu als audiollibres? Pot ser realment beneficiosa aquesta tecnologia per a petits autors i editors?

L’audiollibre és una forma d’accés a la cultura cada vegada més popular. A Catalunya aquest mercat està en auge i plataformes com Audible (propietat d’Amazon) estan apostant per augmentar l’oferta de títols a la nostra llengua. De fet, el catàleg a disposició de l’oient en català continua creixent gràcies a editors públics i privats. 

A l’horitzó d’aquest sector, però, apareix una variant de l’audiollibre tradicional que planteja diversos interrogants. La intel·ligència artificial (IA), igual que està passant en altres treballs creatius, ja s’està utilitzant per generar narracions de forma automatitzada. Quines implicacions té l’ús de la IA en aquest tipus de productes culturals?

Imatge de l’Editorial Barcino

Nous serveis per a autors i editors

El gener d’aquest any el gegant tecnològic Apple va llançar discretament un nou servei de narració digital que permet convertir un llibre digital (o ebook) en audiollibre. Sense necessitat d’intervenció humana, aquest programari automatitza la locució de l’obra literària perquè es pugui distribuir en format d’àudio.

Sota l’eslògan “cada llibre mereix ser escoltat”, des de l’empresa dels Estats Units asseguren que amb aquesta tecnologia volen “potenciar autors independents i petits editors”. És a dir, ajudar-los a arribar a un públic més gran sense el cost que suposa la contractació d’un actor o actriu de veu professional.

Audio llibre Foto: Holger Prothmann

Apple no és l’única gran tecnològica que ofereix aquest servei. A finals del 2020 Google va publicar a la seva plataforma Google Play Llibres una biblioteca de veus generades artificialment en idiomes com l’anglès, l’espanyol, el portuguès o el francès, a disposició de qualsevol autor. Diversos d’aquests idiomes tenen variants en funció dels accents de cada llengua.

Si una persona prova un servei i un altre, comprovarà diferències rellevants. La narració digital de Google sona robòtica i automatitzada, amb un estil semblant al dels assistents de veu per a la llar més populars, com Alexa o Siri. Tanmateix, la locució artificial d’Apple és molt millor: la seva veu té una proximitat i una calidesa que d’alguna manera s’acosta a la veu humana.

Una connexió real

Establir una connexió real entre la persona que escolta i la veu que narra el text és clau per a l’èxit d’un audiollibre. Prop del 60% dels oients abandonen un audiollibre perquè no els agrada el narrador, assegura David Ciccarelli, fundador de Voices.com, el principal portal internacional d’actors de veu. Però fins a quin punt una IA pot crear aquesta connexió?

“Els actors [de veu] ofereixen una gamma dramàtica completa. (…) Saben quan fer una inflexió en una paraula. Saben quan fer una pausa més llarga. Saben pronunciar paraules estranyes en un llibre de ciència ficció”, sosté Kristen Ethridge, una autora nord-americana de novel·les romàntiques que va participar en el pilot previ al llançament del servei d’Apple amb diverses obres. Habilitats que les veus sintètiques no tenen.

I és que narrar una obra literària és, en definitiva, actuar. No es tracta només que la veu soni humana. Per actuar és imprescindible entendre el text, cosa que una IA no és capaç de fer.

Aquestes limitacions de les veus sintètiques també apareixen a l’àmbit del doblatge de pel·lícules i sèries audiovisuals. Un sector cultural consolidat a Catalunya que en els darrers mesos ha advertit sobre la pèrdua de qualitat que suposa automatitzar certes locucions. Però sobretot dels riscos d’estendre aquestes tecnologies a la indústria sense una regulació que estableixi unes normes clares d’ús.

El treball humà que hi ha darrere

A l’abril, les principals organitzacions professionals del doblatge en català, DUB (Doblatge Unida de Barcelona) i CPD (Col·lectiu de Professionals del Doblatge), van signar un manifest conjunt que, entre altres qüestions, reclama que sempre hi hagi un consentiment explícit dels autors d’un enregistrament abans que s’utilitzi per entrenar una veu generada artificialment.

Els professionals catalans també demanen que aquestes veus sintètiques comptin sempre amb una marca d’aigua que les identifiqui i fins i tot exigeixen una “moratòria en l’ús d’aquest tipus de tècniques substitutives del treball fet per humans fins que hi hagi una regulació específica sobre el seu ús al sector artístic”.

Com passa amb els programes d’IA generativa de textos i imatges, el treball humà que hi ha darrere de l’entrenament de les veus automatitzades i la manca de consentiment dels autors per a la seva explotació és un dels punts centrals de la discussió.

El 2022 un grup d’actors de veu dels EUA van denunciar que Findaway Voices, distribuïdor líder d’audiollibres al país, havia fet servir sense permís els arxius d’audiollibres narrats per ells per a l’entrenament de models d’aprenentatge automàtic, a través d’una clàusula oculta en els contractes amb la distribuïdora. Els actors van manifestar el temor que aquestes obres haguessin servit per al desenvolupament de les veus sintètiques d’Apple.

“Se sent com una violació que s’utilitzin les nostres veus per entrenar alguna cosa que té com a propòsit ocupar el nostre lloc”, va dir un dels narradors denunciants. Després de la queixa del sindicat d’autors nord-americà principal, que també inclou els actors de veu, Apple va frenar finalment l’ús d’aquests arxius per al desenvolupament dels seus productes d’IA.

Beneficis per al sector?

Les veus intel·ligents d’aquestes grans tecnològiques tenen algun benefici per al sector? L’autora nord-americana Kristen Ethridge assegura que la narració per IA pot ser una bona opció per als lectors que busquen un audiollibre barat i que no busquen una “experiència dramàtica completa”. I estén aquesta reflexió, per exemple, a les persones que escolten un llibre a una velocitat d’1.5 i que, per tant, no prioritzen la qualitat en la narració.

De la mateixa manera, les veus generades digitalment poden ajudar els autors interessats a publicar una o diverses de les seves obres en format d’audiollibre, però que no es poden permetre els costos de contractació d’un narrador professional. Precisament, aquest és el discurs que esgrimeix Apple en oferir les seves veus sintètiques.

Però aquests beneficis aparents, tal com hem vist, tenen també la seva contrapart negativa. De fet, algunes veus critiquen que aquesta retòrica d’indústria privada sobre la inclusió i la democratització d’aquest producte cultural a través de la tecnologia amaga una realitat molt menys amable. Una en què dos col·lectius ja de per si precaritzats (petits autors i editors d’una banda; actors i actrius de veu per l’altra) enfronten els seus interessos per a benefici d’una gran empresa privada.

¿Té sentit creure’s aquest suposat altruisme i esperit democratitzador manifestat per Apple?, es pregunta la investigadora Bridget Vincent, que compara aquest discurs amb el d’altres empreses del capitalisme de plataforma com Uber i Airbnb.

El que sembla clar és que, com està passant en altres àmbits creatius, l’ús de la IA en les narracions d’audiollibres o altres treballs de locució necessitarà unes regles clares que permetin a tots els actors implicats beneficiar-se dels avenços tecnològics actuals.

ARTICLE DEL BLOG RELACIONAT

Adriana Todó, maig 2021

Pablo Jiménez Arandia

Periodista

%d