PsicoPop
Inici » La IA pot crear art?

La IA pot crear art?

Les mancances actuals de la intel·ligència artificial en l'àmbit de l'art

per Mau UrrutiaMau Urrutia
17 lectures 15 minuts per llegir-lo

El 1953 Roald Dahl va publicar “The Great Automatic Grammatizator“, una història sobre un enginyer que volia ser escriptor sota l’anonimat. L’endemà de completar la construcció de la màquina de càlcul més ràpida del món, es va adonar que la gramàtica anglesa es regeix per normes quasi matemàtiques. Així, va construir una màquina d’escriure de ficció capaç de generar una història curta de cinc mil paraules en trenta segons… Una novel·la triga només quinze minuts i només cal que la persona manipuli unes nanses i pedals, com si conduís un cotxe o toqués un orgue, a fi de regular el nivell d’humor i el to de l’escrit . Les novel·les que en resultaren foren tan populars, que en un any la meitat de les obres de ficció publicades en anglès, són producte d’aquesta invenció.

Avui, hi ha alguna cosa en l’art que ens faci pensar que no es pot crear pitjant un botó, com en la imaginació de Dahl? Ara mateix, la ficció generada per grans models de llenguatge com ChatGPT és patètica, però segurament aquests programes milloraran ben aviat. Com poden ser de bons? Millor que els humans? I en l’àmbit de la pintura o del cinema?

Què és per a tu l’art? No és pas fàcil de definir, oi? Simplificant-ho i fent-ne una generació podríem dir que l’art és el resultat de moltes eleccions , i això podria explicar-se fàcilment si utilitzem l’escriptura de ficció com a exemple: quan escrivim ficció, estem, conscientment o inconscientment, triant gairebé totes les paraules que escrivim. Si encara ho simplifiquem més, podem imaginar que una història curta de deu mil paraules segueix alguna cosa de l’ordre de deu mil opcions, i quan donem una indicació a una intel·ligència artificial generativa, estem fent molt poques eleccions: si proporcionem una indicació de cent paraules, hem fet unes cent opcions.

Això vol dir que si una I.A. genera una història de deu mil mots basada en allò que li has indicat, ha d’omplir totes les opcions que no has fet ni has indicat, i per fer-ho hi ha diferents maneres: una d’elles, és fer la mitjana de les eleccions que han fet altres escriptors, tal com representa el text trobat a Internet, i aquesta mitjana equival a les opcions menys interessants i més mediocres possibles, d’aquí a què el text que genera la I.A. és, sovint, insípid i sense gràcia.

Una altra manera és indicar al programa que imiti un estil, emulant les eleccions que ha fet un escriptor en concret, però això genera una història molt derivada…

💡 En cap dels dos casos s’està creant art interessant.

Fixem-nos ara en el cas de l’art visual: és cert que és més difícil quantificar les eleccions que pot fer un pintor, per exemple, però fixa’t que les pintures reals porten la marca d’un gran nombre de decisions. Quan li demanem a un programa que converteix text a imatge com dall-e, podem donar una indicació com ara “Un cavaller amb armadura que lluita contra un drac que escup foc” i deixar que el programa faci la resta.

🧠 La versió actual de dall-e accepta indicacions de fins a quatre mil caràcters, és a dir, centenars de paraules, però no són suficients per a descriure tots els detalls d’una escena.

La majoria de les opcions de la imatge resultant s’han de prendre en préstec de pintures similars trobades en línia, i la imatge es pot representar de forma exquisida, sí, però la persona que introdueix les indicacions no pot reclamar-ne l’autoria.

Hi ha qui imagina que els generadors d’imatges acabaran afectant la cultura visual de la mateixa manera que ho va fer en la fotografia, però acceptar que la fotografia és similar a la I.A. generativa no pot fer-se de manera tan ràpida: quan es va desenvolupar la fotografia ningú devia imaginar-se que seria un mitjà artístic perquè no era evident que hi hagués opcions per prendre: només calia configurar la càmera i començar l’exposició. Amb el temps, la gent es va adonar que hi havia moltes coses que es podien fer amb les càmeres, i l’art rau precisament en això: en les moltes opcions que fa un fotògraf.

💡 D’acord, no és senzill ser conscients de quines són les opcions, però quan comparem les fotos d’un aficionat amb les d’un professional, podem veure que hi ha alguna diferència.

🧠 I d’aquí la pregunta: hi ha una oportunitat similar per fer un gran nombre d’opcions mitjançant un generador de text a imatge?

Segurament no. Un artista, tant si treballa digitalment com amb pintura, pren implícitament moltes més decisions durant el procés de realització d’una pintura de les que encaixaria en un missatge de text d’uns quants centenars de paraules.

El director de cinema Bennett Miller ha utilitzat dall-e per a generar unes imatges molt impactants que s’han exposat a la galeria Gagosian . Per a crear-les, va crear instruccions de text detallades i després va demanar a dall-e que revisés i manipulés les imatges generades una vegada i una altra, generant més de cent mil imatges per arribar a les vint imatges de l’exposició . Però ha dit que no ha pogut obtenir resultats comparables en llançament posteriors de dall-e , possiblement perquè Miller utilitzada dall-e per a alguna cosa que no pretén fer, és a dir, és com si pirategés Microsoft Paint perquè es comportés a Adobe Photoshop, però tan bon punt es va publicar una nova versió de Paint, els seus hacks van deixar de funcionar.

Probablement, OpenAI no està intentant crear un producte per servir a usuaris com Miller, perquè un producte que requereix que un usuari treballi durant mesos per a crear una imatge no és atractiu per a un públic ampli, és a dir, l’empresa vol oferir un producte que generi imatges amb un mínim esforç.

☝🏻 Igual succeeix amb un escriptor que utilitza la I.A. per escriure una bona novel·la, i és que el problema de la I.A. generativa és que aquests programes generen molt més del que hi poses, i això és el que impedeix, precisament, que siguin eines efectives per als artistes.

Empreses promotores de la I.A. com Adobe afirmen que desencadenaran la creativitat, és a dir, estan dient que l’art pot ser tota inspiració i no transpiració, però aquests dos conceptes no poden separar-se fàcilment, perquè l’art requereix prendre decisions a totes les escales, i les innombrables eleccions a petita escala fetes durant la implementació són tan importants per al producte final com les poques eleccions a gran escala realitzades durant la concepció. És un error equiparar “a gran escala” amb “important” quan es tracta de les eleccions que es fan a l’hora de crear art; la interrelació entre la gran i la petita escala és on rau l’art!

Creure que la inspiració supera tota la resta és signe que algú no està familiaritzat amb el mitjà, i això és cert encara que l’objectiu d’un sigui crear entreteniment en lloc d’art. Sovint se subestima l’esforç necessari per entretenir: una novel·la de thriller pot no estar a l’altura de l’ideal de llibre de Kafka – una “destral per al mar glaçar que tenim dins“, però encara pot ser tan finament elaborada com un rellotge suís. I un thriller eficaç és més que la seva premissa o la seva trama, i per això podem dubtar que puguem substituir cada frase d’un thriller per una que sigui semànticament equivalent i que la novel·la resultant sigui tan entretinguda. Això vol dir que les seves frases, i les opcions a petita escala que representen, ajuden a determinar l’eficàcia del thriller.

Podem, però automatitzar els escrits que no tenen l’expectativa d’incloure milers d’opcions? Qualsevol escrit que mereixi la teva atenció com a lector, és fruit de l’esforç de qui l’ha escrit. L’esforç durant el procés d’escriptura no garanteix que valgui la pena llegir el producte final, però sense ell no es pot fer un treball que valgui la pena. El tipus d’atenció que prestes en llegir un correu electrònic personal és diferent del que prestes quan llegeixis un informe comercial, però en ambdós casos només es garanteix quan l’escriptor hi pensa una mica.

Durant els Jocs Olímpics de París Google va emetre un anunci de Gemini, el competidor del GPT-4 d’OpenAI. En aquest anunci es mostra un pare utilitzant Gemini per redactar una carta com a fan, que la seva filla enviarà a un atleta olímpic que l’inspira. Google va retirar l’anunci després de la reacció generalitzada dels espectadors: ningú espera que la carta de fan d’un nen a un esportista sigui extraordinària : si la jove hagués escrit la carta ella mateixa, probablement hauria estat indistingible de moltes d’altres: la importància de la carta d’un nen, tant per al nen que l’escriu com per a l’esportista que la rep, ve de ser sincera més que no pas de ser eloqüent.

Quantes vegades hem enviat targetes de felicitació comprades a la botiga, sabent que el destinatari tindrà clar que no hem escrit nosaltres les paraules de la dedicatòria? El programador Simon Willison ha descrit la formació per a grans models de llenguatge com un “blanqueig de diners per a dades amb drets d’autor“, una manera útil de pensar en l’atractiu de la I.A. generativa.

Uns programes que permeten participar en alguna cosa com el plagi, però sense tenir la culpa associada perquè ni tan sols tenim clar que estem copiant.

chatGPT estic contentÉs molt fàcil aconseguir que ChatGPT emeti una sèrie de paraules com ara “Estic content de veure’t“. Hi ha moltes coses que no entenem sobre com funcionen els grans models d’idioma, però una cosa de la qual podem estar segurs és que ChatGPT no està content de veure’t. Un gos pot comunicar que està content de veure’t, i un nen prelingüístic també, tot i que tots dos no tenen la capacitat d’utilitzar paraules. ChatGPT no sent res i no desitja res, i aquesta falta d’intenció és la raó per la qual ChatGPT no utilitza realment el llenguatge: el que fa que les paraules “m’alegra de veure’t” siguin un enunciat lingüístic no és que la seqüència de fitxes de text que la componen estigui ben formada, el que el converteix en un enunciat lingüístic és la intenció de comunicar alguna cosa.

Tenim la temptació de projectar aquestes experiències en un gran model de llenguatge quan emet frases coherents, però fer-ho és caure en el mimetisme: és el mateix fenomen que quan les papallones desenvolupen grans taques fosques a les ales que poden enganyar els ocells fent-los pensar que són depredadors amb ulls grans. Hi ha un context en què les taques fosques són suficients. És menys probable que els ocells mengin una papallona que en tingui, i a la papallona no li importa realment per què no se la menja, sempre que arribi a viure. Però hi ha una gran diferència entre una papallona i un depredador que suposa una amenaça per a un ocell.

La lingüista Emily M. Bender assenyala que els professors no demanen als estudiants que escriguin assajos perquè el món necessita més assajos d’estudiants: l’objectiu d’escriure assajos és enfortit les habilitats de pensament crític dels estudiants . De la mateixa manera que l’aixecament de pesos és útil, independentment de l’esport que practiqui l’esportista, l’escriptura d’assaigs desenvolupa les habilitats necessàries per a qualsevol feina que obtindrà un estudiant universitari.

Utilitzar ChatGPT per completar les tasques és com portar un carretó elevador a la sala de pesos: mai milloraràs la teva forma cognitiva d’aquesta manera.

L’informàtic François Chollet ha proposat la distinció següent: l’habilitat és el bon rendiment que es fa en una tasca, mentre que la intel·ligència és l’eficiència amb què adquireix noves habilitats, i això reflecteix bastant bé les nostres intuïcions sobre els éssers humans, perquè la majoria de la gent pot aprendre una nova habilitat si hi ha prou pràctica, però com més ràpid l’adquireix la persona, més intel·ligent pensem que és . El que és interessant d’aquesta definició és que, a diferència dels tests del quocient intel·lectual, també és aplicable a entitats no humanes: quan un gos aprèn un nou truc ràpidament, ho considerem un signe d’intel·ligència.

El 2019 uns investigadors van fer un experiment en què van ensenyar a conduir a les rates . Van posar les rates en petits recipients de plàstic amb tres barres de filferro de coure. Quan els ratolins posaven les seves potes en una d’aquestes barres, el contenidor avançava, girava a l’esquerra o girava a la dreta. Les rates van poder veure un plat de menjar a l’altre costat de la sala i van intentar que els seus vehicles anessin cap a ell. Els investigadors van entrenar continuadament les rates durant cinc minuts i després de 24 sessions de pràctica, les rates ja sabien conduir. Vint-i-quatre sessions van ser suficients per dominar una tasca que, probablement, cap rata s’havia trobat abans en la història evolutiva de l’espècia. És una bona demostració d’intel·ligència, oi?

AlphaZero és un programa desenvolupat per DeepMind de Google, i juga als escacs millor que qualsevol jugador humà, però durant el seu entrenament va jugar quaranta-quatre milions de partides, molt més del que qualsevol humà pot jugar en tota la vida. Perquè pugui dominar un joc nou, haurà de sotmetre’s a una quantitat igualment enorme d’entrenament. Segons la definició de Chollet, programes com AlphaZero són altament qualificats, però no són especialment intel·ligents perquè no són eficients per adquirir noves habilitats . Actualment, és impossible escriure un programa informàtic capaç d’aprendre fins i tot una tasca senzilla en només vint-i-quatre proves, si el programador no li proporciona informació prèviament sobre la tasca.

Els cotxes autònoms entrenats en milions de quilòmetres de conducció encara avui poden xocar contra un camió que té el remolc bolcat, i això és perquè aquestes coses no es troben habitualment a les seves dades d’entrenament, mentre que els humans que prenen la seva primera classe de conducció sabran aturar-se. Més que la nostra capacitat de resoldre equacions algebraiques, la nostra capacitat de fer front a situacions desconegudes és una part fonamental de per què considerem que els humans som intel·ligents. Els ordinadors no podran substituir els humans fins que no adquireixin aquest tipus de competència.

La I.A. és una tecnologia fonamentalment deshumanitzadora perquè ens tracta com menys del que som: creadors i aprehensors del significat. Redueix la quantitat d’intencions al món.

Algunes persones han defensat els grans models lingüístics dient que la majoria del que diuen o escriuen els éssers humans no és especialment original. I això és cert, però també és irrellevant. Quan algú et diu “ho sento“, no importa que altres persones hagin dit perdó en el passat, no importa que “ho sento” sigui una cadena de text que estadísticament no és remarcable. Si algú està sent sincer, la seva disculpa és valuosa i significativa, tot i que prèviament s’han pronunciat disculpes. De la mateixa manera, quan dius a algú que estàs content de veure’l, està dient alguna cosa significativa, encara que no tingui “novetat”.

I pel que fa a l’art: tant si estàs creant una novel·la, un quadre o una pel·lícula, està compromès en un acte de comunicació entre tu i el teu públic. El que crees no ha de ser completament diferent de totes les obres d’art anteriors de la història de la humanitat per a ser valuós: el fet que siguis tu qui ho digui, el fet que derivi de la teva experiència vital única i arribi en un moment concret de la vida de qui està veient la teva obra, és el que la fa nova.

Tots som productes del que ens ha vingut abans, però és vivint la nostra vida en interacció amb els altres que donem sentit al món. Això és una cosa que un algorisme d’autocompletar mai no pot fer i no deixis que ningú et digui el contrari.

📎 Urrutia, M. [Maurici]. (2024, 03 setembre). La IA pot crear art?. PsicoPop. https://www.psicopop.top/ca/la-ia-pot-crear-art/


📖 Referències:

Subscribe
Notify of
0 Comentaris
Newest
Oldest Most Voted
Inline Feedbacks
View all comments

Publicacions relacionades

Segur que voleu desbloquejar aquesta publicació?
Desboquejos pendents : 0
Segur que voleu cancel·lar la subscripció?
0
Would love your thoughts, please comment.x
()
x

Aquest lloc web utilitza galetes per millorar la vostra experiència. Si continueu, assumim que hi esteu d'acord. Accepta

Política de privadesa