L’intelligenza artificiale e i progressi della chimica. Analisi del prof. Valori

22/09/2023 Redazione web chimica, generazione molecolare, giancarlo, giancarlo elia valori, Intelligenza artificiale, processi decisionali di Markov (Mdp), rappresentazioni chimiche, validità chimica, Variational Autoencoders (Vae)

Negli ultimi anni, il campo delle rappresentazioni chimiche ha conosciuto un’ampia diversificazione, sollevando interrogativi fondamentali sulla scelta della rappresentazione più efficace per specifici problemi. Questo articolo del prof. Valori non solo offre un’illuminante visione del presente, ma sottolinea anche l’entusiasmante promessa che l’intelligenza artificiale porta nella scoperta scientifica, accelerando la generazione di nuovi composti chimici e apportando innovazioni significative al campo della chimica.

Nel corso dei recenti anni i tipi di rappresentazione chimica hanno sviluppato diversi sottotipi; però sfortunatamente, non esiste una risposta chiara su quale sia la rappresentazione più efficiente per un particolare problema. Ad esempio, le rappresentazioni delle matrici sono spesso la prima scelta per la previsione degli attributi, ma negli ultimi anni anche i grafici sono emersi come forti alternative. È anche importante notare che possiamo combinare più tipi di rappresentazioni a seconda del problema.

Perciò come (e quali) rappresentazioni possono essere utilizzate per esplorare lo spazio chimico? Le rappresentazioni di stringhe sono adatte alla modellazione generativa. Inizialmente le rappresentazioni grafiche non erano facili da modellare utilizzando modelli generativi, ma più recentemente la loro combinazione con Vae (Varational Autoencoder) le ha rese un fattore molto interessante.

Nell’apprendimento automatico, un autoencoder variazionale è un’architettura di rete neurale artificiale introdotta da Diederik P. Kingma e Max Welling; esso fa parte delle famiglie dei modelli grafici probabilistici e dei metodi bayesiani variazionali (famiglia di tecniche per l’approssimazione degli integrali).

I Vae si sono rivelati particolarmente utili in quanto ci consentono di avere una rappresentazione continua più leggibile dalla macchina. Uno studio ha utilizzato i Vae per dimostrare che sia le rappresentazioni di stringhe che quelle di grafici possono essere codificate e decodificate in uno spazio in cui le molecole non sono più discrete ma possono essere decodificate in vettori continui con valori reali di rappresentazioni di molecole, e la distanza euclidea tra diversi vettori corrisponderà alla somiglianza chimica. Un altro modello viene aggiunto tra il codificatore e il decodificatore per prevedere l’attributo da raggiungere in qualsiasi punto dello spazio.

Ma mentre generare molecole in sé è un compito semplice – si può prendere qualsiasi modello generativo e applicarlo alla rappresentazione che si desidera – generare strutture che siano chimicamente valide e mostrino le proprietà che desideriamo è una questione molto più impegnativa.

Gli approcci iniziali per raggiungere questo obiettivo implicano modelli su set di dati esistenti e il loro successivo utilizzo per il trasferimento verso l’apprendimento. Il modello viene messo a punto attraverso un set di dati di calibrazione per consentire la generazione di strutture orientate verso proprietà specifiche, che possono poi essere ulteriormente calibrate utilizzando diversi algoritmi. Numerosi esempi di tutto questo implicano l’uso di rappresentazioni di stringhe o grafici; tuttavia, si incontrano difficoltà con la validità chimica o le proprietà desiderate quando esse non vengono ottenute con successo. Inoltre, fare affidamento su set di dati limita lo spazio di ricerca e introduce pregiudizi potenzialmente indesiderati.

Un tentativo per migliorare è quello di utilizzare i processi decisionali di Markov (Markov Decision Process, Mdp) per garantire la validità delle strutture chimiche e ottimizzare l’Mdp stesso in modo da ottenere le proprietà desiderate attraverso il Q-learning profondo (algoritmo di apprendimento per rinforzo senza modello, per trarre il valore di un’azione in uno stato particolare). In matematica, un Mdp è un processo di controllo stocastico a tempo discreto (funzione o segnale, con valori forniti in corrispondenza ad una serie di tempi scelti nel dominio dei numeri interi). Fornisce un quadro matematico per modellare il processo decisionale in situazioni in cui i risultati sono in parte casuali e in parte sotto il controllo di un decisore. I Mdp sono utili per studiare problemi di ottimizzazione risolti tramite la programmazione. Essi sono utilizzati in molte discipline, tra cui la robotica, il controllo automatico, l’economia e la produzione. Il Mdp prende nome dal matematico russo Andrej Andreevič Markov (1856-1922).

Un vantaggio particolare di questo modello è che consente agli utenti di visualizzare la preferenza di diverse azioni: (a) visualizzare il grado di preferenza per determinate azioni (1 è la massima preferenza, 0 la meno preferita); e (b) adottare misure per massimizzare la stima quantitativa della somiglianza del farmaco per la molecola di partenza.

Sebbene sia ancora agli inizi, l’uso dell’intelligenza artificiale per esplorare lo spazio chimico si sta già rivelando una grande promessa. Ci fornisce un nuovo paradigma per esplorare lo spazio chimico e un nuovo modo per testare teorie e ipotesi. Sebbene l’empirismo non sia accurato come la ricerca sperimentale, i metodi basati sul calcolo rimarranno un’area di ricerca attiva per il prossimo futuro e faranno già parte di qualsiasi gruppo di ricerca.

Finora abbiamo visto come l’intelligenza artificiale possa aiutare a scoprire nuove sostanze chimiche più rapidamente sfruttando algoritmi generativi per cercare nello spazio chimico. Sebbene questo sia uno dei casi d’uso più degni di nota, non si ferma qui. L’intelligenza artificiale viene applicata a molti altri problemi in chimica, tra cui:

Lavoro automatizzato in laboratorio. Si possono utilizzare tecniche di apprendimento automatico per accelerare i flussi di lavoro di sintesi. Un approccio utilizza i laboratori a guida autonoma per automatizzare le attività di routine, ottimizzare la spesa in risorse e risparmiare tempo. Un esempio relativamente nuovo, ma degno di nota, è l’uso della piattaforma robotica Ada, per automatizzare la sintesi, l’elaborazione e la caratterizzazione di materiali. Gli strumenti di Ada sono sviluppati per fornire previsioni e modelli utili ad automatizzare i processi ripetitivi, grazie a sistemi di machine learning e tecnologie di intelligenza artificiale per la raccolta, la comprensione e l’elaborazione dei dati, così da consentire alle risorse di dedicarsi ad attività a maggior valore aggiunto.

Ada in pratica è un laboratorio che scopre e sviluppa nuovi materiali organici a film sottile senza alcuna supervisione umana. La sua produttività sta ponendo in imbarazzo la maggior parte dei neolaureati. L’intero ciclo di fabbricazione del film sottile, dalla miscelazione dei precursori chimici, alla deposizione e alla ricottura termica, fino alla caratterizzazione elettrica e ottica finale, richiede solo venti minuti. Un ulteriore ausilio è l’uso di un robot chimico mobile in grado di azionare strumenti ed eseguire misurazioni su 688 esperimenti nell’arco di otto giorni.

Previsione della reazione chimica. Si possono utilizzare modelli di classificazione per prevedere il tipo di reazione che si verificherà, oppure semplificare il problema e prevedere se si verificherà una determinata reazione chimica.
Estrazione di dati chimici (data mining). La chimica, come molte altre discipline, dispone di un’ampia letteratura scientifica per lo studio di andamenti e correlazioni. Un esempio notevole è il data mining delle grandi quantità di informazioni fornite dal Progetto Genoma Umano per identificare le tendenze nei dati genomici.
Infine, sebbene la nuova tendenza basata sui dati si stia sviluppando rapidamente e abbia avuto un grande impatto, comporta anche molte nuove sfide, tra cui il divario tra calcolo ed esperimento. Sebbene i metodi computazionali mirino a contribuire al raggiungimento degli obiettivi degli esperimenti, i risultati dei primi non sono sempre trasferibili ai secondi. Ad esempio, quando utilizziamo l’apprendimento automatico per trovare molecole candidate, dobbiamo tenere presente che le molecole raramente sono uniche nei loro percorsi sintetici, ed è spesso difficile sapere se una reazione chimica inesplorata funzionerà nella pratica. Anche se funziona, ci sono problemi con la resa, la purezza e l’isolamento del composto in oggetto di studio.
Il divario tra il lavoro computazionale e quello sperimentale diventa ancora più ampio, poiché i metodi computazionali impiegano metriche che non sono sempre trasferibili a quest’ultimo, come l’elettrodinamica quantistica (Quantum Electrodynamics, Qed) che descrive tutti i fenomeni che coinvolgono le particelle cariche interagenti per mezzo della forza elettromagnetica, per cui la sua verifica sperimentale potrebbe non essere fattibile. Vi è inoltre la necessità di un database migliore, però sorge la mancanza di parametri di riferimento. Poiché l’intero spazio chimico è infinito, si spera di avere un campione sufficientemente ampio che possa aiutare nella successiva generalizzazione. Tuttavia, la maggior parte dei database attuali sono progettati per scopi diversi e spesso utilizzano formati di file differenti; alcuni di essi non dispongono di procedure di convalida per gli invii o non sono progettati, se pensiamo ai compiti dell’intelligenza artificiale. Va pure detto che la maggior parte dei database di cui disponiamo hanno una portata limitata di dati chimici: contengono solo determinati tipi di molecole; inoltre la maggior parte dei compiti che implicano l’uso dell’intelligenza artificiale per le previsioni chimiche non dispongono di una piattaforma di riferimento, rendendo impraticabili i confronti tra molti studi diversi.

Uno dei motivi principali del successo di AlphaFold – come abbiamo già visto è un programma di intelligenza artificiale sviluppato da DeepMind (Alphabet/Google) per predire la struttura tridimensionale delle proteine – è che ha fornito tutto quanto sopra come parte della valutazione critica del Protein Structure Prediction – ossia previsione della struttura proteica, quale deduzione della struttura tridimensionale di una proteina dalla sua sequenza di aminoacidi, ovvero la previsione della sua struttura secondaria e terziaria dalla struttura primaria – tale valutazione dimostra la necessità di sforzi organizzati per semplificare e migliorare altri compiti che coinvolgono la previsione chimica.

In conclusione, mentre continuiamo ad avanzare nell’era digitale, nuovi algoritmi e hardware più potenti continueranno a sollevare il velo su problemi precedentemente intrattabili. L’integrazione dell’Intelligenza artificiale nella scoperta chimica è ancora agli inizi, ma è già un luogo comune sentir dire «scoperta guidata dai dati».

Molte aziende, siano esse giganti farmaceutici o start-up di recente fondazione, hanno adottato molte delle tecnologie di cui sopra e hanno apportato maggiore automazione, efficienza e riproducibilità alla chimica. L’Intelligenza artificiale ci consente di condurre la scienza su una scala senza precedenti e negli ultimi anni ciò ha generato molte iniziative e attirato finanziamenti che continueranno a condurci ulteriormente verso un’era di scoperta scientifica autonoma.

Cosa aspetti?

Al costo di meno di un caffè al mese potrai leggere le nostre notizie senza gli spazi pubblicitari ed accedere a contenuti premium riservati agli abbonati – CLICCA QUI PER ABBONARTI