I primi passi della biologia computazionale

B4Biology
15 apr 2018
Tempo di lettura: 4 min

L’avvento di computer sempre più potenti ed economici, insieme al diffondersi di database aperti in grado di ospitare moli enormi di dati, ha rivoluzionato quasi tutte le branche del sapere e la biologia non fa eccezione. La bioinformatica ha reso possibile analisi di uno spessore e una comprensività prima impossibili, oltre ad aver aperto le porte alle prime simulazioni biologiche in silico. Essa si presenta come un settore in evoluzione rapidissima e dalle tendenze spiccatamente multidisciplinari, un punto di incontro di statistica, biologia, fisica, matematica e informatica. Se

consideriamo la bioinformatica nella sua accezione più generale, senza cioè distinguere, come fanno alcuni, tra bioinformatica come “tool-kit” (cioè applicazione di algoritmi e strumenti tipici della computer science a problemi biologici) e biologia computazionale come scienza vera e propria (i.e. un focus più sui risultati ottenuti dalle analisi computazionali, che sulle analisi stesse), possiamo provare a ricostruirne brevemente la storia, la quale, spesso e volentieri, si perde tra i confini degli

ambiti più teorici della biologia.

Il termine bioinformatica, che oggi sta ad indicare l’utilizzo di tecniche computazionali per comprendere dati biologici, aveva in origine un diverso significato, difatti, coniato nel 1970 da Paulien Hogeweg e Ben Hesper, si riferiva allo studio del trasferimento e del processamento dell’informazione biologica ed era pensato in parallelo alla biochimica e alla biofisica (si vedevano i processi di trasferimento dell’informazione al pari delle reazioni chimiche o dei processi fisici). Si può dire, per quanto questa definizione sia obsoleta, che il primo punto d’incontro, soprattutto a livello teorico, tra informatica e biologia sia stata proprio la nascita di

questa visione “informazione-centrica” dell’organizzazione biologica, la quale diventava esprimibile con termini a cui i computer scientis erano familiari. Questo modo di vedere la biologia, come un sistema dinamico che scambia continuamente informazioni, è confluito in gran parte in un’altra disciplina, intimamente legata alla bioinformatica e ai suoi metodi, ma che guarda al mondo della vita con una filosofia leggermente diversa, chiamata biologia dei sistemi. Per quanto riguarda la nostra cara biologia computazionale (me ne perdonino i puristi, ma userò i due termini come

sinonimi) nel senso più classico del termine è facile pensare al momento in cui essa è maturata e definitivamente esplosa, cioè gli anni “90, con la nascita delle prime tecniche high-throughput (in quel periodo principalmente i sequenziatori di nuova generazione) le quali richiedono cospicue elaborazioni da parte del calcolatore prima di poter arrivare dal dato grezzo a qualche forma di rappresentazione informativa riguardo un particolare fenomeno, soprattutto in luce dell’enorme numero di variabili che possono influenzare questo tipo di esperimenti e minarne la significatività statistica.

Ciononostante, le origini della bioinformatica sono da ricercare negli anni “60 e “70,

quando la mole dei dati non era un problema insormontabile e sequenziare gli acidi nucleici presentava una serie di difficoltà non da poco. La grande spinta all’uso dei computer in biologia arriva dopo la determinazione della prima sequenza proteica da parte di Frederick Sanger negli anni “50 e di coloro che lo hanno seguito e hanno permesso la creazione di un primo nucleo disequenze note usabile per studi di similarità. Fortuna volle che in quegli anni fossero presente anche altre due condizioni molto favorevoli allo svilupparsi di questi primi approcci computazionali:

da una parte un gran numero di ricercatori provenienti da studi fisici e matematici avevano cominciato ad interessarsi alle proteine e alla loro sequenza, dall’altra i computer si erano oramai largamente diffusi nelle università e nei centri di ricerca e l’accesso ai calcolatori non costituiva più un fattore limitante per chi si occupava di biologia, almeno in America. In questo contesto opera Margaret Oakley Dayhoff, considerata una capostipite della bioinformatica (David Lipman, direttore del National Center for Biotechnology Information (NCBI), la definì: “la madre e il padre della bioinformatica”), la quale, dopo i suoi studi in chimica quantistica e matematica, si era interessata all’evoluzione molecolare delle proteine, così come agli approcci analitici per analizzare le sequenze amminoacidiche. I suoi sforzi confluirono nell’Atlas of Protein Sequence and Structure, il primo database di sequenze proteiche della storia (seppur ancora cartaceo); esso comprendeva 65 proteine ed è stato citato circa 4500 volte, rimanendo per molto tempo un punto di riferimento per gli studiosi di filogenesi molecolare e delle similarità strutturali tra domini proteici. L’atlante sarà

poi la base per lo sviluppo del Protein Information Resource (PIR), una risorsa online di sequenze e annotazioni di proteine. Alla Dayhoff si devono, però, anche le matrici PAM, il primo metodo per assegnare i punteggi alle sostituzioni amminoacidiche negli allineamenti tra sequenze, stimati in base all’occorrenza delle stesse in campioni noti e fissato un determinato modello evolutivo.

Degno di nota è anche la realizzazione di un programma in FORTRAN (uno dei primi linguaggi di alto livello, specifico per il calcolo scientifico e sviluppato nella seconda metà degli anni “50 dalla IBM) per l’assemblaggio delle sequenze di frammenti peptidici digeriti nella sequenza più verosimile della proteina madre. Insomma, seppur c’erano stati diversi tentativi, principalmente in genetica delle popolazioni e tassonomia, di simulare modelli biologici a computer già negli anni “50

(parzialmente falliti principalmente per limiti tecnici, limiti che, ancora oggi, seppur , condizionano la riuscita delle simulazioni), la figura di Margaret Dayhoff simboleggia il definitivo e meglio riuscito punto d’incontro di due discipline come l’informatica e la biologia, oltre a rappresentare una delle grandi personalità femminili della scienza, purtroppo non adeguatamente citata e considerata, anche a causa della sua morte in età relativamente giovane.

Per concludere, è difficile ricostruire in una disciplina che si fonda sulle metodiche un profilo storico continuo e organico, nonostante ciò, i lavori sulle sequenze proteiche degli anni “60 e “70 possono considerarsi un punto di svolta nell’ottica dell’affermarsi dei metodi computazionali in biologia.

di Salvatore Milite

Bibliografia:

Bioinformatics: Basics, Development, and Future. Ibrokhim Y. Abdurakhmonov

The origins of bioinformatic., Joel B. Hagen. Nature Reviews Genetics. Volume 1, pages 231–236 (2000)

Margaret Oakley Dayhoff 1925–1983. Bulletin of Mathematical Biology. 46 (4): 467–472. July 1, 1984

The Roots of Bioinformatics in Theoretical Biology. Hogeweg P (2011) . PLOS Computational Biology 7(3)

B4BIOLOGY

il blog dei biologi

I primi passi della biologia computazionale

Post recenti

Commenti