|
|
UNITA' OPERATIVA DI NEUROCHIRURGIA |
![]() |
Articolo
originale della rivista Neurosurgery dell’Aprile 2003 tradotto a cura del
Dr. V. Scaglione
La maggioranza dei neurochirurghi sa, che è stata stabilita la sequenza completa dei 3 miliardi di paia di basi del genoma umano (6, 12). Molti laboratori di Neurochirurgia stanno già usando giornalmente i dati del Human Genoma Project per trovare nei loro esperimenti migliori trattamenti per le malattie neurochirurgiche. Tre miliardi di paia di basi sono una montagna di dati alquanto difficile da immaginare. Cercare manualmente tra i dati del genoma umano sarebbe proibitivo: immaginate soltanto di mancare di vedere quel che stavate cercando e di dovere incominciare daccapo. Questa costituisce una quantità di dati talmente elevata, che i nostri computer domestici e di laboratorio sono insufficienti per un’analisi significativa. Nonostante tre miliardi di paia di basi sembrino un gran numero, il database Entrez-Nucleotide del National Center for Biotechnology Information (NCBI) ha più di venti miliardi di paia di basi di dati liberamente disponibili per la ricerca e il confronto. Tutti questi dati sono disponibili ondine senza restrizione.
Bioinformatica, la scienza della biologia e dei computer, conserva, compila, annota, analizza e diffonde dati sulla sequenza molecolare biologica in un modo significativo, tale da essere utile ai ricercatori di tutto il mondo. Un autore ha scritto “stiamo nuotando in un mare di dati rapidamente crescente… come faremo a non annegare?” (10) e ha suggerito, che la bioinformatica è per il biologo molecolare il corrispettivo delle lezioni di nuoto.
Anche se la stampa ha riportato, che con la pubblicazione della sequenza del genoma umano gli scienziati hanno decodificato il libro della vita, questo è lontano dalla realtà. Anche se questo traguardo costituisce una pietra miliare nella storia dell’umanità, la scienza della genomica continua a crescere. Prediciamo che fra dieci anni il campo sarà irriconoscibile in base agli standard attuali. Avremo imparato una grande quantità di cose in più sul genoma umano, come discuteremo più avanti, e l’accumulo di dati sulle sequenze sta aumentando in maniera esponenziale. I protocolli sperimentali biologico molecolari diventano sempre più user-friendly (facili da usare anche da non esperti) con ogni mese che passa. Sperimentazioni, che sarebbero sembrate troppo complicate e eccessivamente ambiziose cinque anni fa, adesso sono routine, e tecniche di biologia molecolare stanno diventando rapidamente parte dell’armamentario del ricercatore neurochirurgo di laboratorio. Inoltre, man mano che impariamo di più sulla variazione individuale genetica, saranno sicuramente scoperti marker genetici, che identificheranno, chi è predisposto ad una data malattia, la storia naturale di questa malattia e la risposta della terapia in un dato ospite. La bioinformatica attualmente è un utile esercizio, che aiuta ad imparare allo scienziato neurochirurgo, e giocherà ben presto, in un futuro non così distante, un ruolo nella pratica della neurochirurgia clinica.
Il dogma centrale della biologia molecolare, come descritto inizialmente da Francis Crick, stabilisce che l’acido desossiribonucleico genomico (DNA) è usato per creare acido ribonucleico (RNA), che in seguito è usato per creare proteine. La categorizzazione dei blocchi degli edifici della vita in DNA, RNA e proteine ha comportato la suddivisione delle sequenze dei dati in diversi databases. Molti dei databases online sono divisi in DNA genomico, sequenze espresse (DNA complementare [cDNA]) e proteine (derivate dai RNA di trascrizione). Queste tre montagne di dati possono essere cercate, indipendentemente o tutte insieme. Il DNA genomico è lo stesso in ogni cellula dell’organismo e rappresenta la sagoma maestra dalla quale è creato il RNA: il completamento del genoma umano, che ha fatto così tanto il protagonista nel 2001, è stato lo stabilire la sequenza di praticamente tutte le sequenze genomiche derivanti da un piccolo numero di umani. Queste informazioni sono ottenibili liberamente da due differenti compilazioni dello sforzo di sequenzazione del genoma umano.
Anche se il Dna genomico è costante nelle cellule dello stesso organismo, il contenuto in RNA cambia ampiamente. I set di geni che sono attivamente trascritti per fare RNA negli astrociti differiscono da quelli nei neuroni. Inoltre, i geni che possono essere espressi in un dato tipo di cellula, come un neurone, possono variare con il tempo. L’espressione di geni in una data cellula può variare nel corso di una giornata o nel corso della vita della cellula, che nel caso del neurone può costituire decenni. Alcuni geni sono trascritti ubiquitariamente in ogni tempo, mentre altri sono trascritti in un momento fugace durante l’embriogenesi. Se considerate che tra 30.000 e 40.000 geni umani sono espressi in differenti quadri anatomici e temporali, il potenziale di complessità è sorprendente (4, 6). Inoltre, molti di questi geni hanno molteplici varianti di giunzione a livello del RNA, cosa che accresce la complessità dell’organismo.
Il Human Genoma Project e il Cancer Anatomy Genoma Project hanno raccolto RNA di diversi tipi di tessuti in diversi momenti dello sviluppo praticando la trascrizione al contrario (riverse-transcribing) per fare il cDNA e sequenziare i geni. Questo ci ha fornito un esteso, ma parziale, elenco dei geni espressi negli umani e in altri organismi. Alcuni di questi geni sono geni noti con un nome; altri non hanno nome, ma solo un numero, e sono depositati nei database come etichetta di sequenza espressa (espressed sequence tag, EST). Prima d’ora, se un ricercatore desiderava sapere il quadro di espressione di un dato gene, doveva eseguire un Northern blot, utilizzando RNA di diversi tessuti isolati in tempi diversi durante lo sviluppo. Attualmente, come passo preliminare, prima di eseguire un Northern blot per mostrare il quadro di espressione, il ricercatore può eseguire un Northern blot virtuale O ESTern blot), nel quale il gene interessato è confrontato con database di geni espressi, che indicano ai ricercatori il tempo, localizzazione e livello di espressione (web site: http://www.ncbi.nlm.nih.gov/SAGE/sagevn.cgi). Anche se un Norhern blot convenzionale è superiore ad un Northern blot virtuale, possono essere necessarie settimane per eseguire un Northern blot convenzionale, mentre quello virtuale può essere eseguito in 5 minuti. EST che si pensa appartengano allo stesso gene sono raggruppate nel sito web UniGene per aiutare i ricercatori a rinvenire la sequenza quadro di lettura completa aperta del loro gene di interesse. Gli EST sono stati di immenso aiuto ai ricercatori coinvolti nella scoperta di nuovi geni.
Il messenger RNA (mRNA) è tradotto in polipeptidi o proteine. Dato che un dato mRNA può spesso essere combinato in modi diversi, un gene può dare origine a molte proteine diverse, spesso con funzione ampiamente diversa. Una varietà di risorse di bioinformatica basata sul web è disponibili per identificare, confrontare ed analizzare proteine. Deducendo la sequenza mRNA di un gene e traducendolo poi in proteina, si può confrontare la sequenza della proteina con altre proteine note. La funzione della proteina può essere spesso predetta in silicio prima di fare qualsiasi lavoro in vitro. Questi tre gruppi di dati, DNA genomico, mRNA e proteine, costituiscono l’essenza dei databases online.
Nonostante esistano molti siti Internet di bioinformatica, la “grande stazione centrale” per la bioinformatica è la homepage della NCBI. La homepage della NCBI ha link verso la maggioranza dei più importanti databases per la bioinformatica così come potenti strumenti per il confronto e la analisi di sequenze. Il sistema di ricerca e recupero di NCBI, Entrez, fornirà sequenze per i geni noti usando un potente motore di ricerca e funzioni ai livelli di nucleotide, proteina e genoma. Dato che questi potenti motori di ricerca e database necessitano di sofisticate conoscenze di scienze computeristiche per essere scritti e mantenuti, la maggioranza dei biologi (e la maggioranza dei neurochirurghi) non ha le abilità computeristiche necessarie per comprenderli e costruirli da soli. Comunque, molti di questi programmi sono diventati molto facili da usare, utilizzando la tecnologia familiare del “punta e clicca “ per renderli utilizzabili dal biologo e neurochirurgo interessato.
Uno scenario di ricerca comune coinvolge l’isolamento di un gene o di un segmento di gene coinvolto in un processo patologico. Prendete, per esempio, un gene iper-regolato nell’ippocampo durante l’ischemia isolato mediante studi di display differenziale o di microarray. Per sapere che cosa sta succedendo, dobbiamo sapere, se questo è un gene noto, se è simile ad altri geni noti e se la sequenza di proteina traslata ha qualche motivo funzionale, che suggerisca perché questo gene è iper-regolato nell’ippocampo ischemico. Inoltre, molti dei cosiddetti “geni” degli oderni microarrays sono soltanto cDNA di lunghezza parziale (EST) e per dare significato ai nostri riscontri, abbiamo bisogno del cDNA intero per gli studi funzionali. Lo strumento prototipico di analisi della sequenza è la website di NCBI con il basic local alignment tool (BLAST) [strumento di allineamento basale locale]. Lo strumento BLAST è in grado di confrontare il gene ippocampale iper-regolato con tutti i 20 miliardi di nucleotidi del database pubblico. Può anche tradurre la sequenza isolata e confrontarla con il database delle proteine. Altre varianti BLAST sono in grado di retro-traslare le proteine in DNA, permettendo di utilizzarle per la ricerca in database di DNA. Quest’ultimo tipo di strumento è particolarmente utile nei tentativi di isolare un gene umano sulla base della sua rassomiglianza di geni isolati in altri organismi. Anche se la potenza di processazione matematica, statistica e computeristica per eseguire questi sforzi di confrontazione è spaventosa, i programmi software sono già stati scritti e la computerizzazione è stata effettuata mediante grandi mainframe computer. Diversi tipi di confrontazione sono disponibili sul server BLAST. Sul sito http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/informations.html è ottenibile un corso online, che vi insegna come usare lo strumento BLAST. Il programma BLAST non solo identificherà i geni verso i quali la sequenza isolata è più simile, ma vi mostrerà anche quali porzioni delle due sequenze sono simili. Nei casi in cui la sequenza isolata di gene sia soltanto un cDNA parziale, talvolta è possibile trovare il resto del quadro di lettura di apertura (cDNA) mediante l’uso soltanto di strumenti bioinformatici.
Ci sono stati soltanto due tentativi di sequenziare il genoma umano: un tentativo privato da parte di una compagnia for-profit denominata Celera e un tentativo pubblico (6, 12). I dati del tentativo pubblico sono disponibili liberamente in due websites, quello della NCBI e la gateway del browser genetico dell’Università della California Santa Cruz. La maggioranza del software online è facilmente da usare e può essere imparato in poche ore di esercitazioni. Dei tre miliardi di paia di basi soltanto il 1,1% è costituito da regioni codificanti, o esoni, mentre il 24% è “intronic” e il 75% è ”intergenic” (12). Le funzioni dei due ultimi tipi di DNA genomico sono ampiamente ignote. La disponibilità della sequenza del genoma umano e degli strumenti per la sua analisi ha grandemente accelerato il passo della ricerca scientifica. Anni addietro, se volevamo mappare un nuovo gene per determinarne la sua locazione cromosomica, dovevamo effettuare grandi sperimenti che terminavano con la ibridizazione metafisica fluorescente in situ , occorrendo spesso mesi per l’intero processo. Adesso con una piccola parte della sequenza di DNA e il Santa Cruz Genoma Server dell’Università della California possiamo trovare la localizzazione cromosomica di un nuovo gene in meno di 5 minuti (5). Similmente l’analisi mutazionale del DNA genomico in studi sulle anomalie congenite o sul cancro spesso necessita della determinazione della struttura genetica (anche detta la intron/exon structure) per un dato gene. Un tempo questo avrebbe richiesto mesi di duro lavoro al banco. La struttura genomica della maggioranza dei geni può adesso essere determinata, approssimativamente in un ora, usando le sequenze del genoma umano. Possono essere anche usati programmi che predicono l’esistenza di regioni codificanti (regioni che codificano mRNA) per trovare i terminali 3’ e 5’ dei geni. Questi programmi sono disponibili al UC Santa Cruz Genoma Browser e in altri siti su Internet (9).
La maggior parte della sequenza genomica, di cui disponiamo al giorno d’oggi, si base su un numero estremamente piccolo di individui. Una delle prossime imprese per gli scienziati del genoma è di scoprire le variazioni nelle sequenze di DNA tra gli individui. Si pensa che la maggioranza delle variazioni umane dipendano dal polimorfismo di singoli nucleotidi (SNPs). Questi sono siti nei geni, per i quali ci sono variazioni in due o più alleli nelle popolazione normale sana, che differiscono soltanto per un paio di basi. Le altre variazioni della sequenza umana sono costituite principalmente da inserzioni o delezioni di una o più paia di basi, polimorfismi di lunghezza ripetuta e ri-arrangiamenti (11). SNPs avvengono probabilmente in media in ogni 1000 fino a 2000 paia di basi nel genoma umano (11). La maggioranza di questi SNPs sono probabilmente silenti e di nessuna conseguenza, ma alcuni sono responsabili delle differenze che vediamo tra gli individui. Una delle pubblicazioni del Human Genoma Project riporta più di 2,1 milioni di SNPs (12). Di questi 2,1 milioni di SNPs soltanto l’1% ha comportato una variazione della sequenza aminoacidica di una proteina. Se questi SNPs, che comportano una variazione della sequenza aminoacidica di una proteina, o se quelli fuori dalle regioni codificanti abbiano o no effetti funzionali è attualmente sconosciuto. Tra gli effetti possibili di quelli al di fuori della regione di codifica (che non influiscono sulla sequenza aminoacidica) sono inclusi effetti sul livello di espressione o della stabilità del mRNA (7).
Ci si aspetta che la maggioranza , se non tutte, le malattie umane abbiano una componente genetica che, sia conferisca suscettibilità o resistenza, sia influenzi l’interazione con l’ambiente (3). Alcuni SNPs sono probabilmente alleli a bassa penetranza che predispongono a malattie comuni, come il diabete mellito, l’ipertensione e l’aterosclerosi (3). Per esempio, persone che sono portatrici di un comune polimorfismo nel gene del gamma- recettore del perossisone attivato alla proliferazione, in cui una prolina cambia in alanina (Pro12Ala), sono protetti dal diabete mellito in paragone agli individui portatori del più comune allele alla prolina (1). Alcuni scienziati hanno stimato, che ogni individuo abbia da 24000 a 40000 SNPs, che comportano variazioni di aminoacidi (7).
SNPs senza un effetto biologico diretto hanno, comunque, una grande utilità per i ricercatori. Dato che la maggioranza degli SNPs ha una bassa frequenza di mutazione ricorrente, si presentano stabili nel tempo. Gli SNPs sono distribuiti in tutto il genoma e differenti SNPs sono senza dubbio correlati (in distanza ravvicinata con il genoma) a geni che causano malattia (11). Studiando grandi popolazioni affette o non da una data malattia (per esempio le malformazioni arterovenose, AVMs), sarà possibile identificare l’area del genoma responsabile della malattia osservata. Così osservando i SNPs, che i pazienti affetti da AVM, hanno in comune in confronto alla popolazione non colpita, potremo determinare le regioni genomiche da analizzare alla ricerca di geni che determinano la suscettibilità alle AVMs. Uno dei grandi vantaggi nell’usare SNPs, in confronto con molte altre tecniche di mappatura genetica, è che la tecnologia degli SNPs non richiede una raccolta estesa del DNA nei membri della famiglia degli individui affetti. Molte organizzazioni pubbliche e private stanno sviluppando tecnologie per valutare grandi numeri di SNPs nell’ambito del settaggio di una singola sperimentazione. Il National Advisory Council on Human Genoma Research sta sviluppando un catalogo di variazioni della sequenza umana per facilitare questo tipo di ricerca (3).
Anche se il Human Genoma Project può considerarsi concluso, altri genomi stanno per essere sequenziati. Molti altri genomi, incluso quello della drosophila melanogaster e di diversi microrganismi, sono stati pubblicati, ma altri come quello del topo, ratto, pesce rosso e di primati non umani sono ancora in studio. Anche per ricercatori, che sono interessati primariamente in sistemi umani, la disponibilità di genomi non umani è di valore. Molti dei geni umani importanti nella patogenesi di malattie sono altamente conservati in molte specie. Per esempio il tumor suppressor gene hSBF5/INI1 è altamente conservato nel lievito, drosophila, topo e umani (13). Confrontando una proteina nell’ambito di diverse specie, possiamo studiare l’importanza di parti di aminoacidi individuali e, pertanto, l’importanza o la mancanza di importanza di una mutazione senza senso. Il confronto di regioni non codificanti (introns e cosiddetti “junk”DNA) in diverse specie ci aiuterà a comprendere la funzione di queste sequenze. Il pesce rosso, per esempio, ha un genoma veramente compatto (400 megabasi) con poco DNA ripetitivo. Ci si aspetta, che l’analisi di regioni non codificanti in questo organismo modello, possa essere di valore nell’identificare siti regolatori conservati (4).
L’analisi classica della funzione di una nuova proteina richiede grandi quantità di lavoro di laboratorio al banco, spesso per anni, per essere completata. Quando nuove proteine vengono costruite durante il processo evolutivo, esse sono abitualmente sintetizzate da un blocco di una serie di edifici, o domini, che sono prestati da altre proteine. Oggigiorno, tenendo conto questo, è possibile analizzare la funzione di una proteina (o di una proteina putativa) nel comfort del proprio ufficio andando a cercare i domini di segnali proteici conservati. Cercando tra i diversi programmi online di analisi per la sequenza aminoacidica (vedi il sito web SMART), è possibile conoscere, se si tratta di una proteina trans-membranica, se ha un domini di chinasi, se si lega ai microtubuli o se ha uno dei tanti domini conosciuti. Usando questo tipo di strumenti, i gruppi, che hanno sequenziato il genoma umano, sono stati in grado, sulla scorta dei dati del genoma umano, di enumerare diverse famiglie di proteine; per esempio, hanno visto, che il genoma umano contiene 12 geni della famiglia del fattore di necrosi tumorale e 126 geni della famiglia Ras (12). Nonostante questi potenti strumenti, la ricerca di laboratorio al banco non è obsoleta. A più del 40% della proteine enunciate dal Human Genoma Project non è stato possibile attribuire una funzione molecolare, cercando nei domini delle proteine, o l’inserimento in una famiglia di proteine. Si stanno facendo degli sforzi per sviluppare un software, che possa predire la struttura tridimensionale di una proteina sulla base soltanto della sua sequenza aminoacidica. Una proteina è giudicata anche dalla “compagnia” che ha. Diversi gruppi stanno costruendo online database per catalogare le interazioni tra proteine, per tutte la sequenze proteiche, di cui si dispone oggi.
Il Cancer Genome Anatomy Program è amministrato dal National Cancer Institute ed è disponibile sul sito web del NCBI. Contiene una serie di databases e di strumenti bioinformatici utili ai ricercatori che studiano il cancro, incluso il profilare l’espressione genica nei tumori, rendere disponibili reagenti biologici come il cDNA tumorale e catalogare le aberrazioni cromosomiche rinvenute nelle forme di cancro dell’uomo (8). Sono disponibili anche una serie di strumenti, che possono completare e confermare i dati da banco (come quelli degli esperimenti di microarray). Questo gruppo ha depositato nelle banche dati ESTs di 117 differenti tipo di cancro, inclusi molti di interesse per i neurochirurghi (8). Più di 36000 differenti casi di pazienti e i loro dati citogenetici sono disponibili per oltre 97 diversi tipi istologici di cancro (8).
Dopo lo stragrande successo della genomica negli ultimi dieci anni e l’inizio dell’era post-genomica, una varietà di diversi “omics” stanno diventando popolari. Le biologie cosiddette “omic” possono essere identificate dall’uso che fanno di potenti tecnologie di laboratorio per generare ampi set di dati (4). A causa della popolarità e disponibilità del microarray per studiare, quali geni vengono trascritti in una data cellula, la transcriptomica ha ottenuto grande popolarità. Vi è un trend nella comunità del microarray a condividere dati grezzi online in web site di laboratorio in modo di metterli a disposizione di altri ricercatori. La prossima generazione è della proteomica, lo studio di quali proteine vengono espresse nelle cellule. Con lo sviluppo delle tecnologie di spettroscopia di massa, sta diventando possibile analizzare, quali proteine siano presenti in un campione “en masse”. Gli studi sulle sequenze dei promoter, per scoprire perché un dato gene viene o non viene espresso in un dato posto e tempo, sono stati battezzati regulomics e online sono disponibili strumenti per analizzare le sequenze dei promoter. Come già detto, sono in sviluppo online data base delle interazioni note proteina-proteina, cosiddette interactomics, per definire i set di proteine interagenti (l’interactoma). Uno degli obiettivi finali di queste tecnologie è di essere in grado di ridurre una singola cellula in un diagramma di circuito comprendendo la funzione di tutte le molecole che la compongono.
La pagina web Online Mendelian Inheritance in Man (OMIM) è una splendida risorsa di genetica umana su Internet. Si tratta di un catalogo online di malattie e geni in relazione alla genetica umana scritto e edito dal dr. Victor A. McKusik. Il motore di ricerca di facile intuizione può essere usato per cercare malattie, geni o addirittura loci cromosomici. Uno scenario tipico dell’uso di OMIM per la ricerca su un gene di interesse potrebbe essere di vedere, se è coinvolto in un disordine genetico. Questo sito è anche di valore per esaminare disordini genetici associati con una singola malattia. Per esempio la ricerca in OMIM sulle “malformazioni artero-venose” porterà alla luce un numero di non comuni sindromi ereditarie, le cui manifestazioni possono includere le AVMs, così come informazioni genetiche sulle AVMs stesse.
I progressi in biologia e computeristica hanno dato ai ricercatori accesso a dati biologici, che sarebbero sembrati fantascienza soltanto 15 anni fa. Tutti questi hanno condotto ad un rapido avanzamento in molti campi della ricerca. La bioinformatica ha accelerato il passo della ricerca, ma ha anche permesso esperimenti che altrimenti sarebbero stati impossibili. Queste tecnologie hanno anche iniziato a strappare benefici clinici, come esemplificato dal design del farmaco terapeutico bersaglio imatinib (Gleevec), usato nel trattamento della leucemia cronica, il cui sviluppo è stato facilitato da strumenti bioinformatici (2). Fra dieci anni la conoscenza dell’informatica di base sarà probabilmente uno standard tra i ricercatori neurochirurghi di laboratorio. Ancora, fra dieci anni quello che noi correntemente chiamiamo bioinformatica, sarà considerato, senza speranza, arcaico in confronto con la prossima generazione di strumenti biologici, che ci aiuteranno a conoscere ancora meglio le malattie neurochirurgiche.
sei alla ricerca di articoli scientifici sull'argomento?