Il Progetto OLGENOME è suddiviso in Work Package (WPs), per i quali sono previste le seguenti attività:
>> WP1: Coordinamento del progetto.
Le attività di ricerca del progetto sono coordinate da un Comitato Scientifico, presieduto dal Coordinatore e costituito dai responsabili dei WPs. Il Coordinatore, in collaborazione al responsabile di ciascun WP, garantisce il coordinamento tra le unità operative al fine del raggiungimento degli obiettivi realizzativi, nel rispetto dei risultati attesi riportati nella proposta di progetto; promuove e coordina riunioni di avanzamento lavori, al fine di favorire la collaborazione dei soggetti proponenti e la condivisione di risultati e conoscenze sviluppate nei vari livelli di realizzazione del Progetto.
>> WP2: Sequenziamento del genoma e assembling.
L’intera sequenza del genoma sarà ottenuta attraverso un approccio combinato “BAC per BAC” e “Whole Genome Shotgun (WGS)”. Il sequenziamento gerarchico di oltre 100 pool di BAC è necessario all’ottenimento della sequenza di ciascuno dei due aplotipi presenti nel genoma diploide altamente eterozigote della cv. Leccino. La sequenza di ciascun pool di BAC, ottenuta con tecnologia Illumina con copertura minima per pool di 50x, sarà ricostruita per l’ottenimento di assembly specifici per aplotipo.
Al fine di ricostruirne lo scheletro, l’intero genoma sarà sequenziato applicando un approccio WGS mediante tecnologia di sequenziamento di terza generazione capace di produrre sequenze lunghe anche qualche decina di migliaia di basi. L’alta eterozigosità e l’elevato numero di regioni ripetute del genoma dell’olivo hanno reso in passato infatti molto complicato raggiungere dei risultati soddisfacenti con tecnologie NGS differenti in grado di produrre sequenze lunghe solo qualche centinaia di basi.
Successivamente tale sequenziamento sarà assemblato tramite il tool FALCON capace di assemblare separatamente i due aplotipi dell’olivo. Questo risulta essere fondamentale in quanto è già stato verificato che i due aplotipi sono molto diversi tra di loro con tasso di polimorfismo ben superiore a quello di un organismo eucariote o di piante in generale.
>> WP3: Ancoraggio del genoma alla mappa genetica
Il genoma sarà orientato ed ancorato ai 23 cromosomi attraverso l’uso combinato del sequenziamento di una libreria Hi-C e della costruzione di una mappa genetica satura.
Sarà costruita una libreria Hi-C tramite digestione enzimatica del DNA, aggiunta di un marker, la biotina, per le regioni con interazione, ligasi delle estremità rimaste libere, purificazione, frammentazione e selezione dei frammenti di DNA con biotina, che sarà sequenziata con tecnologia Illumina per la creazione di una mappa di contatto intra-cromosomi. La successiva analisi bioinformatica permetterà la rimozione delle basi di bassa qualità e delle sequenze chimera rappresentanti solamente frammenti contigui di DNA, l’allineamento delle sequenze WGS risultanti sul genoma assemblato per determinare le regioni che interagiscono e al tempo stesso quantificarle sulla base del numero di sequenze che si allineano sugli stessi punti. Le maggiori interazioni saranno tra regioni vicine all’interno di un cromosoma e questa informazione permetterà di orientare e ordinare tra di loro le sequenze assemblate.
Inoltre verrà costruita una mappa genetica su una progenie derivante dall’incrocio della varietà sottoposta al sequenziamento genomico (cv. Leccino) con la cv. Frantoio. La popolazione ottenuta è costituta da 180 semenzali. L’intera popolazione verrà sottoposta a genotipizzazione mediante GBS (Genotyping-By Sequencing) per l’identificazione e la mappatura di marcatori SNP fino ad un massimo di 15000, potenzialmente sufficienti per consentire l’ancoraggio degli SNP sviluppati sugli scaffold genomici.
>> WP4: Annotazione genica.
Al fine di assegnare ad ogni nucleotide del genoma un possibile ruolo, sarà sviluppata una piattaforma per la predizione della struttura genica su genoma assemblato ed orientato. La predizione della struttura genica si basa su una predizione ab-initio, cioè che faccia uso solamente del genoma assemblato e delle regole generali sulla struttura di un gene, in generale, e nello specifico di olivo, con tool quali Augustus e Glimmer. Sarà integrata l’informazione genica proveniente da altri genomi sfruttando quindi l’omologia di sequenza per la determinazione delle estremità delle regioni codificanti. Infine, ci si avvarrà dei dati trascrittomici specifici di olivo, quindi EST presenti in banche dati pubbliche o dati di sequenziamento dell’RNA prodotti nell’ambito del progetto, che favoriscano la determinazione dei geni specifici di olivo.
Inoltre è prevista l’annotazione funzionale dei geni prodotti utilizzando la suite blast2go che dopo aver allineato i geni predetti a database di geni noti ne attribuisca la funzione biologica tramite la Gene Ontology e possibilmente li inserisca in pathway biologici.
La predizione e l’annotazione genica automatica del genoma sono sì un essenziale punto di partenza che va però integrato con l’intervento esperto di diversi ricercatori nei loro specifici settori di interesse. Si provvederà ad effettuare correzioni e integrazioni dei diversi campi del database prodotto modificando, qualora lo si ritenga necessario, l’inizio o la fine di un gene o di un esone, oppure l’associazione ad un termine della Gene Ontology o inserendo dati relativi ad un polimorfismo o aggiornando la descrizione funzionale sulla base di dati sperimentali e/o di conoscenze già acquisite.
>> WP5: Analisi de novo del trascrittoma di olivo.
Si prevede di realizzare un trascrittoma di riferimento per la cv. Leccino finalizzata ad ottimizzare l’assemblaggio e l’annotazione del genoma e a supportare l’identificazione di geni candidati a funzioni chiave per l’espressione di caratteri di interesse. I cDNA fulllength, ESTs e RNA-seq ottenuti, favoriranno l'annotazione genica in quanto rappresentano le evidenze sperimentali, che opportunamente elaborate e allineate al genoma, permetteranno di identificare le regioni codificanti proteine. Saranno utilizzati RNA ottenuti da una vasta gamma di tessuti e organi in varie fasi di sviluppo della pianta. Successivamente saranno prodotte librerie di sequenza con tecnologia Illumina. Il sequenziamento sarà finalizzato ad ottenere un numero rilevante di reads con la metodica pairedends per agevolare il processo di assembling delle unità di trascrizione. I dati ottenuti saranno utilizzati per aiutare ad ordinare l’informazione della sequenza nell’assemblaggio e nell’annotazione del genoma.
Inoltre si intende utilizzare ll sequenziamento dell’RNA per identificare funzioni geniche che regolano caratteri agronomici rilevanti e che controllano produttività della pianta e qualità della produzione. Saranno presi in esame campioni di tessuti in condizioni sperimentali controllate (es: variazione di parametri ambientali e utilizzo di elicitori) e si procederà all’estrazione dell’RNA e alla produzione di sequenze con tecnologia Illumina. I dati di sequenziamento saranno opportunamente mappati sul trascrittoma di riferimento e sul draft del genoma.