Information

Finns det allmänt tillgängliga genomsekvenser av en familj?

Finns det allmänt tillgängliga genomsekvenser av en familj?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Jag skulle vilja utforska genomsekvensen av en allmänt tillgänglig genomsekvens i en familj (som mor, far, son, dotter...). Om sådana mänskliga genomsekvenser inte är offentligt tillgängliga är åtminstone alla djurs familjedata också OK. :) Jag är ingen biolog, utan syftar till att bara förstå saker tydligare.


Jag vet att 1000 Genomes har sekvenserat moder-far-barn-genom från populationer runt om i världen (jag tror att åtminstone några av dessa prover erhölls från HapMap) och deras data är allmänt tillgänglig genom att följa länkarna på deras webbplats.


Exempel på biomedicinska användningsfall

Klinisk datautvinning

Datakällor som kan användas för att bygga slutsatser inom translationell och klinisk forskning expanderar snabbt. Stanford-forskare har tillgång till ett antal observationsdatauppsättningar - Stanford Hospital EHR, Medicare, IPUMS Census Data, Optum Claims, Clinical and consumer health care data, Truven Health MarketScan Research Databases med 230 miljoner patientjournaler för att nämna några. Bara en av dessa källor, Stanford clinical data warehouse, genererar 6 miljarder normaliserade omnämnanden av läkemedel, sjukdomar, procedurer och enheter från cirka 2 miljoner patienter som spänner över cirka 35 miljoner kliniska dokument. Bara PubMed har under de senaste två decennierna publicerat över 2 miljoner forskningsartiklar. Föreställ dig omfattningen när vi börjar kombinera flera källor till EPJ-data, skadedata, kunskapsbaser och litteratur. För att analysera och returnera resultat från bearbetning av 100-tals miljoner till miljarder poster för att bygga ett ramverk för kausal slutledning, är det viktigt att kunna köra dessa analyser på ett stort antal bearbetningsenheter.

Grafiska databaser

I komplex multimodal biologi (t.ex. omics, wearable, imaging, . ), är relationerna mellan datauppsättningar svåra att karakterisera med hjälp av relationsdatabaser. Det lämpliga paradigmet för att lagra och bryta dessa datamängder är en grafdatabas. Grafdatabaser lagrar data i noder (vertices) och kanter snarare än tabeller, som i relationsdatabaser. Grafanalys ger möjlighet att söka och identifiera olika egenskaper hos en grafdatauppsättning: noder kopplade till varandra, gemenskaper som innehåller noder, de mest inflytelserika noderna, chokepoints i en datauppsättning och noder som liknar varandra.

Nya implementeringar inom industrin har visat att användning av grafalgoritmer kan lösa verkliga problem som att upptäcka cyberattacker, skapa värde från internet of things sensordata, analysera spridningen av epidemier (ebola) och exakt identifiera läkemedelsinteraktioner snabbare än någonsin tidigare. Ett verktyg med öppen källkod, Bio4j, är en grafisk databasram för proteinrelaterad informationssökning och hantering som integrerar de flesta tillgängliga data i Uniprot KB (SwissProt + Trembl), Gene Ontology (GO), UniRef (50,90,100), NCBI Taxonomy och Expasy Enzyme DB. NeuroArch är ett ramverk för grafdatabas för att fråga och köra hjärnkretsar för fruktflugor. Forskare letar alltmer mot grafdatabaser när nuvarande datamodeller och scheman inte kommer att stödja forskningsfrågor och studien har många nya och olika datakällor som till sin natur är ostrukturerade.

Djup lärning

Under det senaste decenniet har maskininlärningsmetoder baserade på djupa neurala nätverk (DNN) dominerat inlärningsproblem inom datorseende, taligenkänning och naturlig språkbehandling. Tillvägagångssätt för djupinlärning approximerar komplexa input-output-mappningar genom att automatiskt lära sig hierarkiska, icke-linjära representationer av indata och därigenom undvika behovet av funktionsteknik som plågar inlärningsproblem inom biologi där indatatyperna ofta är dåligt förstådda. DNN är idealiskt lämpade för biologisk upptäckt eftersom de är (i) mest effektiva när de tillämpas på massiva, olika träningsdata (ii) utformade för att fånga komplexa, icke-linjära och hierarkiska relationer och (iii) elegant hantera gemensam inlärning över flera relaterade prediktionsuppgifter som delar relaterade funktionsutrymmen. Genomiska data och de associerade biologiska frågorna visar dessa egenskaper. Pascal GPU:er (P100) visar djupinlärningsacceleration i de senaste riktmärkena.

Genomisk datautforskning

Att förstå genomer i individ- eller kohortskala uppnås genom att jämföra individ- eller kohortgenomdata med befintliga kunskapsbaser eller andra kohorter. Befintliga kunskapsbaser som fångar strukturell, funktionell, biomarkör och farmakologisk information expanderar snabbt t.ex. UCSC Genome Annotations, ENCODE, GWAS-katalog, PharmGKB och GO. Populationsdatabaser innehåller nu information över 1000-10 000-tals genom, t.ex. 1000 Genomes-projektet, Exome Sequencing Project, UK10K-konsortiet och AmbryShare. Analys tar många former, inklusive databasfrågor, statistiska metoder som GWAS eller maskininlärningstekniker. Att samanalysera användardata med den exploderande volymen av offentliga/privata datauppsättningar kräver ett stort antal kärnor, GPU:er eller minne.

Metagenomik

En typisk metagenomisk analys kräver a) sammansättningar (genom eller transkriptom), b) analys och validering efter montering såsom sökning mot kända bakteriella och virala databaser, klassificering av nya sammansättningar, och kvantifiering och slutligen, c) korrelationsstudier t.ex. med metaboliter. Minneskraven för de novo-montering ökar dramatiskt med genomstorleken. I en nyligen genomförd undersökning av minneseffektiva algoritmer [Kleftogiannis D] försökte utredare köra en mängd olika assembler på moln- eller råvaruservrar. För stora genom eller datamängder misslyckas dessa körningar eller resulterar i fler contigs, dvs. ofullbordade sammansättningar. Forskare från Oklahoma State University slutförde den största metagenomiska sammanställningen hittills genom att sekvensera data från ett jordmetagenom som krävde 4 TB minne [Couger BM].

Sekvenssökningsalgoritmer t.ex. BLAST kan särskilt dra nytta av tillgången på stora mängder RAM tillgängligt på denna apparat. I dessa sökalgoritmer jämförs nyligen sammansatta sekvenser mot stora databaser av GB till TB med kända DNA- och proteinsekvenser. När databasfilerna väl har laddats in i RAM-minnet kan de nås på under en mikrosekund med delat minne – slumpmässig läsning var som helst. Empiriskt är data i minnet, på system som liknar denna superdator, 1 000 gånger snabbare än data på hårddiskar.

En annan aspekt av metagenomiska studier är avlägsnande av mänsklig kontaminering från mikrobiomeprover. Mikrobiomeprover som samlas in från saliv, tarm, hud, näshåla och andra platser består av en betydande mängd mänskligt DNA. Typiska mikrobiomstudier samlar in många prover (platser eller longitudinella). Till exempel har det rapporterats att vissa prover i The Human Microbiome Project innehåller upp till 95 % mänsklig sekvens och 4 % av proverna innehåller >10 % mänskliga läsningar. Studier visar upprepade gånger att avidentifierade humana genomdata kan återidentifieras [Naveed M]. Så även om det inte finns någon betydande oro i det nuvarande regelverket, kan det bli ett problem under kommande år. Det finns nyare algoritmiska tillvägagångssätt som är beräkningsmässigt dyra, som kan användas för att förbearbeta alla mikrobiomprover för att göra ett överlägset jobb med att avlägsna mänsklig kontaminering.


Konstruktion och innehåll

Datagenerering och insamling

För att förbättra studier av den genetiska mångfalden hos människor genererade eller samlade vi in ​​genomisk data från olika mänskliga populationer (tabell 1 och ytterligare fil 1: Tabell S1). De nygenererade helgenomsekvenseringsdata (1009 genom från 16 etniska grupper i Asien) sekvenserades av Asian Admixed Genomes Consortium (AAGC). Under tiden arbetade vi tillsammans med våra samarbetspartners såväl som andra initiativ i Asien-Stillahavsområdet, och sekvenserade eller genotypade de genetiska varianterna av olika östasiatiska och sydostasiatiska populationer. Vi samlade också in allmänt tillgängliga genomiska datauppsättningar som täckte inte bara allmänna populationer som studerats av internationella projekt, såsom HapMap Project [1], Human Genome Diversity Project [2], 1000 Genomes Project [4], HUGO Pan-Asia SNP Project [62], Human Origin-datauppsättningen [54] och Simons Genomic Diversity Project [6], men också genomiska datauppsättningar från inhemska eller isolerade populationer som bidragit med regionala sekvenseringsinsatser, såsom Singapore Genome Variation Project [63, 64] och genomiska datamängder från etniska grupper med genom deponerade i Estonian Biocentre (tabell 1 och ytterligare fil 1: Tabell S1). Ovannämnda data representerar den stora genomiska mångfalden hos den mänskliga befolkningen som beskrivs i PGG.SNV-associerad databas, PGG.Befolkning [80]. Förutom genomisk data samlades även allelfrekvensdata in från datamängder med ett stort antal prover, såsom Genome Aggregation Database (gnomAD) [39] och NHLBI Exome Sequencing Project (ESP) [3], såväl som frekvensdata från 3554 friska japanska individer [43]. Även om det kan finnas vissa överlappningar, till exempel är frekvensinformationen för ESP redan inkluderad i gnomAD, vi behandlade dessa datamängder som oberoende så att källorna är spårbara. Förutom dagens genom samlade vi in ​​många forntida mänskliga och arkaiska hominin-genom (forntida genom hädanefter), varav åldrarna sträckte sig från 430 000 år före dagens till början av nittonhundratalet, som täcker landskapet av genomisk mångfald över den mänskliga evolutionära tidsskalan . Alla datamängder och populationer som ingår i databasen är sammanfattade i Tabell 1 respektive Ytterligare fil 1: Tabell S1.

Dataintegration, kvalitetskontroll och uppströmsanalys

Olika dataanalysprocesser utfördes baserat på typen av genomdata (samtida vs. antika genom), såväl som datatypen (sekvenserings- eller genotypningsdata) (Fig. 1).

Analysramverk för datagenerering, insamling, integration och anteckningar. Ellipsen i den högra hexagonalen representerar andra populationsgenomiska analyser som inte ingår i den aktuella versionen av databasen men som skulle utföras i senare versioner

För att sekvensera data från samtida genom med rådata analyserade vi varje uppsättning från rensade fastq-filer (Ytterligare fil 2: Kompletterande metoder). Korta läsningar kartlades till det mänskliga referensgenomet (GRCh37) med hjälp av "mem"-algoritmen "bwa mem -M -R @RG ID:name SM:name" i Burrows-Wheeler Algorithm (BWA) [81]. Duplicerade läsningar togs bort med Picard. Omkalibrering av baskvalitetspoäng (BQSR), anrop av singelnukleotidvariant (SNV) och omkalibrering av variantkvalitetspoäng (VQSR) utfördes med BQSR-modulen, HaplotypeCaller-modulen respektive VQSR-modulen i GATK [82, 83]. Varianter i gemensam VCF-fil med phred-skalad kvalitetspoäng mindre än 30 (QUAL < 30) ansågs vara låg kvalitet och filtrerades därför bort. Varianter inom komplexa regioner i det mänskliga referensgenomet där variantanropet kan vara utmanande togs också bort efter den pipeline som beskrivs på annat håll [6]. Metoddetaljerna för den råa sekvenseringsdatabearbetningen sammanfattades i Ytterligare filer. För 3,5KJPN- och gnomAD-datauppsättningar med endast VCF-filer behölls endast varianter märkta "PASS" i QUAL-kolumnen för VCF-filer. För antika genom med rådata använde vi BAM-filer för uppströmsanalys, eftersom tidigare studier antogs ha utfört strikt kvalitetskontroll för forntida kortläsningar. Variantanrops- och filtreringsmetoderna liknade de strategier som används för samtida genom som nämnts ovan.

Vi kontrollerade kvaliteten på varje genotypningsdatauppsättning på två nivåer. Först, inom datamängder, tog vi bort SNV: er med en samtalsfrekvens på < 90% (över alla individer) och krävde minst 90% fullständig genotypning för varje individ (över alla SNP). Vi kasserade också nyligen relaterade individer genom att filtrera en individ från alla paren när identitet efter härkomst (IBD) var > 0,25. Observera att denna IBD-tröskel endast tog bort den andra graden av släktskap, vissa inhemska etniska grupper av liten befolkningsstorlek kunde behålla vissa prover med tredje gradens släktskap, även om de flesta populationer inte påverkas. För det andra integrerade vi varje datamängd i 1KGP-data för att uppskatta datakvaliteten genom att utföra principal komponentanalys (PCA) (Ytterligare fil 2: Figur S1). Outliers identifierades med hjälp av PGG.Population webbverktyg [80] och togs sedan bort från genotypningsdatauppsättningar. På båda nivåerna bestämdes stränginformation från helgenomsekvensdata baserat på Human Genome Build 37-positioner, och en sträng vändes för att matcha den för sekvenserade data. På båda nivåerna togs alla A/T- och G/C-markörer bort för att minska risken för någon tvetydighet.

För att dokumentera SNV: er med båda genomsammansättningarna konverterade vi koordinaterna för alla dataset, förutom 1KGP, från GRCh37 till GRCh38 med Picard. För 1KGP fick vi direkt VCF med GRCh38-montering från den officiella webbplatsen. Datauppsättningar för båda genombyggnaderna applicerades ytterligare för annotering och annan nedströmsanalys.

Befolkning och härkomsttilldelning

I sammanhanget PGG.SNV, befolkning eller etnisk grupp hänvisar till en sorts "ärvd" status av delad genetisk härkomst, språk, historia, samhälle, kultur eller nation. För dagens mänskliga prover verifierades först populationer baserat på PCA (ytterligare fil 2: figur S1). Population och/eller stickprovsavvikelser som står i konflikt med det geografiska ursprunget för provtagning och/eller självrapportering (rapporteras av varje datamängd) skulle exkluderas i vår databas. Populationer med extremt stor urvalsstorlek och tydliga provtagningsplatser delades in i olika undergrupper. Hankineserna från Han Chinese Genomes Project (n = 51 094) är det enda fallet i den aktuella versionen av PGG.SNV, eftersom det är världens största etniska grupp och tidigare studier har visat deras understrukturer [84,85,86]. Varje befolkning tilldelades vidare i följande åtta geografiska grupper med anor härrörande från kontinenten där gruppen är bosatt: afrikansk, amerikansk, centralasiatisk och sibirisk, östasiatisk, oceanisk, sydasiatisk, sydostasiatisk och västeurasien. För forntida mänskliga genom tilldelade vi populationer baserat på geografi och deras tidsperioder, eftersom vi inte vet exakt vilken etnisk grupp de tillhör. Den tids- och geografibaserade populationstilldelningen för antika genomer underlättar för oss att spåra allelfrekvensfluktuationen genom historien och därmed förstå det genetiska ursprunget för en specifik variant. Alla populationer och deras härkomstinformation kan erhållas från tabell S1 och avsnittet om användarhandboken PGG.SNV webbplats.

Variantkommentar och annan nedströmsanalys

Varianteffekt och bevarandepoäng utfördes med en varianteffektprediktor [87]. Populationsprevalensen av variant för varje population beräknades från genotypräkningarna för motsvarande population. Befolkningsdifferentieringen mätt med FST mellan varje par av populationer beräknades efter Weir och Cockerham [88]. Naturligt urval analyserades med SelScan [89]. Genomisk mångfald och länkojämvikt beräknades i realtid med hjälp av VCFtools [90]. För sekvensering av datamängder utan tillgängliga genotyper på en individuell nivå, såsom 3,5KJPN och gnomAD datamängder, kan analyser av naturligt urval, genomisk mångfald och länkojämvikt inte utföras av PGG.SNV.

Analys av populationsprevalens för mendelska ärftliga sjukdomsvarianter

Varianterna associerade med mendelska sjukdomar erhölls från ClinVar, där varianter har grupperats i fem kategorier ordnade efter sjukdomens svårighetsgrad: (1) patogen, (2) sannolikt patogen, (3) osäker signifikans, (4) sannolikt benign och (5) benign, enligt rekommendation från American College of Medical Genetics and Genomics och Association for Molecular Pathology (ACMG/AMP) [91].

Webbplatsdesign och databasback-end

PGG.SNV finns på https://www.pggsnv.org och kräver inget användarnamn eller lösenord. Den statiska webbteknologin som användes inkluderade HTML5, CSS och Bootstrap-ramverket. För att förbättra användarupplevelsen implementerades JavaScript, jQuery och ECharts. Den dynamiska webben byggdes med hjälp av Java och ett Spring MVC-ramverk. Integrative genomic viewer (IGV) [92] bäddades in i webben för att möjliggöra visualisering av varianter. Genomisk data lagrades med hjälp av ett Huawei datalagringssystem. Anteckningsdata importerades till MySQL och MongDB. Data om naturliga urvalssignaler var JSON-formaterade, så data kunde kännas igen och ritas av LocusZoom.js på den främre webbsidan. Vi tar emot e-postförfrågningar och ger snabba svar på [email protected], och alla förslag på webbplatsen och databasen är välkomna.


Material och metoder

Isolerat hel-RNA från de fem glasålarna förbereddes för RNA-sekvensering. Bibliotek för RNA-Seq sekvenserades genom Illumina HiSeq TM 2000 enligt tillverkarens manual. Parändbibliotek sekvenserades i 101 X 2 nukleotiders längdavläsningar, med 120 nukleotidadaptorer. Hela fragmentlängden var 357 nukleotider. Basanropet och bildanalysen gjordes enligt Illuminas standardpipeline. Råavläsningar av djupsekvensering gick igenom kvalitetskontrollproceduren som gjordes med hjälp av FASTX-Toolkit: FASTQ/A kortläsningsförbehandlingsverktyg, med endast kvalitetsvärde Phred-poäng över 20 nukleotider kvar, vilket betyder att endast läsningar med per bas noggrannhet över 99  % Hölls. Dessutom trimmade vi ned längden på läsningarna till 70 nukleotider för läsningar av låg kvalitet. Transkriptomet rekonstruerades först genom de novo-montering. För att uppnå maximal noggrannhet använde vi tre olika mainstream de novo monteringsverktyg: Trinity, Oases [27] och SOAPdenovo-Trans [28]. Kvalitetskontrollerade avläsningar sattes samman i tre separata uppsättningar av kontiger, med de tre olika verktygen. Trinity applicerades med standardinställningar, medan Oases och SOAPdenovo-Trans applicerades med flera kilometers strategi. För att ytterligare eliminera överlappande contigs, klustrade vi de tre uppsättningarna av contigs med CD-HIT-EST [29] i tre uppsättningar av unigener. Slutligen klustrade vi unigener med hög likhet tillsammans med verktyget CAP3 [30]. Kvaliteten på monteringen uppskattades huvudsakligen genom en genomsnittlig längd av unigener, samt kvalitetspoäng N50 och N90. N50 representerar längden på den längsta unigenen bland samlingen av unigener lika med hälften av summan av alla unigener, medan N90 betyder längden på den kortaste unigenen bland samlingen av unigener lika med nittio procent av summan av alla unigener. Maximal och minsta längd av sammansatt unigen fungerar också som ett index för bedömningen.

Överflöd av de sammansatta unigenerna uppskattades genom RSEM pipeline [31]. Kvantiteter av transkripten uppskattades genom FPKM-värde. FPKM, frekvens av avläsningar per kilo bas per miljon, beräknades genom att justera avläsningar på sammansatta transkript med Bowtie [32]. Ett de novo upprepningsbibliotek av Anguilla japonica byggdes från utkastgenomet [7] genom RepeatScout [21]. Sedan poolades de novo-sammansättning av RNA-Seq-data med den fullständiga och partiella CDS, EST och tidigare gjorda gäl-RNA-seq-sammansättning [17] av Anguilla japonica från NCBI som EST-bevis. EST-beviset inkluderar de allmänt tillgängliga RNA-seq-datauppsättningarna SRX482728, SRX247092, SRX115953 och hela kroppens transkriptomsekvensdata. Tillsammans med de kända proteinerna från NCBI utfördes genomstrukturell annotering genom pipeline MAKER [9]. Pipelinen maskerade först upprepningssekvenserna enligt det tidigare byggbiblioteket med Repeatmasker (http://repeatmasker.org), och utförde sedan ab initio förutsägelse genom upprepad träning av SNAP [33] och polerad med Exonerate [34].

För att hitta de sammansatta transkripten som kodar proteiner sprängdes unigener mot NCBI icke-redundant proteindatabas, TrEMBL och Swiss-Port [35] med BLASTX. Träffar med ett e-värde lägre än 10 till negativt 5, filtrerade genom straffskattning genom proteinets trovärdighet, skulle betraktas som homologer. Därefter hittades tillgängliga Gene Ontology [36] termer listade. Å andra sidan hittades potentiell proteinkonserverad domän genom RPSBLAST mot Pfam [37] och NCBI COG. För att hjälpa den systembiologiska analysen i framtiden, kommenterades också tillgängliga KEGG-vägar [38].

För ställningsändamål använde vi en förbättrad version (som ska beskrivas någon annanstans) av den genordningsbaserade ställningsmetoden utvecklad av Aganezov et al. [10]. Eftersom denna metod är beroende av genordningar av flera genom, förbehandlade vi genomiska sekvenser av Fugu [39], Stickleback [40], Medaka [41], Tetraodon [40], Coelacanth [42] och Zebrafisk [43] förutom Anguilla japonica att representera dem som sekvenser av homolog gen (bestäms av respektive ställningsgränser). Ställningar utan homologa gener filtrerades bort från genomen under förbearbetningen. I motsats till den ursprungliga metoden som beskrivs i Aganezov et al. [10], den förbättrade metoden står för geninsättningar/deletioner och duplikationer och därför behövdes ingen filtrering för unikt geninnehåll. Vi använde det fylogenetiska trädet i Fig.  11a. Medan den var försedd med 7190 ställningar med homologa gener på dem, identifierade ställningsmetoden 525 länkar respektive sammansatta ställningar. Dessa ställningar kartlades sedan till manliga och kvinnliga länkkartor tillhandahållna av Kai et al. studie [8]. Ordningen för de kombinerade ställningarna bestämdes genom en applicering av topologisk sort. Med ställningarna grupperade i manliga och kvinnliga kopplingsgrupper överlappade med varandra, kan ordningen för ställningarna på kromosomerna sorteras med topologisk sorteringsalgoritm. Fiskarnas fylogenetiska träd och processen för topologisk sortering illustreras i fig.  11 .

Översikt över byggnadsprocessen för genetisk länkkarta. a Vi använde följande fylogenetiska träd. Medan den var försedd med 7190 ställningar med homologa gener på dem, identifierade ställningsmetoden 525 länkar respektive sammansatta ställningar. Dessa ställningar kartlades sedan till manliga och kvinnliga länkkartor tillhandahållna av Kai et al. studie. b Ställningarna som kartlagts i manliga och kvinnliga kopplingsgrupper sorterades sedan i en enda grupp. Som illustreras i grafen ger byggnadsställningar markerade med samma färger bevis för den allmänna ordningen av dem på kromosomen. Ordningen kan sedan sorteras genom topologisk sorteringsalgoritm


Slutsats

Utvecklingen av hermafroditism spelade en avgörande roll i domesticeringen av vinrankor. Även om det har förekommit frekventa undersökningar av det könsbestämmande stället för blomman i vinrankor, har platsens struktur tills nyligen förblivit svårfångad. Men utvecklingen av långlästa hel-genomsekvenseringsinsatser i vinstockar bidrog till att fastställa ursprunget till hermafroditism i vinrankor som ett resultat av en sällsynt rekombinationshändelse. Med hjälp av hagelgevärssekvenseringsdata från 363 hermafroditiska genotyper identifierade vi två unika rekombinationsmönster, vilket gav upphov till två distinkta H-haplotyper, H1 och H2. Strukturella skillnader mellan H1- och H2-haplotyper samt uppskattningar av divergenstiden tyder på att diversifiering av SDR inträffade före domesticering och stöder minst två oberoende utvecklingar av den hermafroditiska egenskapen under grapevinens domesticeringshistoria.


Biosäkerhetsstyrning av syntetisk biologi i olika länder

Det är svårt att ha exakta definitioner och lagstiftningar över syntetisk biologi eftersom den är sammanflätad med olika discipliner. Ändå hanteras lagstiftningen för syntetisk biologi i olika länder för att utfärdas i enlighet med forsknings- och tillämpningsområdena för syntetisk biologi.

Status för lagar och förordningar om syntetisk biologi i USA

USA:s regering har utfärdat policyer, förordningar och lagar som styr olika biologiska produkter. Till exempel klassificeras patogener baserat på deras virulensnivåer och tillgängligheten av vacciner och/eller effektiva antipatogenläkemedel. Olika nivåer av fysisk inneslutning har föreskrivits beroende på patogenklassificeringar. När det gäller laboratorieledningar har US Centers for Disease Control and Prevention (CDC) och National Institutes of Health (NIH) publicerat en manual om rekommendationer för fysisk inneslutning av patogener med titeln 𠇋iosafety in Microbiology and Biomedical Laboratories” ( Berns, 2014).

Alla läkemedel i USA regleras av Federal Food, Drug and Cosmetic Act (FDCA). Specifikt beskriver kapitel 5 i FDCA regulatoriskt godkännande och testning av läkemedel inklusive specifikationer, märkning, säker hantering och anvisningar för säker användning av sådana läkemedel, såväl som krav för kliniska prövningar. Andra som t.ex. Toxic Substance Control Law, Plant Insect Law, etc., övervakar relevanta avdelningar (Trump, 2017).

Efter mjältbrandsattackerna 2001 har USA infört en rad lagar och förordningar som täcker många områden som förebyggande av hot mot biosäkerhet, utveckling av biosäkerhetsläkemedel och reglering av teknologi med dubbla användningsområden. Dessa lagar och förordningar inkluderar Public Health Security and Bioterrorism Preparedness Response Act från 2002, Bioshield Act, Biological Defense and Pandemic Vaccine and Drug Development Act, National Bioengineered Food Information Disclosure Standard, USA:s regerings regulatoriska policy för livsvetenskaper Dual-Use Research och andra lagar och förordningar.

När det gäller övervakningen av vetenskaplig livsforskning utfärdade USA:s regering DURC:s policy. Life science är en forskning som, baserat på nuvarande kunskap, rimligen kan förväntas ge kunskap, information, produkter eller teknologier som direkt skulle kunna användas felaktigt för att utgöra ett betydande hot, med en lång rad potentiella konsekvenser, mot folkhälsan och säkerheten. , grödor och andra växter, djur, miljön, material eller nationell säkerhet.

Det finns två amerikanska policyer för forskning med dubbla användningsområden som är oroande. Den ena är USA:s regeringspolicy för tillsyn över livsvetenskaper DURC (U.S. Department of Health & Human Services, 2015). Den släpptes den 29 mars 2012 och fastställde en amerikansk regeringspolicy för DURC som tillämpas på en väldefinierad delmängd av biovetenskaplig forskning som involverar 15 ämnen och toxiner och sju kategorier av experiment och etablerade regelbunden granskning av federala myndigheter i USA . Den andra är United States Government Policy for Institutional Oversight of Life Sciences DURC, som släpptes av USA:s regering den 24 september 2014. Institutionell tillsyn av DURC är avgörande för ett omfattande tillsynssystem. Denna policy fastställer institutionernas ansvar att övervaka life sciences DURC, eftersom institutionerna är mest bekanta med den life science-forskning som bedrivs i deras anläggningar. De är också de mest lämpliga byråerna för att axla ansvaret för att främja och stärka forskning och kommunikation inom området biovetenskap.

Dessa två DURC-policyer kompletterar för att stärka granskning och tillsyn av biovetenskaplig forskning för att identifiera potentiell DURC, och för att utveckla och implementera riskreducering där så är lämpligt och enligt federal lagstiftning. Den kompletterar de befintliga reglerna och policyerna från USA:s regering om innehav och hantering av patogena mikroorganismer, och ger vägledning till relaterade individer, inklusive forskare, nationella säkerhetstjänstemän och globala hälsoexperter. De betonar en ansvarskultur genom att påminna alla inblandade parter om den gemensamma plikten att upprätthålla vetenskapens integritet och förhindra missbruk av syntetisk biologi.

Status för lagar och förordningar om syntetisk biologi i de europeiska länderna

Enligt den nuvarande EU-lagstiftningen om GMO är det mesta av den forskning som bedrivs inom området syntetisk biologi genteknik. Denna lag reglerar hur organismer är genetiskt modifierade och hur GMO används, inklusive marknadsföring av GMO och deras produkter (Buhk, 2014). För att begränsa tillämpningsområdet för lagen har EU tillsatt en särskild arbetsgrupp för att överväga tillämpningar av ny bioteknik inom växtförädling och andra biologiska modifieringar. Europeiska unionen har formulerat en serie direktiv för GMO och framväxande bioteknik som omfattar etiketter, korrekt inneslutning, omlastning och säker användning i forskningsmiljöer (Keiper och Atanassova, 2020).

Europeiska unionens lagstiftning om användning och reglering av genetiskt modifierade organismer är huvudsakligen baserad på direktiv 90/219/EG, som reglerar genetisk modifiering av mikroorganismer och deras odling, lagring, transport, destruktion och bortskaffande, och direktiv 2001/18/ EC, som reglerar avsiktlig utsättning av GMO. Även om EU:s lagstiftning om syntetisk biologi kontinuerligt har uppdaterats under de senaste två decennierna, har EU:s rättsliga ram kritiserats för att inte vara tillräckligt omfattande och förslag har lagts fram för att modifiera den för att passa den snabba utvecklingen av bioteknik och den nya era av syntetisk biologi (Eriksson et al., 2018 Bratlie et al., 2019 Eriksson et al., 2020).

Status för lagar och förordningar om syntetisk biologi i Kina

Syntetisk biologi utvecklas mycket snabbt i Kina, särskilt inom områdena avancerad biotillverkning, mikrobiell genomförädling, industriell enzymteknik och biomedicin. Med tanke på farhågorna om biorisk har Kina utfärdat lagar och förordningar om biosäkerhetsstyrning av syntetisk biologi för laboratoriepraxis för att säkerställa biosäkerhet och biosäkerhet (tabell 1). Den ständiga kommittén för National People’s Congress, representanten för Kinas högsta lagstiftande församling, utfärdade Biosäkerhetslagen i Folkrepubliken Kina 2020. Kapitlen 4 och 5 i Biosäkerhetslagen anger generellt säkerhetshanteringen av bioteknik forskning, utveckling och tillämpningsaktiviteter och av patogena mikrobelaboratorier och formulera enhetliga biosäkerhetsstandarder för laboratorier. Eventuella administrativa föreskrifter, lokala föreskrifter och avdelningsregler kan inte strida mot denna biosäkerhetslag. Ministeriet för vetenskap och teknik utarbetade reglerna för säkerhetshantering av bioteknologisk forskning och utveckling (förordningar för bioteknikforskning) direkt efter den genredigerade babyhändelse som orsakades av en kinesisk vetenskapsman för att främja och garantera en sund och ordnad utveckling av Kinas bioteknik forsknings- och utvecklingsverksamhet och upprätthålla nationell biosäkerhet. Genredigeringsexperimentet bröt allvarligt mot akademisk etik och normer. Åklagarämbetet fann att det var i ett dilemma att det inte fanns någon lämplig lag för att döma Jiankui He skyldig, eftersom det inte fanns någon sådan lag för att förbjuda forskare från att utföra genredigeringsexperiment på människor på den tiden. Utkastet till förordningar om bioteknikforskning kommer att fylla denna rättsliga lucka. Dessutom har en rad policyer utfärdats för förebyggande och kontroll av infektionssjukdomar och laboratoriehantering. Följaktligen övervakas och hanteras olika studier enligt betygsnormerna adekvata riskbedömningar bör utföras under omvandlingen av forskning till praktiska tillämpningar för att undvika stora biosäkerhets- och biosäkerhetsrisker.

BORD 1

Förteckning över bestämmelserna om biosäkerhetsstyrning av syntetisk biologi.

Lagar och förordningarUtfärdande myndighetDatum för antagande
Biosäkerhetslagen i Folkrepubliken KinaStändiga kommittén för National People’s CongressUtfärdad den 17 oktober 2020.
Föreskrifter om säkerhet för administration av genetiskt modifierade jordbruksorganismerstatsrådetUtfärdad den 23 maj 2001, ändrad 2011 och 2017.
Föreskrifter om biosäkerhetshantering av patogena mikrobiologiska laboratorierstatsrådetUtfärdad 12 november 2004, ändrad 2016 och 2018.
Åtgärder för administration av säkerhetsutvärdering av genetiskt modifierade jordbruksorganismerJordbruksministeriet (upplöst, vars myndigheter har övertagits av ministeriet för jordbruk och landsbygdsfrågor)Utgiven den 5 januari 2002.
Arbetsregler för säkerhetskommittén för genetiskt modifierade jordbruksorganismer (GMO).Jordbruksministeriet (upplöst, vars myndigheter har övertagits av ministeriet för jordbruk och landsbygdsfrågor)Utgiven den 17 maj 2013.
Riktlinjer för biosäkerhet för veterinärlaboratorierJordbruksministeriet (upplöst, vars myndigheter har övertagits av ministeriet för jordbruk och landsbygdsfrågor)Utgiven 15 oktober 2003.
Åtgärder för biosäkerhetsmiljöförvaltning av patogena mikrobelaboratorierStatsförvaltningen för miljöskydd (upplöst, med dess myndigheter som övertagits av ministeriet för ekologi och miljö)Utgiven den 8 mars 2006.
Åtgärder för säkerhetsstyrning av bioteknisk forskning och utvecklingMinisteriet för vetenskap och teknikUtfärdad 12 juli 2017.
Riktlinjer för biosäkerhet om biosäkerhetsstyrning av det nya coronaviruset högkvalitativt viralt mikrobiologilaboratoriumMinisteriet för vetenskap och teknikUtfärdad 23 januari 2020.

Krav på internationellt samarbete för att förebygga och kontrollera biorisker

I takt med att globaliseringen fortskrider är det internationella samarbetet om styrning av biosäkerhet nödvändigt. För att reagera på de möjliga riskerna och hoten från syntetisk biologi rekommenderas länder starkt att stärka olika åtgärder såsom att stärka toppnivådesignen för biosäkerhet, intensifiera formuleringen och förbättringen av nationella lagar och policyer. Dessutom uppmanas de att fokusera på den övergripande utbildningslayouten för biosäkerhet och biosäkerhet, såsom talangträning och skapande av discipliner för att uppnå ett djupgående bidrag till teknikstyrning runt om i världen.

Förvaltningsavdelningarna inklusive statliga tillsynsmyndigheter, statliga finansiärer och forskningsinstitutioner bör förbättra granskningssystemet för vetenskapliga forskningsprojekt, genomföra potentiella riskanalyser och fokusera på konstruktion av patogena mikroorganismer och biologisk forskning som kan ha en negativ inverkan på den naturliga miljön, samt forskning med etiska frågor. Utvecklingen av alla projekt relaterade till patogener har en potentiell biosäkerhetsrisk. Motsvarande granskning av forskningsförslaget bör utföras innan ett projekt påbörjas, under genomförandet och under översättningen av forskningsresultat till praktiska tillämpningar. Det är nödvändigt att heltäckande utvärdera effekterna av biorisker på den naturliga miljön och det mänskliga samhället och vidta positiva åtgärder för att garantera nationell säkerhet och allmänintresse samtidigt som man främjar utvecklingen av syntetisk biologi.

Center for Biological Safety Strategic Research vid Tianjin University i Kina och Johns Hopkins Center for Health and Safety i USA samsponsrade “Track II dialogen” med titeln “The Challenges Facing China and the United States in the Era of Synthetic Biology” 2019 i Washington DC (Johns Hopkins Center for Health Security, 2019). Experter inom teknik, policy, lag och ledning från Kina och USA diskuterade strategier för att hantera de potentiella biosäkerhetsriskerna med syntetisk biologi. Experterna vid mötet påpekade att oro för syntetisk biologi härrör från biosäkerhetsriskerna på grund av missbruk av syntetiska biologiska tekniker av forskare och den potentiella biosäkerhetsrisken med att missbruka dessa tekniker för terrorism (Johns Hopkins Center for Health Security, 2019). Dessutom är det lika viktigt att utbilda och bedöma biosäkerhetsmedvetenheten hos forskare som arbetar med syntetisk biologi. Utsläpp av experimentella produkter och experimentella patogener, avsiktliga eller oavsiktliga, bör identifieras som en potentiell biosäkerhetsrisk, som bör regleras under strikt reglering. Ändå, som en forskningsteknologi som bryter igenom den naturliga evolutionens lagar, kan syntetisk biologi ha många oförutsägbara potentiella risker och dess hållbara utveckling kräver ett relativt komplett och omfattande styrningssystem. Därför krävs ett mer omfattande och detaljerat regelsystem för att styra branschens utvecklingsriktning. Dessutom, även om lagar och förordningar om biosäkerhet och biosäkerhetsproblem har utfärdats av många regeringar, krävs det fortfarande fler ansträngningar för att stärka utbytet och delingen av kunskap om hur man effektivt kan reagera på globala epidemier som covid-19.


Introduktion

Den genetiska koden, som ursprungligen beskrevs, ansågs vara universell och dess anmärkningsvärda bevarande över taxa antyder att den etablerades tidigt i livets utveckling på jorden (Crick 1968). Den genetiska koden har dock visat sig variera mellan olika organismer (Crick 1968 Castresana et al. 1998 Knight et al. 2001 Ambrogelly et al. 2007). Storleken på kodningsvariationen är mest anmärkningsvärd bland mitokondriella genom där minst 16 kodonomfördelningshändelser har beskrivits (Knight et al. 2001 Moura et al. 2010 Ling et al. 2014). Händelser som leder till diversifiering av koden har hävdats påverkas av utvecklingen mot extremt små genomstorlekar (t.ex. mitokondriella genom) och/eller starka mutationsfördomar (Osawa och Jukes 1989).Dessutom involverar den stora majoriteten av beskrivna kodonomtilldelningar terminering eller stoppkodon (t.ex. UAG-, UGA- och UAA-kodon) som omtilldelas för att koda för en aminosyra (Keeling 2016). Till exempel föredras UAA Stop-kodon ofta framför UGA och UAG i de flesta A+T-rika genom, vilket gör de senare kodonen lättare att omfördela (granskas av Knight et al. [2001]). Kodonomtilldelning av aminosyrakodande nukleotidtripletter uppstår ofta från förändringar i tRNA, och vissa kodon tycks omfördelas oftare än andra (Knight et al. 2001). Till exempel är AGG-kodonet ursprungligt tilldelat till serin (Ser) i alla bilaterala djurmitogenom, men det har omtilldelats till glycin (Gly) i manteldjur (Yokobori et al. 1993), asparagin (Asn) i en hemichordat linje (Perseke) et al. 2011), lysin (Lys) i vissa leddjurslinjer (Abascal, Zardoya, et al. 2006,) och Stop in nonhuman vertebrates (Osawa et al. 1989 Temperley et al. 2010) (fig. 1A).

Variantkoder i mitokondriella genom inom deuterostome och foton från representanter för hemichordater. (A) Fylogenetiska samband enligt den nuvarande förståelsen av deuterostom fylogeni baserat på flera studier, röda staplar visar kodonförändringar, tabellen längst upp till vänster visar genetisk standardkod för de påverkade kodonen. (B) Ekollonmask Schizocardium braziliense insamlad från Mississippi (foto av Joie Cannon). (C) Cephalodiscus sp. insamlad från Heron Island, Queensland, Australien (foto av Kevin Kocot).

Variantkoder i mitokondriella genom inom deuterostome och foton från representanter för hemichordater. (A) Fylogenetiska samband enligt den nuvarande förståelsen av deuterostom fylogeni baserat på flera studier, röda staplar visar kodonförändringar, tabellen längst upp till vänster visar genetisk standardkod för de påverkade kodonen. (B) Ekollonmask Schizocardium braziliense insamlad från Mississippi (foto av Joie Cannon). (C) Cephalodiscus sp. insamlad från Heron Island, Queensland, Australien (foto av Kevin Kocot).

För att ta hänsyn till kodonomfördelningar har två huvudhypoteser föreslagits (Knight et al. 2001). För det första antyder "kodonfångningshypotesen" att ett enda kodon som samtidigt kodar för två distinkta aminosyror (eller en aminosyra och ett stopp) är dödligt. Denna hypotes hävdar att fluktuationer i nukleotidsubstitutionsbias som påverkar A+T-innehåll kan eliminera vissa kodoner från hela genomet, varefter neutral utveckling av nukleotidpositioner kan tillåta en annan tRNA att använda den tidigare förlorade nukleotidtripletten (Osawa och Jukes 1989). Alternativt föreslår den "tvetydiga mellanhypotesen" att tRNA-mutationer andra än vid antikodonet kan göra att ett kodon känns igen av två tRNA (eller ett tRNA och ett stopp), vilket leder till gradvis fixering av omplaceringen om den nya tilldelningen är adaptiv ( Schultz och Yarus 1994). Dessa två hypoteser utesluter inte varandra och kodonomfördelning kan bero på faktorer som föreslagits i båda hypoteserna. Att utforska kodonomfördelning på molekylär nivå är avgörande för att förstå genetisk kodutveckling och ger insikter om genetisk kodmanipulation inom syntetisk biologi (Ling et al. 2014), särskilt i taxa som har underutforskats.

Bland deuterostomes delar hemichordater egenskaper med både tagghudingar och kordater (t.ex. gälslitsar) och spelar en central roll för att förstå deuterostomas evolution. Fylogenetiska analyser stöder starkt hemichordater som syster till tagghudingar, som tillsammans bildar en kladd som kallas Ambulacraria (Halanych 1995 Swalla och Smith 2008 Cannon et al. 2009, 2014 Halanych et al. 2013). Hittills har ~130 erkända arter beskrivits inom de två klasserna av Hemichordata: Enteropneusta (fig. 1B) (vanligen kallad ekollonmask) och Pterobranchia (fig. 1C) (Cannon et al. 2009 Tassia et al. 2016). Både enteropneusts och pterobranchs uppvisar en tredelad kroppsplan, med en snabel, krage och bål (Hyman 1959). Ekollonmaskar, som utgör den stora majoriteten av befintliga hemichordate taxa (~85 % av de beskrivna arterna), har många svalggälskåror som är homologa med de som finns hos ryggradsdjur och lever som grävande eller epibentiska avlagringar. Däremot har pterobranchs (~20 beskrivna arter) ett minskat antal gälskåror, eller saknar dem alla tillsammans, och är koloniala filtermatare (Tassia et al. 2016). Även om de senaste molekylära analyserna avsevärt har förbättrat vår förståelse av evolutionära samband inom hemichordates (Cannon et al. 2009, 2013, 2014), är den fylogenetiska positionen för vissa viktiga taxa fortfarande omtvistad. I synnerhet rhabdopleurid pterobranchs och enteropneust Stereobalanus har varit svåra att placera delvis på grund av långa grenar även i fylogenomiska datamängder. Vidare, trots den evolutionära betydelsen av pterobranchs, är genomiska resurser från denna kladde extremt knappa i jämförelse med andra stora deuterostomgrupper.

Mitogenomics har visat sig vara användbar för att lösa fylogenetiska samband och undersöka genomutvecklingen över ett brett spektrum av metazoer (Boore 1999 Osigus et al. 2013 Li et al. 2015). Mitokondriella genom har karaktäriserats väl i huvudkordat och tagghudingar (t.ex. Asakawa et al. 1995 Gissi et al. 2004 Perseke et al. 2010, 2011), men data om hemichordat mitokondriell utveckling är särskilt knapphändig. Till skillnad från tagghudingar och chordatmitokondriella genom har endast tre enteropneust och en pterobranch mitokondriella genom karakteriserats (Castresana et al. 1998 Perseke et al. 2011). Dessutom har variabilitet av kodonomfördelningar upptäckts i en mängd olika linjer inom deuterostome (fig. 1A). Noterbart är att AAA-kodonet, som tilldelas Lys i de flesta metazoer och Asn i tagghudingar, saknas i två Balanoglossus genom (Castresana et al. 1998). Frånvaro av AAA-kodonet har föreslagits för att stödja "kodonfångningshypotesen" (Castresana et al. 1998). Dessutom beskrevs kodonomfördelningen av AGG från Ser till Lys i mitokondriella genomet av pterobranchen Rhabdopleura compacta och har inte identifierats i andra deuterostomer (Perseke et al. 2011), men detta överensstämmer med AGG-kodningsövergångar som ses bland andra ryggradsdjur (t.ex. fig. 1A). Särskilt det mitokondriella genomet av R. compacta har en extremt G+T-rik frekvens på huvudkodningssträngen (Perseke et al. 2011). Variationer har också hittats i genordningarna för dessa fyra hemichordata mitokondriella genom (fig. 2). De tre hemichordata mitokondriella genomen som hittills karakteriserats representerar dock bara två erkända familjer.

—Mitokondriell genordning inom deuterostomes. (A) Aktuell förståelse för samband inom Deuterostomia och mitokondriell genordning för varje taxon. Deuterostome fylogeni avbildas baserat på Cannon et al. (2014). Endast proteinkodande gener och ribosomala RNA-gener av tillgängliga mitokondriella genom ingår. Genorder av manteldjur exkluderades. Gener skalas inte till verklig längd och indikeras med standardförkortningar. Gener i en annan linje indikerar olika kodande strängar och färger indikerar med proteinkomplex, och pilar indikerar alternativa genarrangemang i motsvarande art. (B) Hypotetiskt grundmönster för deuterostome mitokondriella genomet. (C) Hypotetiskt grundmönster för hemichordat mitokondriegenom.

—Mitokondriell genordning inom deuterostomes. (A) Aktuell förståelse för samband inom Deuterostomia och mitokondriell genordning för varje taxon. Deuterostome fylogeni avbildas baserat på Cannon et al. (2014). Endast proteinkodande gener och ribosomala RNA-gener av tillgängliga mitokondriella genom ingår. Genorder av manteldjur exkluderades. Gener skalas inte till verklig längd och indikeras med standardförkortningar. Gener i en annan linje indikerar olika kodande strängar och färger indikerar med proteinkomplex, och pilar indikerar alternativa genarrangemang i motsvarande art. (B) Hypotetiskt grundmönster för deuterostome mitokondriella genomet. (C) Hypotetiskt grundmönster för hemichordat mitokondriegenom.

Tidigare analyser som försökte rekonstruera den förfäders deuterostome-genordningen samplade ett begränsat antal taxa, särskilt i fallet med hemichordater (Bourlat et al. 2009). Dessutom inkluderade tidigare studier som undersökte den förfäders deuterostome mitokondriella genomorganisationen Xenoturbella som syster till Ambulacraria (se Bourlat et al. 2009). Emellertid har nyare fylogenomiska analyser visat det Xenoturbella är inte en deuterostom (Cannon et al. 2016 Rouse et al. 2016). För att ytterligare utforska utvecklingen av mitokondriella genom av deuterostome, med särskilt intresse för kodonomplaceringar och genomarrangemang, sekvenserade vi en pterobranch och tre enteropneust mitokondriella genom, såväl som transkriptomerna av två ytterligare pterobranchs för att komplettera datauppsättningar tillgängliga i offentliga förråd. Vi undersökte också den fylogenetiska positionen för hemichordate taxa (t.ex. Stereobalanus och Rhabdopleura) som tidigare har visat sig vara instabila i sin fylogenetiska placering i tidigare studier (Cannon et al. 2009, 2013, 2014).


Resultat

Förfining och analys av potentiella kodningsregioner

Den fullständiga CELO-sekvensen har analyserats vid dess initiala sekvensering [4]. I den centrala regionen som sträcker sig från ungefär nt 6000 till 31000, kunde de flesta av ORF tillförlitligt tilldelas proteiner som tidigare har beskrivits för mastadenovirus. I de terminala regionerna (appr. nt 0� och 31000�) kunde ingen sekvenslikhet med kända adenovirala sekvenser detekteras på nukleinsyra- eller proteinnivå. Ursprungligen föreslogs 22 potentiella proteinkodande sekvenser att ligga i de unika terminala regionerna [4]. De har hittat in i offentliga databaser och refereras till genomgående i litteraturen. Dessa förmodade proteiner är uteslutande ORF som är längre än 99 aminosyror och börjar med en metionin. Detta är ett ganska godtyckligt tillvägagångssätt och eftersom de experimentella studierna också misslyckas med att detektera och karakterisera alla RNA i dessa regioner [13], var vi tvungna att förfina förutsägelsen av proteinkodande regioner för att inte missa viktig information på grund av felaktiga konceptuella översättningar . Vi gjorde en fullständig omtranslation av genomet i alla sex ramar, även med tanke på ORFs kortare än 99 aminosyror och utan en startmetionin, jämförde vi ytterligare de potentiella kodande regionerna med de relaterade fågeladenovirusen, särskilt med det fullständiga genomet av FAdV-9, och integrerade alla tillgängliga experimentella data [13,15-17] såväl som resultaten av vår efterföljande proteinsekvensanalys. Tabell ​ Tabell 1 1 och Fig. ​ Fig. 1 1 listar de mest troliga kodningsregionerna som kunde identifieras. Om möjligt följer vi nomenklaturen som introducerats av Chiocca et al. [4].

Bord 1

Unika kodande sekvenser i CELO och relaterade fågeladenovirus

CELO-ORF a Region b StråLängd (aa)Homologa sekvenser c Kommentar
ORF-1794�fram-178FadV-9-ORF847�funktionellt dUTP-pyrofosfatas [4], homologt med ORF-1-proteiner från mastadenovirus E4-regionen [5]
ORF-21999�fram-276FadV-9-ORF1950�
ORF-837391�fram-282FadV-9-ORF37859�
FadV-10-ORF2147�
Gam1, antiapoptotisk, induktion av värmechockrespons, inaktivering av histondeacetylas 1, pRb/E2F-väg [6-10]
ORF-940037�fram-321FadV-9-ORF43595�
CFA40-ORF17739-16381
EST-ORF-9
aminoterminalen otydlig, eftersom transkriptet visade sig vara skarvat upp till 40133 [13]
ORF-1041002�fram-283inga homologerÖversättningsstart kommer sannolikt att vara vid pos. 41113
ORF-1141958�fram-135FadV-9-ORF41461�
ORF-125412-4462omvänd315FadV-9-ORF6190-5243aminoterminal förlängd med 106 rester
ORF-134568-3549omvänd339FadV-9-ORF5058-4261
ORF-143503-2892omvänd203FadV-9-ORF4180-3536 FadV-9-ORF3412-2837aminoterminal förlängd med 43 rester
ORF-1639705-39286omvänd139FadV-10-ORF4550-4209
ORF-1739256-38717omvänd179FadV-9-ORF41096-40596
CFA40-ORF15112-14642
FadV-10-ORF4023-3574
ORF-18/19(36144)-34238omvänd635FadV-9-ORF36385-34220
CFA40-ORF10653-8782
FadV-10-ORF4992-5864
FadV-10-ORF6050-7456
Korrigering av ett uppenbart fel i den genomiska sekvensen kombinerar ORF-18 och ORF-19 till en enda ORF. Aminoterminalen förlängdes genom translation av en kort ledarsekvens som visades vara splitsad före den ursprungliga ORF-18 [13].
ORF-2033832-32892omvänd313FadV-9-ORF33963-32986
CFA40-ORF8466-7741
aminoterminal förlängd med 42 rester
ORF-2232429-31812omvänd205FadV-9-ORF32502-31930
CFA40-ORF3306-2729
involverad i pRb/E2F-vägen [10]
ORF28115-2776528115-27765omvänd117FadV-9-ORF30192-29797
CFA40-ORF4777-4478
FadV-10-ORF1814-1637
Ny konserverad ORF, lokaliserad mellan fiber och pVIII-genen
ORF32895-3243432895-32434omvänd154FadV-9-ORF32985-32509 CFA40-ORF7552-7262ny bevarad ORF, är översättning av den ursprungliga ORF-21 i en annan ram

Kodande regioner i de terminala segmenten av CELO-genomet. De 15 ORF som listas i tabell ​ Tabell 1, 1, som representerar de mest sannolika proteinkodande regionerna, är indikerade. ORF:er som transkriberas från den främre och omvända strängen visas ovanför eller under den feta linjen som representerar det dubbelsträngade DNA:t. Öppna linjer betecknar ORF utan ett startkodon i den genomiska sekvensen. ORF-1, ORF-8 och ORF-22 är kommenterade baserat på experimentella resultat. Den detaljerade anteckningen och resultaten av sekvensanalysen för alla andra ORF beskrivs i texten och Fig. ​ Fig.3 3.

I fyra fall (ORF-12, ORF-14, ORF-20, ORF-18/19) förlängdes translationen av ORF:erna i aminoterminalen huvudsakligen på grund av signifikant likhet med homologa sekvenser i FAdV-9 och CFA40 eller existensen av kända domäner i denna utökade region. ORF-18 och ORF-19 slogs samman till en enda ORF-18/19 av skäl som beskrivs i diskussionen nedan.

Dessutom kunde vi hitta två nya ORF:er. ORF28115-27765 är inte lokaliserad i de terminala regionerna utan är lokaliserad mellan fibern och pVIII-genen och beskrevs och numrerades därför inte av Chiocca et al. Eftersom det är bevarat i CELO, FAdV-9, CFA40 och FAdV-10 men unikt för denna grupp, var det av särskilt intresse för denna studie. Det är anmärkningsvärt att detta är den enda unika ORF i den centrala delen av genomet, alla andra finns uteslutande i de terminala regionerna.

Vi identifierade vidare ORF32895-32434, som överlappar med ORF-21 i en annan ram. Sedan ORF32895-32434 har homologa sekvenser i FAdV-9 och CFA40, verkar det mer sannolikt att det uttrycks än den ursprungligen beskrivna ORF-21.

Även några andra ursprungligen beskrivna ORF:er överlappar varandra (t.ex. ORF-3 med ORF-13 eller ORF-7 med ORF-18/19). I adenovirus överlappar gener vanligtvis inte varandra och det är osannolikt att kraftig användning av överlappande gener förekommer i CELO. Det kan snarare förväntas att, om två eller flera ORF:er överlappar i väsentliga delar av deras kodningssekvens, uttrycks endast en ORF. Efter vår analys föreslår vi att den ursprungligen beskrivna ORF-3,4,5,6,7,15,21 inte kodar för proteiner eftersom (i) det inte finns några homologer i de närbesläktade fågeladenovirusen eller i andra virus/organismer , (ii) sekvensanalys gav inte rimliga proteinegenskaper, (iii) inget motsvarande transkript kunde detekteras experimentellt [13] (iv) de överlappar med alternativa ORF som uppfyller de flesta av dessa kriterier.

Sammantaget måste vi förvänta oss att CELO-genomet har minst 15 ORFs av funktionell betydelse utan homologer i däggdjursadenovirus. Aminosyrasekvenserna för alla ORF:er kan hittas tillsammans med homologa sekvenser från relaterade fågeladenovirus på vår webbplats http://mendel.imp.univie.ac.at/SEQUENCES/CELO/. Alla dessa sekvenser var föremål för en djupgående sekvensanalys. Den allmänna strategin som användes beskrivs i Fig. ​ Fig.2 2 och de viktigaste resultaten sammanfattas nedan.

Översikt över analysprocessen som illustrerar grundläggande steg från en okänd proteinsekvens till en funktionell tolkning. (1) Med utgångspunkt från den okända CELO-sekvensen, genomsöks signifikant homologa sekvenser med relativt hög identitet/likhet. Vanligtvis kunde endast sekvenser från relaterade fågeladenovirus hittas i detta steg. Detta resulterar i en uppsättning homologa proteiner som sannolikt har samma eller åtminstone liknande funktion. Följande steg utförs för var och en av dessa sekvenser. Detta jämförande tillvägagångssätt kan ta fram ytterligare information som kan missas om bara en sekvens analyseras. (2) Inneboende sekvensegenskaper undersöks. Detta inkluderar en statistisk analys av aminosyrainnehåll, sökningen efter lågkomplexitetsregioner (LCRs), coiled coil-domäner, transmembrandomäner (TM), amino- och karboxiterminala signalsekvenser och interna upprepningar. En viktig resultat av detta steg är den grova särskiljningen mellan globulära och icke-globulära regioner i proteinet. (3) De klotformade områdena analyseras ytterligare. Dessa domäner presenterar den mest användbara nivån för att förstå proteinfunktion och deras identifiering är därför en av de viktigaste frågorna under hela analysprocessen. Jämförelse med olika databaser med olika algoritmer (se Material och metoder) kan antingen hitta signifikanta homologer eller föreslå en uppsättning kandidatdomäner med statistisk signifikans på gränsen. I det senare fallet (4) måste dessa träffar verifieras ytterligare eller uteslutas genom ytterligare undersökningar (bevarande av kritiska funktionella eller strukturella rester, sekundär strukturförutsägelse, veckigenkänning, konsensus av olika metoder, konsensus av förutsägelseresultat inom gruppen av nära homologer . ). (5) Slutligen är alla resultat integrerade och kan tolkas i samband med CELO-infektionscykeln.

ORF-2, ORF-12, ORF-13: homologer av parvovirus icke-strukturella proteiner med en inaktiv ATPas/helikasdomän

I ORF-2 är homologi med parvovirala icke-strukturella proteiner signifikant och noterades tidigare [4]. ORF-2 är mest lik Rep78 av adenoassocierat virus (AAV) 3B (BLASTP-förväntningsvärde: E = 8뜐 -32 ) och är redan medlem av motsvarande Pfam-familj (Parvovirus icke-strukturellt protein NS1: PF01057). Denna domän spänner över hela sekvensen av ORF-2 (Fig. ​ (Fig. 3a). 3a). Vi fann också att ORF-12 och ORF-13 är avlägset besläktade med denna familj av proteiner. En PSI-BLAST-sökning med inklusionströskel 0,05 initierades med ORF-12. Efter den första körningen, endast FAdV-9-homologen ORF6190-5243 hittades (E = 8뜐 -38 ). Den andra körningen gav också CELO-ORF-13 (E = 0,016). Efter införandet av FAdV-9-ORF5058-4261 (FAdV-9-homologen av ORF-13) i omgång 3 hittades CELO-ORF-2 bland toppträffarna (E = 0,55) efter fyra iterationer.

Molekylär arkitektur för CELO ORF och utvalda homologer. (A) Den röda stapeln i ORF-2, ORF-12 och ORF-13 anger homologa regioner med parvovirus NS-1-domänen (Pfam PF01057).Dessa domäner är uppdelade i en inaktiv ATPas/helikas-domän av helikas-superfamiljen III och en region utan tydligt definierad funktion. CC: potentiella lindade spolsegment som rapporterats av "COILS". Zn: region med fyra konserverade cysteiner i ORF-12 och ORF-13. ORF-13 har en förlängd och förmodligen ostrukturerad aminoterminal rik på proliner och laddade rester. I ORF-14 kunde en avlägsen homologi med superfamiljen III-helikaser detekteras i regionen av "Motif A" (se text). (B) Förmodade transmembranglykoproteiner av typ 1. SP: signalpeptider förutsagda av SignalP. TM: transmembrandomäner förutsagda av TMHMM. I ORF-11 förutsägs TM inte signifikant. LCR: regioner med låg komplexitet rapporterade av SEG med parametrarna 25, 3.0, 3.3. Den röda stapeln anger homologi med den immunglobulinliknande domänen (SMART SM00409). Potentiella Asn-glykosyleringsställen (PROSITE PS00001) kunde hittas i alla tre ORF: ORF-9 (41, 89, 114, 135, 181), ORF-10 (75, 92, 121, 157, 179, 198, 223, 223 229), ORF-11 (74, 84, 89). (C) Den röda stapeln indikerar homologi i ORF-16 med en familj av ryggradsdjur mono-ADP-ribosyltransferaser (Pfam PF01129) som rapporterats av CD-Search. (D) CELO-ORF-18/19 och homologa sekvenser i FAdV-9, FAdV-10 och Gallid herpesvirus 2 ( <"type":"entrez-protein","attrs":<"text":"NP_057756", "term_id":"9635114","term_text":"NP_057756">> NP_057756, en representant för Marek-sjukdomsliknande virus). Alla har en lipasdomän (Pfam PF00151) och en region som är unik för denna grupp av fågelvirus. Domängränserna uppskattades enligt platsen för PSI-BLAST-träffar till kända lipaser. "S/T" och "T" betecknar regioner rika på serin/treonin respektive treonin. Dessa domäner förutsägs vara höggradigt O-glykosylerade. I FAdV-10-ORF6050-7456 den blåfärgade regionen indikerar en region med likhet med herpesglykoprotein D (Pfam PF01537) som rapporterats av CD-Search. (E) Konserverade transmembrandomäner i CELO-ORF32895-32434 och dess homologer i FAdV-9 och CFA40 förutsagda av TMHMM.

Så, PSI-BLAST föreslår avlägsna länkar mellan ORF-12, ORF-13 och ORF-2 och därmed till NS-1-familjen. Dessa tre ORF kommer sannolikt att bilda en paralog grupp som härstammar från ett förvärvat parvoviralt NS-1-protein (se tilläggsmaterial för en mer detaljerad fylogenetisk analys). Eftersom (i) BLAST-sökningar initierade med ORF-2 tydligt träffar AAV Rep-proteiner och (ii) interaktioner mellan adenovirus och AAVs, som i sin replikation beror på ett hjälpadeno- eller herpesvirus [19], förekommer naturligt, är ett AAV Rep-protein är den mest troliga kandidaten.

Rep-proteiner är multifunktionella proteiner och har en mängd olika enzymatiska aktiviteter: DNA-bindande aktivitet, endonukleasaktivitet, helikasaktivitet och ATPasaktivitet [20,21]. Regionerna av Rep-proteinerna som är ansvariga för de distinkta aktiviteterna har funktionellt kartlagts i en mängd olika mutationsstudier [22-26] (Fig. ​ (Fig. 4 4).

Funktionella regioner mappade till Rep78 av adenoassocierat virus i jämförelse med platsen för Pfam NS-1-domänen som finns i CELO ORF.

Endonukleasaktivitet är lokaliserad i de 200 aminoterminala resterna. Denna region saknas helt i CELO/FAdV-9-sekvenserna. ATPas/helikasaktivitet befanns vara lokaliserad i den centrala regionen av Rep-proteinerna. Denna region täcks av Pfam NS-1-domänen som är konserverad mellan andra parvovirala icke-strukturella proteiner och CELO/FAdV-9 ORF. Med andra ord består ORF-2, ORF-12, ORF-13 och deras FAdV-9-homologer huvudsakligen av en domän härledd från en ATPas/helikasdomän.

ATPas/helikasdomänen klassificerades tidigare som en superfamilj III-helikas [27]. Denna typ av helikasproteiner kan hittas i små virus. Dessa proteiner har tre konserverade sekvensmotiv tätt packade i en ca 100-aminosyror domän. De två första av dem (motiv A och B) bildar NTP-bindningsstället och är specifika versioner av ett NTP-bindningsmönster som är gemensamt för många familjer av helikaser. Det tredje motivet (C) är unikt för superfamilj III helikaser [27]. I parvovirala sekvenser identifierades ett ytterligare motiv B' mellan B och C [28].

Fig. ​ Fig. 5 5 visar en multipelsekvensinriktning av den centrala regionen av Rep78 från AAV-3B till NS-1-domänerna som finns i CELO- och FAdV-9-sekvenser. Superfamiljen III-helikasmotiven är indikerade. Motiv A (även känt som Walker-motivet eller P-loop, [29]) har konsensus [AG]-x(4)-GK-[ST] (PROSITE PS00017) och bildar en NTP-samverkande loop som förbinder en beta- ark och en alfa-helix. I Rep78 är detta motiv perfekt representerat, medan i CELO/FAdV-9-sekvenserna är kritiska rester inte konserverade. Lysin och serin/treonin ersätts i alla fall. Endast glycinerna är delvis konserverade, vilket indikerar förekomsten av en slinga som bekräftas av den sekundära strukturförutsägelsen. Även om vissa varianter av Motiv A kan vara kompatibla med ATPase-funktionen om den typiska sheet-loop-helix-konformationen bibehålls [28], är det osannolikt att så är fallet här. Lysinet och serinet/treoninet är strikt konserverade i superfamiljen III men även i besläktade superfamiljer [28] och, i det speciella fallet med AAV-Rep-proteiner, visades det att mutation av någon av dessa rester avskaffar ATPas- och helikasaktiviteten fullständigt [ 24]. Även i de andra tre motiven är kritiska rester som krävs för enzymatisk aktivitet inte eller endast delvis konserverade. Detta är mest uppenbart för B' där en betydande del av motivet inklusive tre väsentliga rester för helikasfunktion [25] är raderad. Sammanfattningsvis verkar ingen av sekvenserna vara Rep-liknande enzymatiskt aktiv, inte ens ORF-2 och FAdV-9-ORF1950-2753, som är signifikant lika Rep-proteiner.

Multipelsekvensinriktning av parvovirus NS-1-domäner som finns i CELO och FAdV-9. Som en referenssekvens, Rep78-proteinet från adenoassocierat virus 3B (tilll. nr. <"type":"entrez-protein","attrs":<"text":"AAB95451","term_id":"2766609" "term_text":"AAB95451">> AAB95451) ingår. JPred sekundär struktur förutsägelse för CELO-ORF-2 visas på den översta raden (H: alfa-helix, E: beta-ark). Superfamily III ATPas/helikas-motiv (se text) anges. Kritiska rester för NTP-bindning i motiv A är markerade med pilar. I regionen av motiv A inkluderades CELO-ORF-14 och två homologa sekvenser från FAdV-9 i anpassningen. I denna region av CELO-ORF-14 rapporteras homologi med papillomvirushelikaser av CD-Search. Som referenssekvens, papillomvirus El-helikas (tilll. nr. <"type":"entrez-protein","attrs":<"text":"P22154","term_id":"137662","term_text":" P22154">> P22154) ingår. JPred sekundär strukturförutsägelse för CELO-ORF-14 visas på den nedersta raden.

Intressant nog täcker ATPas/helikas-motiven endast 100 aminosyror i den centrala delen av den konserverade NS-1-domänen (Fig. ​ (Fig. 5). 5). Det finns ca. 100 ytterligare rester i aminoterminalen. Vi kunde inte hitta data som visar att denna region är direkt involverad i ATPas/helikasaktivitet och den är definitivt inte en del av den aminoterminala endonukleasdomänen av AAV Rep-proteinerna [26]. Därför, med hänsyn också till den relativt höga sekvenskonserveringen, antar vi att den aminoterminala ca. 100 rester bildar en annan globulär domän med ytterligare ännu okända funktioner.

Även identiteten för de ca. 80 karboxiterminala rester är oklart. Jämfört med resten av sekvensen är denna region inte så välkonserverad och CELO/FAdV-9 ORF:erna kan inte tillförlitligt anpassas i denna region. AAV Rep-proteiner har en karboxiterminal domän som innehåller flera zinkbindande motiv (Fig. ​ (Fig.4). 4). Denna domän är känd för att binda zink in vitro [30] men lite är känt om dess funktion. I CELO/FAdV-9-sekvenserna saknas en distinkt domän med uttalade zinkbindande motiv. För CELO-ORF-12, CELO-ORF-13 och deras FAdV-9-homologer pekar dock några svaga träffar i jämförelsen med domänbibliotek (PFAM, SMART) på olika C4-zingfingerdomäner. Dessa träffar kan förklaras av förekomsten av fyra konserverade cysteiner i själva karboxiterminalen av sekvenserna (cystein är en sällsynt aminosyratyp och, om cysteiner matchar, ger de höga poäng). Det kan spekuleras i att dessa rester har zinkbindningsförmåga, även om inga ytterligare data kan stödja detta.

Dessutom finns det goda bevis för att AAV Rep-proteiner fungerar som oligomerer [31] och viktiga interaktionsställen har kartlagts till två förmodade coiled-coil-regioner [25,31]. Alla sekvenser skannades rutinmässigt efter regioner med potential att bilda lindade spolar. I fallet med ORF-12 och dess FAdV-9-homolog hittas två sådana regioner (Fig. ​ (Fig. 3a). 3a). Signalen i karboxiterminalen ligger exakt i det område som motsvarar det experimentellt bestämda interaktionsstället. Närmare inspektion visar att denna region förutsägs med maximal tillförsikt att bilda en helix som har amfipatiska egenskaper indikerade av det typiska distributionsmönstret för hydrofoba och hydrofila rester. Detta resultat kan tyda på att även några av adenovirus NS-1-proteinerna interagerar med varandra.

ORF-14: ett ytterligare förmodat NS-1-domänprotein

ORF-14 är lokaliserat inom klustret av NS-1-proteiner mellan ORF-2 och ORF-13 (Fig. ​ (Fig. 1). 1). Detta genomiska arrangemang antyder en koppling för ORF-14 till NS-1-proteinerna. Vi har verkligen bevis för att ORF-14 är relaterat till denna proteinfamilj. I detta fall har emellertid graden av divergens nästan nått gränsen för detektion och en homologi kunde endast indirekt härledas i en kort region av ORF-14.

I ORF-14 detekterade CD-sökning sekvenslikhet med E1 papillomvirushelikaser (Pfam PF00519, pos. 90�, E = 0,57). Även om en gränsträff av begränsad statistisk signifikans visade sig vara av särskilt intresse. E1-helikasen (reviderad i [32]) är medlem av samma superfamilj som de parvovirala NS-1-helikaserna [28]. Båda har Walker A-motivet som diskuterats ovan, och den korta CD-sökträffen matchar området för detta motiv. Intressant nog finns det två ORF relaterade till CELO-ORF-14 i FAdV-9. En fullängdshomolog (ORF) kan lätt hittas med BLASTP med E = 6뜐 -8 . Om denna ORF ingår i en PSI-BLAST-fråga, kommer en annan homolog (FAdV-9-ORF3412-2837), som är kodad direkt intill FAdV-9-ORF4180-3536, detekteras (E = 1,8). PSI-BLAST-träffen matchar bara ett kort område, vilket återigen motsvarar Walker A-motivet. I anpassningen i Fig. ​ Fig. 5, 5 har de relevanta sträckorna av CELO-ORF-14 och de två FAdV-9-sekvenserna justerats till A-motivet för sekvenserna med de parvovirala NS-1-domänerna. Själva motivet känns knappt igen men det hydrofoba mönstret och även den typiska ark-loop-helix-följden verkar finnas.

Sammanfattningsvis indikerar dessa rester av Walker A-motivet att det finns ytterligare ORFs i CELO och FAdV-9 som sannolikt kommer från superfamilj III helikaser. Tillsammans med ORF-2, ORF-12 och ORF-13 bildar de ett kluster som dominerar den vänstra terminala regionen i båda genomen.

ORF-9, ORF-10, ORF-11: Förmodade typ-1 transmembranglykoproteiner med en immunglobulinliknande domän

Analysresultaten för ORF-9, ORF-10 och ORF-11 visar att de tre ORF, som är anordnade direkt intill varandra, är på liknande sätt organiserade och kodar för förmodade typ-1 transmembranglykoproteiner (Fig. ​ (Fig. 3b), 3b). I alla sekvenser förutsägs en aminoterminal signalpeptid signifikant (sannolikheter för SignalP hidden Markov-modellen Ϡ.9). I fallet med ORF-10 förutsägs en signalpeptid endast om det andra metioninet i sekvensen används som start (P = 0,996 i motsats till P = 0,027 om den fullständiga sekvensen används). Detta tyder på att startkodonet är vid pos. 41113 snarare än vid pos. 41002. I ORF-9 och ORF-10 förutsägs transmembranregioner (TM) signifikant (klassade som "vissa" av Toppred med poäng nära 2 och TMHMM-sannolikheter nära 1). I ORF-11 rapporteras ingen signifikant TM. Det finns bara en hydrofob region i karboxiterminalen märkt som en "förmodad" TM av Toppred.

I alla tre sekvenserna detekterades Prosite Asn-glykosyleringsmotivet PS00001 flera gånger (se förklaringen i Fig. ​ Fig.3b). 3b). Detta är ett kort och därför mycket vanligt motiv men antalet förekomster är ovanligt högt för proteiner av denna längd, och därför kan vissa av dem förväntas vara riktiga glykosyleringsställen snarare än bara statistiska artefakter.

Det finns tydligen en distinkt globulär domän gemensam för alla tre ORF. I ORF-11 spänner denna domän nästan hela sekvensen. I ORF-9 och ORF-10 flankeras denna centrala domän av förmodligen ostrukturerade regioner med låg komplexitet. Detaljerad sekvensanalys avslöjade att det är en immunglobulinliknande domän: I ORF-11 förutsägs SMART IG-domänen (SMART SM00409) av CD-Search och HMMER (19�, E = 21뜐 -7 och 18‖ x02013119, E = 3뜐 -6 respektive). I de andra två sekvenserna är förutsägelsen inte så tydlig men domänen kan tilldelas rimligt. I ORF-9 förutsäger CD-Search SMART IG-domänen i region 192� med E = 1.0. I ORF-10 detekteras den av CD-Search (135�, E = 0,71) och HMMER (166�, E = 0,36). Dessutom föreslår 3D-PSSM fold recognition-servern för alla tre sekvenserna nästan uteslutande strukturer av immunglobulinsuperfamiljen. En multipelsekvensanpassning av de IG-liknande domänerna som finns i CELO-virusgenomet och i relaterade virus finns tillgänglig som en del av det kompletterande materialet på vår webbplats.

Det IG-liknande vecket är förmodligen det vanligaste proteinvecket som finns. Som en konsekvens är offentliga databaser fulla av proteiner med IG-liknande domäner och detta gör homologisökningar med ORF-9, ORF-10 och ORF-11 svåra. I samtliga fall detekterar BLASTP en mängd olika glykoproteiner och ytreceptorer med gränsvärdena E-värden. Men dessa träffar återspeglar sannolikt bara det faktum att proteinerna har samma veck och ett närmare evolutionärt förhållande kunde inte slutas för någon av de tre sekvenserna till andra kända proteiner. Å andra sidan visar resultaten att ORF-9, ORF-10 och ORF-11 är närmare relaterade till varandra. En BLASTP-sökning med ORF-9 mot NCBI:s icke-redundanta proteindatabas hittar ORF-10 med E = 5뜐 -4 . En PSI-BLAST-profilsökning initierad med ORF-11 (inklusive E-värde 0,05) hittar ORF-9 med E = 0,04 efter den andra iterationen. Dessa resultat tyder på ett gemensamt ursprung för dessa ORF. Ytterligare databassökningar föreslår en kandidat för en möjlig förfader. Vi kunde hitta en uttryckt sekvenstagg från ett kycklingbibliotek som är mycket lik ORF-9 (acc.nr. <"type":"entrez-nucleotide","attrs":<"text":"BM491231","term_id ":"18612162","term_text":"BM491231">> BM491231, TBLASTN mot NCBI EST-databasen: E = 6뜐 -14 ). Så det är troligt att detta kluster av tre på liknande sätt organiserade proteiner bildar en paralog grupp som härrör från en cellulär gen som har förvärvats från en fågelvärd.

ORF-16: ett förmodat ADP-ribosyltransferas

I ORF-16 kunde en oväntad homologi med ADP-ribosyltransferaser (ART) detekteras. ARTs (granskas i [33]) överför ADP-ribosdelen av NAD till specifika proteinmål. ART har varit känt länge i prokaryoter men en ART-familj kan också hittas hos ryggradsdjur [34-36]. I ORF-16 rapporterade CD-search en träff från pos. 70 till 129 till denna familj av ryggradsdjur ART (Pfam PF01129). Träffen är statistiskt sett av borderline signifikans (E = 0,23) men det finns ytterligare argument som konsekvent stöder detta fynd.

(i) Träffen matchar regionen av den ART NAD-bindande fickan som utgör den viktiga regionen för enzymatisk aktivitet. Denna bindningsficka är strukturellt konserverad (se nedan) och karakteristisk för alla ART-enzymer med känd struktur [37-39].

(ii) Kritiska rester för enzymatisk aktivitet bevaras. Även om de strukturella egenskaperna hos den katalytiska kärnan är likartade i avlägset besläktade ART, är bevarandet i primär sekvens anmärkningsvärt lågt. Endast typiska fingeravtrycksrester bevaras mellan de långt relaterade ARTs [37]. Vertebrate ARTs tillhör en undergrupp som kännetecknas av ett Arg-Ser-Glu-motiv [37]. Detta motiv finns i ORF-16 (Fig. ​ (Fig.6). 6). Den första argininen (Arg93) är väl konserverad tillsammans med andra omgivande rester. Serinet (Ser108) är också konserverat och en del av en kort S/T-rik sträcka som också är karakteristisk för de andra ART-sekvenserna. Den relevanta regionen av glutamatet i Arg-Ser-Glu-motivet var inte en del av CD-sökträffen. Men det finns ett laddat motiv i själva karboxiterminalen av ORF-16 inklusive ett glutamat (Glu136) som troligtvis kan anpassas till den huvudsakligen sura sträckan som finns i ART-sekvenserna som innehåller det kritiska glutamatet.

(A) Multipelsekvensinriktning av ORF-16 och olika medlemmar av ryggradsdjurens ADP-ribosyltransferasfamilj (Pfam PF01129). Sekvenser indikeras av deras SwissProt-namn. Den etablerade sekundära strukturen för ART2.2 (PDB-post 1GXZ [39]) indikeras med färgade staplar. PHD sekundär struktur förutsägelse för ORF-16 anges nedan. (Resultaten av en konsensus förutsägelse av sekundär struktur med användning av olika andra metoder kan hittas som en del av det kompletterande materialet på vår webbplats.) Sekvensanpassningen antogs i princip från RPS-BLAST-anpassningen av CD-Search-träffen. De första 30 aminoterminala och de sista 10 karboxiterminala resterna som inte täcktes av CD-Search-träffen justerades manuellt. Det måste noteras att inpassningen således är baserad på enbart sekvenslikhet och inte redigerades med hänsyn till någon strukturell information. Kritiska rester av det typiska R-S-E-motivet (se text) är markerade med en pil. Disulfidbildande cysteiner är markerade med en fylld cirkel. (B) Struktur av ART2.2 från råtta. Strukturen består av en huvudsakligen alfaspiralformad aminoterminal del och en karboxiterminal del som domineras av beta-sheets. NAD-bindningsstället bildas av β-2, β-5, β-6 och β-8. Numrering och färger på de sekundära strukturelementen är desamma som i (A).

(iii) Förutspådda sekundära strukturella egenskaper hos ORF-16 är kompatibla med ART-vecket. 3D-strukturen för en ryggradsdjur ART av denna familj (ART2.2 från råtta) har nyligen bestämts [39]. Sekundär strukturförutsägelser för ORF-16 överensstämmer med det (Fig. ​ (Fig.6). 6). Den aminoterminala delen förutspås bilda huvudsakligen alfa-helixar. Speciellt α-4 och α-5 omedelbart uppströms om den katalytiska kärnan förutsägs väl med olika metoder. Däremot förutspås den katalytiska kärnan själv, återigen i enlighet med ART2.2-strukturen, huvudsakligen bilda beta-ark. Det finns bara en tydlig alfa-helix förutspådd i denna region som matchar exakt α-6 i ART2.2-strukturen.Dessutom matchar luckorna i ORF-16 exakt ögleregionerna i ART-strukturen och inga viktiga sekundära strukturer är brutna eller saknas. Endast β-9 och β-10 saknas på grund av slutet av sekvensen men båda är inte kritiska för bildandet av den typiska fyrsträngade NAD-bindande kärnan som består av β-2, & #x003b2-5, β-6 och β-8 [39].

(iv) För ART2.2 fann man att vecket av den katalytiska kärnan stabiliseras av en disulfidbindning som binder samman de två ändarna av strängarna β-2 och β-6. De ansvariga cysteinerna är markerade i linjeringen. Båda är konserverade i ORF-16 (C88 och C128).

Sammantaget finns det tillräckligt med bevis för att ORF-16 är relaterat till ADP-ribosyltransferaser. Till vår förvåning har ORF-16 ingen homolog i FAdV-9. Vi kunde bara detektera en kort homologi i FAdV-10 (ORF4550-4209). Denna ORF liknar aminoterminalen av ORF-16, men den stoppar i förtid och resten av sekvensen inklusive den relevanta delen som visar ART-homologi i ORF-16 är oklar.

ORF-18/19: ett förmodat triglyceridlipas med en ytterligare domän unik för fågeladeno- och herpesvirus

Sekvensanalysen av ORF-18 och ORF-19 antydde att båda ORF kodar för ett enda protein. Ett sekvenseringsfel misstänktes och kunde bekräftas genom jämförelse med en alternativ nukleinsyrasekvens av CELO som täcker denna region (acc.nr. <"type":"entrez-protein","attrs":<"text":"S33490" "term_id":"479349","term_text":"pir||S33490">> S33490). I sekvensen av Chiocca et al. saknas uppenbarligen ett enda A vid pos. 35749. Insättning av den saknade nukleotiden leder till en kontinuerlig öppen läsram (ORF-18/19).

Det finns homologer av den sammanslagna ORF-18/19 i FAdV-9, CFA40 och FAdV-10 (Tabell ​ (Tabell1) 1 ) men också i Mareks sjukdomsliknande virus (MDV), en grupp patogena fågelherpesvirus [ 40]. Fig. ​ Fig.3d 3d visar arkitekturen för de olika proteinerna. I ORF-18/19 kunde signifikant homologi med triglyceridlipaser (Pfam PF00151) detekteras med olika metoder (t.ex. CD-Search rapporterar en träff till denna familj i regionen 125� med E = 3뜐 -7). Denna homologi med lipaser har noterats tidigare i CFA40-homologen [18] och även i MDV-sekvenserna [41,42]. Serinet på det aktiva stället och de omgivande resterna (Prosite-motiv PS00120) är väl bevarade bland alla sekvenser, vilket tyder på enzymatisk aktivitet (se tilläggsmaterial). Men bara en del av Pfam-lipasdomänen, som är allmänt spridd bland djur, växter och prokaryoter, kan hittas i de virala proteinerna. Istället finns det cirka 300 rester som är unika för fågel- och adenovirala proteiner. PSI-BLAST och HMMER profilsökningar med denna region hittade ingen koppling till några andra kända proteiner. Vissa av dessa rester kan bidra till lipasfunktion men ytterligare funktionella domäner kan förväntas. Intressant nog, i FAdV-10 kodas lipasdomänen och den unika regionen av två distinkta ORF:er. Det måste noteras att detta inte kan förklaras av ett enkelt sekvenseringsfel som i fallet med CELO-sekvensen.

Ytterligare resultat av den jämförande analysen indikerar att proteinerna i denna grupp möjligen är membranglykoproteiner. Signalpeptider och transmembranregioner kunde identifieras (Fig. ​ (Fig. 3d). 3d). I CELO-sekvensen kunde ingen signalpeptid hittas (SignalP: P = 0,005). Emellertid har Payet et al. rapportera en kort ledarsekvens som skarvas ihop med ORF-18/19 [13]. Om denna ledare ingår i translationen och en alternativ ATG kodad av denna ledare används som startkodon, har den nya aminoterminalen signifikanta signalpeptidegenskaper (P = 0,996). Detta tyder på att de korta 5'-ledarsekvenserna som är vanliga under transkriptionen i CELO och FAdV-9 [13,17] är åtminstone i vissa fall en del av den kodande sekvensen och måste betraktas som korta exoner snarare än oöversatta ledare. Intressant nog, även i den homologa sekvensen av Mareks sjukdomsvirus 1 kodas signalpeptiden i en mycket kort exon som är splittrad tillsammans med en mycket längre andra exon som kodar för resten av proteinet [41].

I FAdV-9, CFA40 och FAdV-10 kan en förlängd karboxiterminal inklusive S/T-rika regioner observeras. I FAdV-10 finns det en körning av cirka 60 treoniner varvat endast med några proliner. Sådana S/T-rika domäner är typiska platser för O-glykosylering av mucintyp [43]. Dessutom befanns karboxiterminalen av FAdV-10-ORF genom CD-Search likna karboxiterminalen av herpesglykoprotein D (Pfam PF01537, E = 0,007). I CELO saknas denna förlängda glykoproteinliknande karboxiterminal. Den kan vara kodad av en annan exon eller kan ha gått förlorad helt.

ORF32895-32434: två konserverade transmembrandomäner

Denna ORF överlappar den ursprungligen beskrivna ORF-21 och läses i en annan ram på samma sträng. Den är konserverad i CELO, FAdV-9 och CFA40 med avseende på aminosyrasekvens och genomisk lokalisering (i alla tre virusen är den lokaliserad mellan ORF-20 och ORF-22). Analysen av ORF32895-32434 hittade bara en intressant funktion i denna sekvens. Det finns två signifikant förutsagda transmembransegment (TMHMM-sannolikheter > 0,9 och TopPred2-poäng > 2). Även de homologa ORF:erna i FAdV-9 och CFA40 innehåller två transmembransegment vardera (Fig. ​ (Fig. 3e). 3e). Vi har inte intrycket att ORF32895-32434 kodar för ett funktionellt protein i sig men är tänkbart att denna konserverade kodande region är en exon som tillhandahåller ett eller två transmembransegment för några andra ORF. Kandidatsekvenser är till exempel ORF-20 och ORF-18/19 som är belägna på samma sträng direkt uppströms om ORF32895-32434 och som sannolikt är membranlokaliserade (indikerat med signalpeptider eller transmembrandomäner i nära homologer).

Andra ORF:er

När det gäller ORF-17 och ORF28115-27765sekvensanalysen gav inte rimliga nya resultat. För ORF-20 kan det noteras att en aminoterminal signalpeptid signifikant förutsägs i FAdV-9-homologen. I ORF-20 och även i CFA40-homologen är aminoterminalen oklar eftersom homologin går utöver det enda metioninet och en annan metionin kan inte observeras. Det kan spekuleras i att ORF-20 förses med en ledarpeptid av en annan exon, förmodligen samma som i fallet med ORF-18/19. Detta antagande stöds av den genomiska platsen och kan stå för det saknade startkodonet.

Även i fallet med UTPase (ORF-1), GAM-1 (ORF-8) och ORF-22, som har karakteriserats experimentellt [4-10], kunde sekvensanalysen inte lägga till nya aspekter till vad som redan har gjorts känd.


Resultat och diskussion

Kromatinlandskap av TOP2B-bindningsställen

Vi började med att omfattande utvärdera kromatinlandskapet för TOP2B-bindningsställen i två mussystem: embryonala fibroblaster (MEF) och lever. Vi samlade in sekvenseringsdata med hög genomströmning från ENCODE [19] och flera oberoende studier [11, 12, 42�] (S1-tabell) och observerade den förväntade kolokaliseringen med öppna kromatinställen, RNA-polymeras II (Pol2), arkitektoniska komponenter och transkription associerade histonmodifieringar genom spår i båda systemen tillhandahålls som ett exempel (Fig 1A och S1 Fig). Sedan identifierade vi berikade TOP2B-toppar och studerade den positionsspecifika fördelningen av varje kromatinfunktion runt TOP2B-bindningscentret (Fig 1B). Flera märken visade sig vara mycket berikade i båda systemen, såsom DNase-seq, CTCF och kohesinkomplexmedlemmarna STAG1, STAG2 och RAD21. Dessa egenskaper visade också en hög kolokaliseringsfrekvens med TOP2B (Fig 1C), i linje med tidigare fynd [11, 12]. Till exempel kolokaliserade 89 % av TOP2B-ställena i muslever med DNase-seq-toppar, medan denna procentandel för slumpmässigt utvalda regioner minskade till 11 %. På liknande sätt överlappade 87% av TOP2B-topparna RAD21 i MEF jämfört med 4% av slumpmässiga regioner. Dessa observationer överensstämmer med en preferensassociation av TOP2B med tillgängligt kromatin, aktivt transkriberade promotorer och regulatorer av genomarkitektur [10�], och antyder att kromatinegenskaper mätt med nästa generations sekvensering kan ge värdefull information för förutsägelse av TOP2B-bindning.

Aktuella experimentella data tyder på att TOP2B inte binder till ett specifikt DNA-motiv [11], vilket överensstämmer med topoisomeraser som specifikt verkar där DNA-topologiska problem uppstår. TOP2B associerar dock med DNA-regioner som ofta är bundna av sekvensspecifika transkriptionsfaktorer [9�], så det faktum att särskilda topologiska strukturer kan gynnas av specifika egenskaper hos DNA-sekvensen är fortfarande en möjlighet. En nyligen genomförd studie har faktiskt gett bevis för att DNA-sekvensen styr platsen för supercoiled DNA [51]. För att undersöka om sekvenssammansättningen av TOP2B-bindningsställen kan användas i vårt prediktiva tillvägagångssätt, analyserade vi den rumsliga fördelningen av DNA-sekvensdinukleotider inom 1kb-fönster centrerade på TOP2B-toppar. För båda murina systemen visade TOP2B-ställen en ökning av GC- och GG-dinukleotider medan AT och AA var utarmade (Fig 1D, överst). Detta resultat överensstämmer med tidigare rapporterade GC-rika motiv, såsom CTCF och ESR1, vid TOP2B ockuperade regioner [10, 11].

En annan egenskap som potentiellt skulle kunna hjälpa till vid förutsägelsen av TOP2B-bindning är DNA-formen, som har visat sig påverka bindningspreferenserna för ett antal DNA-associerade proteiner [33, 52, 53]. I denna mening har modeller tränade med information om DNA-form visat betydande förbättringar i transkriptionsfaktorbindningsförutsägelser [33]. För att ytterligare inspektera om de observerade sekvenspreferenserna för TOP2B-ställen åtföljs av specifika 3D-konformationsparametrar, härledde vi förutsägelser med hög genomströmning av DNA-formegenskaper från TOP2B-toppar. Positionsspecifika profiler av sådana egenskaper avslöjade ett specifikt mönster runt TOP2B-bindningscentrumet, kännetecknat av minskad helixvridning, ökad mindre spårbredd och propellervridning och en blygsam anrikning av rullning (Fig 1D, botten). En sådan konformation antyder spiralavlindning som en följd av en minskning av spiralvridningen, vilket tillsammans med breddningen av det mindre spåret skulle kunna ge ett energetiskt gynnsamt scenario för TOP2B-bindning.

Slutligen förhörde vi också om CpG-metylering är informativt för TOP2B-bindningsförutsägelse. CpG-metylering är ett välkänt epigenetiskt märke som har bevisat prediktiv förmåga för lokalisering av DNA-bindande proteiner [54�]. Vi profilerade helgenombisulfitsekvenseringsdata (WGBS) runt TOP2B-bindningsställen och fann minskad CpG-metylering jämfört med slumpmässiga regioner (S2 Fig), vilket visar att denna funktion sannolikt är informativ för TOP2B-förutsägelse.

En prediktiv modell för TOP2B-bindning baserad på kromatinegenskaper

För att bedöma om kromatinfunktioner kunde skilja TOP2B-bindningsställen från resten av genomet, tillämpade vi den beräkningsmetod som beskrivs i Fig 2. För både MEF och lever ansåg vi toppar identifierade i föregående avsnitt, ändrade storleken på dem till 300 bp och genererade samma antal slumpmässiga genomiska regioner (se Material och metoder). Sedan fick vi 15 sekvenseringsexperiment med hög genomströmning (S1-tabell) tillsammans med DNA-sekvens och formegenskaper inom sådana regioner. När det gäller DNA-sekvens representerade vi DNA 1-merer, 2-merer och 3-merer för varje nukleotidposition i TOP2B-bindningsställena som beskrivs i [33] (se Material och metoder). Detta gav 1 200 parametrar som representerade 1-merer, 4 784 parametrar som representerade 2-merer och 19 072 parametrar som representerade 3-merer. Vi inkluderade också information om 13 DNA-formegenskaper med hjälp av DNAshape-metoden [57], som lade till andra 7 695 parametrar till modellen. Denna parametrisering gjorde det möjligt för oss att mäta den prediktiva förmågan hos DNA-sekvens och form för att förklara TOP2B-bindning med en aldrig tidigare skådad upplösning. Som ett resultat slutade vi med modellmatriser med 32 766 kolumner och antingen 13, 128 (lever) eller 8 413 (MEFs) rader. Slutligen tränades och testades binära klassificerare med 5-faldig korsvalidering.

TOP2B-bindningsställen och slumpmässiga regioner identifierades först. Sedan poängsattes 15 sekvenseringsexperiment med hög genomströmning tillsammans med DNA-sekvens och formegenskaper runt sådana regioner, vilket resulterade i en datamatris med rader som representerar TOP2B/slumpmässiga platser och kolumner som representerar de poängsatta funktionerna. Slutligen tränades och testades binära klassificerare med hjälp av 5-faldig korsvalidering och funktionsval användes för att identifiera de mest informativa funktionerna.

Eftersom TOP2B-bindande regioner visar ökat G+C-innehåll jämfört med genomsnittet av musgenomet, tränade vi ytterligare en modell där slumpmässiga regioner valdes ut så att deras fördelning av sekvens G+C-innehåll matchar TOP2B-topparna. Detta gjorde det möjligt för oss att ta hänsyn till potentiella fördomar i förutsägelserna på grund av skillnader i G+C-innehåll. De slutliga uppsättningarna av TOP2B, slumpmässiga och GC-korrigerade slumpmässiga toppar visade den förväntade genomiska fördelningen [9�], med TOP2B-bindningsställen som visade högre samlokalisering med promotorer, förstärkare och isolatorer än randomiserade regioner (S3(A) och S3( B) Fig). Att tvinga G+C-innehållet i slumpmässiga regioner att matcha TOP2B-bindningsställena ledde ändå till att de förra var lokaliserade på GC-rika ställen, vilket i sin tur fick dem att visa en måttlig samlokalisering med aktivt reglerade regioner. Eftersom TOP2B förväntas lokaliseras i sådana regioner, genererade vi värmekartor för att undersöka ChIP-seq-signalen vid TOP2B, slumpmässiga och GC-korrigerade slumpmässiga toppar och observerade anrikning endast i mitten av TOP2B-topparna (S3(C) Fig), vilket indikerar att våra bakgrundsregioner är lämpliga för efterföljande utbildning.

Vi använde Support Vector Machine (SVM) [35] och Naive Bayes (NB) [34] för att bygga upp de prediktiva modellerna och använde 5-faldig korsvalidering för att uppskatta prediktionsnoggrannheten. Vi började med att träna på hela uppsättningen funktioner. Exakta förutsägelser erhölls för de två murina systemen med användning av både den GC-korrigerade och den vanliga modellen (Tabell ​ (Tabell 1 och ​ and2 2 Fig 3 och S4 Fig), vilket indikerar att kromatinfunktioner troget kan förklara TOP2B-bindning. Faktum är att SVM tränade på alla funktioner presterade betydligt bättre än NB. Till exempel, medan vanliga modeller tränade med NB uppnådde en noggrannhet på 71 % respektive 77,4 % för MEF respektive lever, ökade dessa värden till 98 % och 97,4 % Vid användning av SVM. På samma sätt var noggrannheten som erhölls vid träning av de GC-korrigerade modellerna med NB 74,1 % och 76,2 % för MEF respektive lever, medan SVM gav noggrannheter på 96,7 % och 93 %. Sådana prestationsskillnader kommer sannolikt att förklaras av många funktioner som visar beroenden till varandra eller är dåligt informativa. Detta skulle försämra NB-prestandan, vilket förutsätter att alla funktioner är oberoende. I själva verket leder borttagning av icke-informativa funktioner till en betydande ökning av noggrannheten. framställd av NB-algoritmen (se nästa avsnitt).


Titta på videon: 3 1 Основные понятия Секвенирование по Сэнгеру Basic concepts Sanger sequencing (Februari 2023).