Information

(Uppdaterad fråga) Problem med vik-ändring av medelvärde jämfört med absoluta data (i qPCR)

(Uppdaterad fråga) Problem med vik-ändring av medelvärde jämfört med absoluta data (i qPCR)


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

För problemet nedan är jag medveten om den inblandade statistiken men kan bara inte få fingret kring följande:

Inom biologin använder vi qPCR för att mäta genuttryck eller i princip antalet mRNA -kopior. Den gör detta genom att räkna hur många förstärkningscykler (2^) den behöver för att nå en tröskel. Så för att förenkla allt kan vi anta att 1024 kopior skulle kräva 10 cykler (2^10). Om det finns fler kopior skulle det ta mindre cykler för att nå tröskeln, därför skulle 2024 kopior ta 9 cykler, 512 kopior 11 cykler etc ... Tänk dig nu följande scenario:

Vi har följande prover:

Prov 1. 1024 kopior av gen A och 4096 kopior av gen B Prov 2. 1024 kopior av gen A och 16384 kopior av gen B

Nu vill vi jämföra prov 2 till 1, med gen B i förhållande till gen A:

I absoluta tal skulle detta vara:

Prov 1. 4096 /1024 = 4x mer B Prov 2. 16384 /1024 = 16x mer B Medelvärdet mer B = (16 + 4) / 2 = 10x mer B

Nu med qPCR skulle samma prover ovanifrån se ut följande:

Prov 1. Gen A 10 cykler, Gen B 8 cykler. Prov 2. Gen A 10 cykler, Gen B 6 cykler.

När vi nu använder metodstandarden som används för qPCR-data tar vi först skillnaden mellan gen B och A. Följt av medelvärdet av skillnaden och detta tas 2^.

Prov 1. 10 - 8 = 2 cykler Prov 2. 10 - 6 = 4 cykler Genomsnittlig mängd mer B = 2^((2 + 4)/2) = 8x mer B

Alla publikationer/mjukvaruverktyg etc kommer att beräkna ett genomsnitt på 8x mer B. Och jag är medveten om att detta härrörde från en log2-skala, men varför skiljer sig denna statistiskt korrekta metod i utfall från absoluta tal?

Uppdatering Jag förenklade min fråga därför nedan några mer detaljer om mitt "problem".

Villkor 1 biorep 1. 1024 kopior av ref och 1024 kopior av gen X Villkor 1 biorep 2. 1024 kopior av ref och 1024 kopior av gen X Villkor 2 biorep 1. 1024 kopior av ref och 4096 kopior av gen X Villkor 2 biorep. 1024 kopior av ref och 16384 kopior av gen X

Så för att beräkna i absoluta tal den genomsnittliga mängden mer av gen X i tillstånd 2 jämfört med 1:

Vi kan glömma referensgenen här eftersom cDNA -mängder är desamma, därför: Villkor 1 biorep 1 & 2: genomsnitt (1024 + 1024) / 2 = 1024 kopior Villkor 2 biorep 1 & 2: genomsnitt (4096 + 16384) / 2 = 10240 kopior Villkor 2 vs 1: genomsnitt 10240 /1024 = 10x mer gen X i tillstånd 2 mot 1

Nu med qPCR CT-värden baserade på siffrorna ovan:

Condition 1 biorep 1. Ref_CT 10 och GeneX_CT 10 Condition 1 biorep 2. Ref_CT 10 och GeneX_CT 10 Condition 2 biorep 1. Ref_CT 10 och GeneX_CT 8 Condition 2 biorep 1. Ref_CT 10 och GeneX_CT 6

Använd nu de officiella qPCR -beräkningarna:

Villkor 1, medelvärde Ref_CT (10 + 10) / 2 = 10 villkor 2, medelvärde för ref_CT (10 + 10) / 2 = 10 villkor 1, medelvärde för GeneX_CT (10 + 10) / 2 = 10 villkor 2, medelvärde för GeneX_CT (8 + 6) / 2 = 7 Ref_deltaCT (10 - 10) = 0 GeneX_deltaCT (10 - 7) = 3 delta_deltaCT (3 - 0) = 3 Skillnadstillstånd 2 vs 1 = (2^3) = 8x

Detta motsvarar 8x mer av Gen X i genomsnitt i tillstånd 2 jämfört med tillstånd 1. Här är nu skillnaden 8x vs 10x. Också alla program du kommer att använda för att fylla i dessa CT -värden kommer det att resultera i ett förhållande på 8 jämfört med 10.

Är detta kanske eftersom denna metod som motsvarar 8 endast bör användas för tekniska replikat, och bioreps bör använda en annan ekvation som resulterar i 10?


Prov 1. 4096 /1024 = 4x mer B

Prov 2. 16384 /1024 = 16x mer B

Det genomsnittliga beloppet mer B = (16 + 4) / 2 = 10x mer B

Det är inte rätt väg att gå. Du beräknar genomsnittliga uttryck förBi båda proverna. Det betyder inte att det finns10xMerB. Det finns bara4xMerBiProv-2släkt medProv-1.

Gene-Aändrar inte sitt uttryck mellan prover och kan användas som referensgen.

Om du beräknar efter tröskelcykeln ändras vikningen $ = 2^{8-6} = 4x $

Se detta inlägg också.

Medelvärdet beräknas mellan replikat, inte mellan olika experimentella förhållanden.

Ibland genomsnittet av två experimentella prover är beräknat - detta görs vanligtvis i en MA -plotanalys som görs för att filtrera bort gener som visar mycket höga veckförändringar bara på grund av deras totala låga uttryck (1:4 mot 100:300).

Svar på din redigering

Du bör inte ta medelvärdet (arithmetiskt medelvärde) av Ct. De skala inte linjärt med uttryck (och det är det motsatta).

För alla icke-linjära funktioner $f(x)$:

$$ f (x+y) ne f (x)+f (y) $$

$$ f vänster ( frac {x+y} {2} höger) ne frac {f (x)+f (y)} {2} $$

Vidare, för en konvex funktion:

$$f(E[x]) le E[f(x)] $$

$$ Jensens ojämlikhet $$

var $ E [x] $ är förväntat värde av $ x $

$ a^x $ är en konvex funktion med avseende på $ x $ ($ a $ är ett reellt tal> 1). Så du kan tillämpa Jensens ojämlikhet på Ct -värden och uttryck.


Jämföra veckförändringen (effektstorlek) efter en behandling

Jag har använt den här sidan under det senaste året för att få tips om statistik men jag har stött på ett problem som jag inte kan lösa. Det är inte för komplicerat, men jag är inte säker på hur jag ska avgöra betydelsen eller om mina idéer är korrekta. Hoppas några av er kan hjälpa till lite. Tack i förväg.

Jag har en situation där jag har två stammar av möss. I en musstam har de en hög förekomst av en sjukdom medan en annan har en lägre förekomst av samma sjukdom. Sjukdomen är binär, antingen har de det eller inte.

Om jag behandlar en population av endera musstammen med läkemedel A får de båda en minskning av förekomsten av sjukdomen. Den höga incidensen av musstammen har sjukdomsincidensen fall från 30% -> 15%. Musstammen med låg förekomst ser en minskning från 10% -> 1% efter behandling.

Från detta experiment, om jag tittade på det absoluta fallet i incidensen verkar det som att läkemedlet är mer effektivt i gruppen med hög förekomst som har en minskning med 15%, jämfört med 9% i den andra. Men (för mig) är det uppenbart att läkemedlet är mycket effektivare vid musstammen med låg förekomst eftersom vikningsförändringen är en 10-faldig minskning, medan de högfrekventa mössen bara har en 2-faldig reduktion.

Förhoppningsvis var scenariot meningsfullt. Min fråga är:

Om jag vill avgöra om veckminskningen hos möss med lägre incidens är signifikant större än vid hög incidens, vilken typ av statistiskt test ska jag göra?

Jag tänker att jag ska logga (2) transformera incidenterna och sedan testa effekten av behandling med en linjär modell eller ANOVA. Jag är inte säker på om det här är kosher, särskilt med min binära svarsvariabel och inga replikat (omöjligt att göra replikat på grund av stort antal möss

Alla dina förslag/svar skulle vara bra och uppskattas mycket.


Resultat, exportera och spara


Registreringen av ackumulering av polymeraskedjereaktion (PCR) -produkter under amplifiering (realtids-PCR) kräver specifik utrustning, dvs detektering av förstärkare som kan registrera fluorescensnivån i reaktionsröret under amplikonbildning. När reaktionstiden är klar kan forskare erhålla grafer för DNA -ackumulering. Denna översyn diskuterar de mest lovande algoritmerna för analys av realtids-PCR-kurvor och möjliga fel, orsakade av programvaran som används eller av operatörers misstag. De data som ingår kommer att hjälpa forskare att förstå funktionerna i en metod för att få mer tillförlitliga resultat.
Utvärdering av realtids-PCR-data.

Vaerman JL, Saussoy P, Ingargiola I. J Biol Regul Homeost Agents. 2004 18(2): 212-214.
UCL, Cliniques Saint Luc, Bruxelles, Belgien.

Om realtids-PCR ska vara av mycket värde för användaren, är en idé om tillförlitligheten hos dess data väsentlig. Vi diskuterar här några av problemen i samband med tolkning av numeriska realtids-PCR-data som lämpar sig till analytisk utvärdering. Vi översätter till molekylärbiologins språk några av de kriterier som används för att utvärdera prestanda för alla nya metod (linearitet, precision, specificitet, detektionsgräns och kvantifiering).
Statistisk praxis vid analys av data med hög genomströmning.

Malo N, Hanley JA, Cerquozzi S, Pelletier J, Nadon R.
Nat Biotechnol. 2006 24 (2): 167-75.
McGill University and Genome Quebec Innovation Center, 740 avenue du Docteur Penfield, Montreal, Quebec, Kanada

Screening med hög genomströmning är ett tidigt kritiskt steg i läkemedelsupptäckten. Dess syfte är att screena ett stort antal olika kemiska föreningar för att snabbt och exakt identifiera kandidat "träffar". Det finns dock få statistiska verktyg för närvarande tillgängliga för att upptäcka kvalitetsträffar med en hög grad av tillförsikt. Vi undersöker statistiska aspekter av dataförbehandling och träffidentifiering för primära skärmar. Vi fokuserar på problem relaterade till positionella effekter av brunnar i plattor, val av träfftröskel och vikten av att minimera falskt positiva och falskt negativa hastigheter. Vi hävdar att upprepade mätningar behövs för att verifiera antaganden om nuvarande metoder och för att föreslå dataanalysstrategier när antaganden inte uppfylls. Integrationen av replikat med robusta statistiska metoder i primära skärmar kommer att underlätta upptäckten av tillförlitliga träffar, vilket i slutändan förbättrar känsligheten och specificiteten hos screeningsprocessen.


Metoder

Affymetrix GeneChip ® beredning

Vi tillät åtta parning av vildtyp (AB-laboratoriestam) Danio rerio att leka under kontrollerade laboratorieförhållanden och separerade därefter könen under en period av 5 dagar för att förhindra återparning och standardisera reproduktionscyklerna. För att minimera individuella skillnader mellan fiskarna var alla försökspersoner helsyskon, mellan 4 och 12 månader gamla. Efter att ha offrat varje individ genom isbadsdöd, skar vi snabbt ut all testikelvävnad från män och all äggstocksvävnad från honor. Alla metoder godkändes av Texas A & ampM University: s institutionella djurvård och användningskommitté (AUP2005-76). Vävnader flashfrystes i TRIzol ® -reagens (Invitrogen) och total RNA-isolering utfördes i enlighet med tillverkarens riktlinjer. Efter kvantifiering och kvalitetsbedömning skickades totala RNA-prover från 3 testikelpar, 3 manliga kroppar, 3 äggstockspar och 3 kvinnliga kroppar till University of Kentucky Microarray Core Facility för cRNA-märkning och hybridisering till 12 GeneChips® med standard Affymetrix-protokoll ( beskrivs i GeneChip ® Expression Analysis Technical Manual). I korthet reverserades totalt RNA transkriberat, följt av produktion av biotinylerat cRNA. Efter ett fragmenteringssteg hybridiserades det biotinylerade cRNA till matriserna under en period av 16 timmar. Proverna färgades sedan med streptavidinfykoerytrin och amplifierades med användning av en biotinylerad anti-streptavidinantikropp före skanning.

Absoluta uttrycksanalyser

GeneChip ® Zebrafish Genome Array innehåller

15 500 sonduppsättningar, varje uppsättning bestående av 16 intilliggande men icke-överlappande sondpar. Dessa sondpar är 25 baser långa, varje par innehåller en sond (PM) som perfekt matchar måltranskriptet och en annan sond (MMsom inte matchar målsekvensen vid ett enda baspar. Närvaron av en felparningsprob är avsedd att kontrollera för bakgrundsbrus orsakat av hybridisering av icke-målmolekyler. För att konvertera matrisinformation till transkriptmängder använder vi fyra olika algoritmer för "absolut uttrycksanalys". Var och en av dessa analysmetoder användes för att generera en distinkt datamängd från en given chipbildfil. Vi tillämpade standardnormaliseringsprocedurer på rådata före analys, som föreslås av respektive programmanual. Normaliserade uttrycksvärden för alla absoluta analyser över alla experimentella replikat, tillsammans med andra relevanta mikroarraydetaljer, har deponerats i NCBI Gene Expression Omnibus (GEO) under accessionsnummer GSE14979.

Algoritmen implementerad i GCOS-mjukvarupaketet (Affymetrix) använder ett-stegs Tukys biviktsmedelvärde PM i- CT itvärs över i sondpar, var PM är intensiteten för den perfekta matchande sondcellen, och CT är "kontrastvärdet" [31, 32]. CT är oftast lika med MM (intensitetsvärdet för den felaktiga sondcellen), men om många sondpar inom en uppsättning visar MM värden som är större än motsvarande PM värden används ett justerat värde för CT för att eliminera beräkningen av negativa uttrycksvärden [33]. Denna algoritm är därför en enkel beräkning baserad på att subtrahera bakgrundsbrus från den förmodade "sanna signalen".

GC-RMA

Vi använde också GC-RMA (GC Robust Multi-Array Analysis) -algoritmen, som implementerats i mjukvarupaketet GeneSpring GX 7.3.1 (Agilent). GC-RMA-algoritmen är baserad på en linjär additiv modell och tar därför hänsyn till alla arrayer i en given datamängd vid uppskattning av uttrycksvärden för varje chip, till skillnad från GCOS-algoritmen. Den grundläggande linjära modellen beskrivs av Wu et al. [34], och antar att Y gij= O gij+ N gij+ S gij, var Y gijär PM intensitetsvärde för sonden j i sonduppsättning g på array i. O gijär motsvarande "optiskt brus" på grund av laserskanningsfel, N gijär motsvarande "ospecifikt bindningsbrus" och S gijär en kvantitet som är proportionell mot det faktiska överflödet av måltranskript i ett prov (vilket möjliggör uppskattning av det "sanna" uttrycksvärdet). GC-RMA-algoritmen använder många parametrar från de observerade data i alla matriser för att uppskatta komponenter av N gijoch S gij, då passar det modellen att beräkna uttrycksvärden [34].

PM-MM, endast PM

Två ytterligare modellbaserade metoder, tillgängliga i analyspaketet dChip [35, 36], användes också för att generera uttrycksvärden. PM-MM-modellen förutsätter att för varje sond i en grupp av i matriser, PM I j- MM I j= θ iφ j+ ε I j, var PM I joch MM I jär den perfekta matchnings- och felmatchningsintensiteten för sondpar j i array i, θ iär uttrycksindex för sonden i uppsättningen i (värdet av ränta), φ jär en koefficient som representerar förhållandet mellan sondpar j cellintensiteter och verklig målkoncentration, och ε I jär modellens felterm [33, 35, 36]. I likhet med GC-RMA använder PM-MM-algoritmen information från alla marker i en datamängd, och sedan är modellen lämplig för att uppskatta uttrycksvärdet för varje sonduppsättning på varje chip. PM-Only-algoritmen liknar PM-MM, men oöverensstämmelseintensiteterna ignoreras helt i modellen: PM I j= θ iφ j+ ε I j. Denna alternativa modell skapades för att undvika enstaka beräkningar av negativa uttrycksvärden när MM sondintensiteterna är höga jämfört med PM intensiteter [35, 36].

Jämförande uttrycksanalyser

För att jämföra absoluta uttrycksvärden mellan olika behandlingsgrupper, upptäcka differentiella transkriptnivåer och uppskatta veckändringar, genomförde vi standard-t-tester med Cyber-T-webbgränssnittet [37]. Detta tillvägagångssätt gav 4 uppsättningar (en per absolut uttrycksalgoritm) resultat för var och en av följande jämförelser: manlig kropp vs. kvinnokropp, testiklar vs äggstockar, testiklar vs. För att kontrollera det statistiska problemet med att prestera

15 000 t-test per jämförelse, vi ställer in en falsk upptäcktshastighet (FDR) på 0,05, som beskrivs av Benjamini och Hochberg [38], för varje analys. För att avgöra om en gen för en given jämförelse var att betrakta som "differentiellt uttryckt" antog vi ett "strikt konsensus" -kriterium där genen krävdes för att visa ett signifikant FDR-justerat p-värde för alla 4 absoluta analysdatauppsättningar. Denna procedur är konservativ, men försvarlig i namnet av att kontrollera för falska positiva.

PCR i realtid

Vi använde de återstående 5 manliga och 5 kvinnliga zebrafiskproverna för att utföra oberoende tester av uttrycksbias för sju gener som identifierats som differentiellt uttryckta av våra mikroarrayanalyser. Inom var och en av de testikeluppreglerade, manliga anrikade och kvinnliga anrikade kategorierna valde vi slumpmässigt två av de tio mest uppreglerade generna. Vi kunde amplifiera en genspecifik PCR-produkt för endast ett av de valda manliga anrikade transkripten (probuppsättning 15637.1.S1_at). Inom den äggstocksuppreglerade kategorin valde vi slumpmässigt två av de 200 mest uppreglerade generna, för att bedöma noggrannheten av mikroarrayresultat för gener som visar mindre slående skillnader i uttryck. För varje prov transkriberades samma mängd totalt RNA (1 μg) till cDNA med Superscript ® First Strand Synthesis Kit (Invitrogen).

Vi utförde PCR i realtid med hjälp av SYBR ® Green PCR Mastermix (Invitrogen) och 2 μl cDNA-mall. Reaktioner kördes på en ABI 7700 realtids-PCR-apparat (Applied Biosystems) med standardanalysinställningar. Varje individuell reaktion utfördes i triplikat, och kontroller utan mall inkluderades för varje primerpar för att bekräfta amplifieringsspecificiteten. En utspädningsserie innefattande 5 olika mallkoncentrationer användes för att underlätta Relative Standard Curve Method (Applied Biosystems) för uppskattning av relativa mRNA -nivåer. Primersekvenser för målgener utformades med Primer Express ® 3.0 (Applied Biosystems) och är tillgängliga på begäran. Två uppsättningar kontrollprimrar (föreslagna i Tang et al. [39]) användes för att normalisera mängden cDNA i varje reaktion. EF1α användes i gonad-kroppsjämförelser, och Rpl13a användes i man-kvinnliga jämförelser. För varje jämförelse beräknade vi ett 95% konfidensintervall om medelfaldig förändring, baserat på uttrycksnivåuppskattningarna över de 5 experimentella replikaten.


Använda delta-delta Ct-formeln för att beräkna genuttryck

För att använda delta-delta Ct-metoden behöver du Ct-värden för din intressanta gen och din hushållsgen för både de behandlade och obehandlade proverna. Om du har mer än en hushållsgen kan det vara värt att kolla in guiden för analys av qPCR -data med många referensgener.

Så här beräknar du det relativa genuttrycket i 5 enkla steg.

1. Genomsnitt av Ct-värdena för eventuella tekniska replikat

Det första steget är att ta ett genomsnitt av Ct-värdena för de tekniska replikaten av varje prov. Så när du utför qPCR i duplikat eller triplikat, till exempel, måste dessa värden beräknas först. I exemplet nedan kördes varje prov i duplikat (Ct1 och Ct2).

2. Beräkna delta Ct för varje prov

Nästa steg är att beräkna delta Ct (∆Ct) för varje prov genom att använda de nyligen skapade genomsnittliga Ct-värdena. Formeln för att beräkna delta Ct presenteras nedan.

∆Ct = Ct (gen av intresse) - Ct (hushållsgen)

Till exempel för att beräkna ∆Ct för 'Kontroll 1"Prov:

∆Kontroll 1 = 30.55 – 17.18

3. Välj en kalibrator/referensprov för att beräkna delta delta Ct

Nästa steg är att bestämma vilket prov, eller grupp av prover, som ska användas som kalibrator/referens vid beräkning av delta-delta Ct (∆∆Ct) värden för alla proverna. Detta är den del som förvirrar många människor. I grund och botten beror allt på din experimentuppställning.

Ett vanligt sätt att göra detta är att bara matcha de experimentella proverna och bestämma de relativa genuttrycksförhållandena separat. Detta är väl och sant för experiment som har matchat par, till exempel fallet i cellkulturförsök. Detta är dock svårt när de två experimentgrupperna varierar i n antal och inte har matchade par.

Ett annat sätt att välja ett kalibrator-/referensprov är att välja provet med det högsta Ct-värdet, så provet med det lägsta genuttrycket. På så sätt kommer alla resultat att vara i förhållande till detta prov. Eller så kan du helt enkelt välja ett av kontrollproverna för att fungera som referensprov.

Jag personligen genomsnitt "Genomsnittligt Ct" värden för de biologiska replikaten av kontrollgruppen för att skapa en "Kontrollmedelvärde". Genom att göra det skulle det innebära att resultaten presenteras i förhållande till kontrollgenomsnittliga Ct -värden.

Vilket prov som helst eller vilken grupp av prover du använder som din kalibrator/referens är bra så länge detta är konsekvent genom analyserna och rapporteras i resultaten så det är klart. Kom ihåg att resultaten som produceras i slutet är släkting genuttrycksvärden.

Med detta i åtanke, om vi vill få ∆∆Ct värden för varje prov (inklusive för varje kontrollprov), måste vi först ta ett medelvärde av ∆Ct för de 3 kontrollproverna:

∆Ct Kontrollmedelvärde = (13.38 + 13.60 + 13.68)/3

Observera att om Ct-värdena är variabla kan det vara lämpligare att använda det geometriska medelvärdet istället för det aritmetiska medelvärdet ovan. Det geometriska medelvärdet är mer motståndskraftigt mot outliers, jämfört med det aritmetiska medelvärdet. Det geometriska medelvärdet används i Vandesompeles relativa genuttrycksmetod av denna anledning.

Till exempel, om Ct-värdena för mina tre kontrollprover istället var 13,38, 13,60 och 15,80, så är detta en bra anledning att använda det geometriska medelvärdet snarare än det aritmetiska medelvärdet.

För att använda det geometriska medelvärdet, multiplicera först talen och ta sedan den n:te roten av det värdet. N är helt enkelt antalet observationer i formeln, vilket är 3 i detta exempel. Så med mitt senaste exempel skulle detta vara:

∆Ct Styr geometriskt medelvärde = ∛ (13,38 x 13,60 x 15,80)

4. Beräkna delta delta Ct -värden för varje prov

Beräkna nu ∆∆Ct värden för varje prov. Kom ihåg att delta delta Ct -värden är relativt obehandlade/kontrollgruppen i detta exempel. Formeln för att beräkna delta delta Ct presenteras nedan.

∆∆Ct = ∆Ct (prov) - ∆Ct (kontrollgenomsnitt)

Till exempel för att beräkna ∆∆Ct för det behandlade 1 -provet:

∆∆Ct-behandlad 1 = 7.83 – 13.55

5. Beräkna veckgenexpressionsvärdena

Slutligen, för att räkna ut det genuttryck som vi behöver, måste vi göra det 2 till negativ ∆∆Ct (dvs. de värden som just har skapats). Formeln för detta finns nedan.

Vik genuttryck = 2^-(∆∆Ct)

Till exempel för att beräkna vikgenuttrycket för det behandlade 1 -provet:

Vik genuttryck = 2^-(-5.72)

Att göra detta skulle ge ett foldgenuttryck av 52,71 för det behandlade 1 -provet. Om du gör detta för alla prover kommer det att se ut så här:

Och det är så du kan använda delta-delta Ct-metoden för att räkna ut genuttrycket för dina prover.


Slutsats

Alla arbetsflöden visar en bra överensstämmelse med RT-qPCR-uttrycksmätningar och inget arbetsflöde överträffar de andra. Observera att varje arbetsflöde avslöjade en liten men specifik uppsättning gener med inkonsekventa uttrycksmätningar, reproducerbart identifierade i oberoende datauppsättningar. Dessa gener var vanligtvis mindre, hade färre exoner och var lägre uttryckta jämfört med gener med konsekventa uttrycksmätningar. Noggrann validering är motiverad vid utvärdering av RNA-seq-baserade uttrycksprofiler för denna specifika uppsättning gener.


Slutsatser

Tillsammans fann vi att den 24 timmar långa fastan huvudsakligen påverkar nivån av strukturella och utsöndrade proteiner i jejunum av slaktkyckling. Enligt deras biologiska funktioner är dessa proteiner cytoskeletala komponenter, involverade i fettsyrabindning och transport, generellt stressrespons och jon- eller vesikeltransport. Alla de identifierade cytoskelettproteinerna (ACTA2, ACTB, KRT14, TPM1) visade ökat uttryck, vilket tyder på att dessa proteiner kan vara de viktigaste i villusremodellering och de motilitetsförändringar som orsakas av fasta. Vissa signifikanta förändringar kunde dock observeras vid morfometriska parametrar i tunntarmen, det låga antalet mätade prover tillåter oss inte att göra några starka slutsatser som kopplar morfometriska förändringar till de observerade proteomikförändringarna. De andra identifierade proteinerna (EXFABP, MAGT1, APOA1, APOA5, MUC6, HSP90A) kan visa ökande proteinmängder i den fastande gruppen som ett svar på den stress som produceras av fastan och har troligen skyddande roller som bibehåller homeostasen under fastan.


Datatillgänglighet

Denna studie stöddes av CHARGE Syndrome Foundation (KS, JAP och SP), Canada Foundation for Innovation (CFI SP), Natural Sciences and Engineering Research Council of Canada (NSERC SP) och Rare Disease Foundation (SP). SP innehar ett FRQS Junior 1-forskarpris och Anna Sforza Djoukhadjian Research Chair. PJ stöds av ett CERMO-FC-stipendium. KS fick stöd av en CIHR -stipendium. JAP och NP är FRQS Seniorforskare och NP är också mottagare av UQAM Research Chair om sällsynta genetiska sjukdomar. Författarna tackar Dr S. Lalani, Dr J. W. Belmont och P. Hernandez (Baylor College of Medicine) för att de generöst tillhandahåller lymfoblastoida cellinjer. Vi tackar också doktor Marie-Claude Bélanger för kritisk läsning och värdefulla kommentarer om manuskriptet Claudia Maios för hennes hjälp med läkemedelsskärmarna i C. elegans och Valentin Lemoine, Alexandra Lissouba och Marc Allard för deras hjälp med genotypning av zebrafisk.


En översikt över applikationerna för dPCR

De senaste användningarna av dPCR har omfattat många DNA-, RNA- och epigenetiska tillämpningar. En populär användning av metoden är detektion och kvantifiering av sällsynta genetiska varianter (t.ex. enkla nukleotidvarianter) i blandningar av andra, mer dominerande, varianter av samma sekvens. Sådan "sällsynt" sekvensdetektering kan mäta användbara mutationer i ctDNA ( 10,), fetala genetiska varianter i icke-invasiv prenatal testning ( 11,), polymorfismer av ett donatororgan som en bedömning av potentiell transplantatavstötning ( 12, 13,), liksom sällsynta bakteriella genotyper ( 14,) och viral läkemedelsresistens ( 15,). Ett exempel på tidig klinisk diagnostisk tillämpning är mätning av ctDNA i flytande biopsier för att styra behandlingen av icke-småcellig lungcancer ( 16, 17).

dPCR kan erbjuda större precision än qPCR ( 18,) och är mycket enklare att använda för kopiering av tal på grund av den binära karaktären där partitionerna räknas som positiva eller negativa. Den ökade precisionen av dPCR ( 18,) möjliggjort förbättrad mätning av kopianummervarianter ( 19, 20,), inklusive vid genamplifiering vid neuroblastom ( 21,) och fetal trisomi genom icke -invasiv prenatal testning ( 22,). dPCR tillåter också sällsynta händelser eller spårningsdetektering med hög konfidens eftersom endast ett enda eller litet antal DNA -molekyler amplifieras i varje enskild partition, oavsett om ett experiment har 10 eller 10 000 målmolekyler per reaktion. Medan qPCR kan detektera mycket låga koncentrationer av ett mål, är kalibrering av spårmätningar utmanande. Detta är en av anledningarna till att dPCR har undersökts som en metod för mätning av spårnivåer vid minimal återstående sjukdom ( 23, 24,) och latens vid virusinfektioner såsom HIV ( 25–27).

Den analytiska känsligheten för mätningen av dubbelsträngade DNA -molekyler kan förbättras ytterligare genom att denaturera molekylerna innan de delas upp ( 28,). Eftersom enstaka trådar hamnar i olika partitioner förbättras den analytiska känsligheten med en faktor två. Andra applikationer som utnyttjar den unika partitioneringen av dPCR inkluderar cis-trans-kopplingsrelationer mellan två mål ( 29–31,) och "drop-off" -analyser för att identifiera frekvensen för en mutation av okänd sekvens ( 32), och utvärdering av genredigeringseffektivitet vid användning av metoder som CRISPR-Cas9 ( 33).

Dessutom ger dPCR hög reproducerbarhet till ovanstående tekniska fördelar. Detta är möjligt när samma mål mäts i olika laboratorier ( 34, 35,) med olika analyser eller analysformat ( 36,), eller instrument från olika tillverkare ( 37, 38,). Detta är också möjligt både vid mätning av renad nukleinsyra, men även hela biologiska prover där preanalytiska steg som extraktion behöver ingå ( 36, 39,). Denna egenskap har gjort dPCR till en populär metod för att kvantifiera referensmaterial ( 40, 41,), för att stödja tillämpad molekylär testning i klinisk diagnostik ( 42–44,) och matprovning ( 45–47).

När de används för att utföra kvantitativa mätningar, har molekylärgenetiska metoder historiskt tillämpat massa och mol, kombinerat med volym, för att beräkna antal kopior. Massa eller mol är utan tvekan idealisk när man överväger en stor makromolekyl som DNA, och nukleinsyrakalibreringsmaterial har sällan spårats till International System of Units (SI) ( 48,). dPCR har förmågan att räkna alla intakta (lika med eller större än amplikonet) DNA -molekyler som innehåller en specifik målsekvens ( 49,), och därmed potentiellt erbjuda SI -spårbarhet genom att räkna till enheten en ( 48,). För att maximera den potentiella effekten av en sådan förmåga har ansträngningar gjorts för att harmonisera och standardisera bästa praxis inom dPCR (och qPCR) i ISO 20395 -standarden ( 50).

Kvantifieringsnoggrannhet för kopieringsmätningar är beroende av både fullständigheten av molekylräkningen och exakt definition av enhetsvolymen för provet och den totala reaktionen (dvs. antalet partitioner med exakt definierad volym). Båda måste demonstreras för att påståenden om SI -spårbarhet med dPCR ska kunna stödjas. Internationellt samarbete mellan nationella metrologiinstitut, med stöd av rådgivande kommittén för ämnesmängd: metrologi i kemi och biologi (CCQM), har lett forskning som visar att dPCR verkligen kan mäta med tillräcklig noggrannhet för primär SI-spårbarhet ( 38, 51,). dPCR har tillhandahållit det första nukleinsyrareferensmätningsförfarande som någonsin accepterats av Gemensamma kommittén för spårbarhet i laboratoriemedicin (JCTLM) ( 38,) och dPCR ingår som ett exempel på en högre ordnings referensmätningsprocedur inom den nya utgåvan av ISO 17511-riktlinjen om metrologisk spårbarhet av värden som tilldelats kalibratorer och kontrollmaterial för diagnostiska metoder ( 52).

Potentialen för dPCR att möjliggöra nya forskningsmöjligheter och att stödja spårbarhet inom det bredare fältet av molekylärgenetisk mätning bör ha en stor inverkan på noggrannheten i nukleinsyror mätning som helhet. Men forskare och tillverkare måste trampa försiktigt för att se till att de nyanser som kan påverka dessa mätningar förstås. Det som följer är några steg att överväga på denna resa.


Diskussion

I detta dokument beskrev vi en detaljerad statistisk modell för cellulärt RNA och exogena spike-ins i ett prov framställt från ett fast antal celler till vilka en population av spike-in molekyler med känt antal har lagts till. I samband med denna modell härledde vi med maximal sannolikhetsargument, en kalibreringsmetod för RNA-seq-data som uppskattar cellmolekylärt överflöd av RNA. Även om vårt molekylära överflöd z-värdena är nominella, de är bara ett steg från absolut molekylärt överflöd. När den relativa avkastningskoefficienten för transkription i, αi, mäts i separata experiment, det absoluta molekylära överflödet i biblioteket j, ni,j kommer att vara känd via ekvationen: ni,j = zi,j/αi.

Vår metod använder en tydlig statistisk modell för spik-ins, den enklaste förnuftiga, nämligen att antalet spike-in för ett givet bibliotek samplas från en gemensam multinomial distribution med fast proportion-parameter för varje spike-in-molekyl över alla bibliotek/förhållanden för ett fast protokoll. Som en konsekvens räknas räkningarna inom varje spike-in-bibliotek, oavsett skick, representerar en teknisk kopia. Vi utvärderade spike-in-modellen kvantitativt på ett antal sätt (Fig 2 och S2 Fig). Vi fann att spik-in-molekylerna följer nära den multinomiella modellen förutsatt att spike-in-biblioteket överstiger ungefär 250 000 läsningar. Med andra ord stöder våra resultat de för [19]: spik-in-molekylerna bidrar till ökade antal i ett spike-in-bibliotek, inbäddat i ett övergripande RNA-seq-bibliotek, på ett sätt som är oberoende av det inhemska RNA . A caveat is that we don’t know for sure if deviations of spike-in counts from the multinomial model that we observed are a consequence of some sort of poorly understood noise that is particularly prominent in spike-in libraries of low size, or if the unaccounted for noise was unrelated to library size per se.

We adopted a multinomial mode for spike-in noise, but our model could be extended with a more accurate model. Technical noise in spike-in counts has been studied and modeled recently [36], and we present similar analysis and modeling in S2 Fig and S5 Appendix. Although the proper experimental technique was followed in our study to minimize these errors, pipetting and dilution errors can not be completely eliminated. Pipetting, dilution, and cell number errors may have been sources contributing to the very high variation between experiments that was observed in previous attempts to incorporate spike-ins as normalization standards [42]. [20] however demonstrate technical robustness in the performance of spike-ins in sensitive single cell RNA-seq experiments. Our data agree with the assessment of [20].

We have shown however that our method, especially when supplemented with RUVr [15] correction or our own δj correction, is able to compensate for this source of unavoidable technical variability. Our model could be extended and improved in the future by incorporating a different model for spike-ins. Nevertheless, our model allows for powerful, genome-wide, parametric testing of hypotheses of various sorts concerning nominal RNA abundances, z-values that are explicitly related to absolute cellular molecular abundance (transcripts per cell or attomoles).

We applied our method, to quantify RNA abundance and to test for differential gene expression, using data from two studies with different library preparation protocols, and in species from different kingdoms: a growth rate study in yeast, and a low cell count differentiation study in Ciona. We found global changes in gene expression in both systems: a global increase in transcript abundance with growth rate in yeast, and a global decrease in the Fgfr DN embryonic cell type in Ciona. Reanalysis of the raw data with other algorithms that hold the assumption of equivalent transcriptome sizes, as expected, were not able to reveal these global transcriptome trends.

From relative yield coefficients to absolute cellular molecular abundance

Our focus in this paper is on deriving a nominal cellular molecular abundance that can be converted to absolute abundance by the transcript’s relative yield coefficient, which could be measured in separate experiments. In this study however, we do not attempt to measure the relative yield coefficient values, or estimate the absolute number of molecules per cell for each transcript within a condition. The current work allows us to say, that, for example, RNA transcript A has x times more molecules per cell, on average, in condition 1 compared to condition 2, even if the corresponding RNA-seq libraries were prepared in different batteries of experiments, different studies, or even prepared in different laboratories. Such a conclusion about what might be called, an absolute ratio of abundances, can be drawn without knowing the relative yield coefficient of transcript A. In the section that follows, we discuss the links between our work and methods by which these relative yield coefficients might be measured.

In this manuscript we offer RNA abundance estimates that are proportional to absolute transcript abundance. For this we assign a (relative) yield coefficient value of 1 to a reference spike-in, arbitrarily chosen from among those that contribute a sizable fraction of total spike-in counts. Our nominal abundance of an RNA molecule is based on the temporary assumption that this molecule has the same yield coefficient as the reference spike-in. If our calibration method is supplemented with additional data on the effect that a broad range of transcript physicochemical characteristics has on library preparation and sequencing, a more realistic relative yield coefficient could be assigned to each RNA molecule of interest.

A technical statement of the outstanding problem is that our inferred nominal abundances zi,j do not disentangle true absolute molecular abundance, ni,j, and the corresponding relative yield coefficient, αi because, by definition, zi,j = αi ni,j. However, once one measures absolute cellular abundance of transcript i in a preparation of cells from which library j was derived (ni,j), the relative yield coefficient becomes known, at, least in the idealized situation ignoring various sorts of noise, because αi = zi,j/ni,j. Till exempel, ni,j might be measured by single-cell Fluorescence I Situ Hybridization (FISH) methods, performed on a large population of cells from which library j was derived.

Statistical methods taking into account biological noise and technical noise could be used to compute a confidence interval for αi, förutsatt ni,j could be estimated. Likelihood methods could be used to integrate data across several libraries in the estimation of αi. In principle, once αi is estimated from one or more libraries and a population of cells from which those libraries were derived, this estimate could be used for other libraries (prepared using the same protocol), past, present, and future, to allow the determination of absolute cellular molecular abundances of transcript i.

Modeling, like that presented in S6 Appendix and S2 Fig, and like that of [17] could also play a vital role in estimating relative yield coefficients, especially if a wider array of synthetic spike-ins covering a large gamut of physical properties were designed and utilized. Our methods have the potential of facilitating statistical modeling of RNA counts because of the explicit relationship between our nominal abundances and absolute molecular, cellular abundances of RNA. In principle, variation in counts as a consequence of true biological variation in random attomoles, N, and variation in counts due to variation in relative yield coefficient across transcripts with nearly identical mean abundances, μN, could be disentangled.

Our approach lays the groundwork for investigating, testing, and modeling how the physical properties—e.g., length, GC content, folding energy—determine the relative yield coefficient of spike-ins and native RNA transcripts alike. Empirical measurements of relative yield coefficients, as we have defined them, and biophysical modeling could facilitate progress in making the connection between sequencing counts and the underling molecular cellular abundances of the corresponding transcripts.

Relationship to previous studies

Our work follows up on and extends the work of [15, 16, 36, 43, 44]. Our inference method is linear and global for each library, like that of [19], [36] and [45]. We showed that our global (library specific) νj calibration constants are closely related to the Anders and Huber-like “technical” size factors of [36], which are based on spike-in counts. We called their normalization constants , and we showed that they are proportional to our νj normalization constants in the cases of 2 of our data sets with large library sizes, as predicted by theory (S8 Appendix). An important difference is that the calibration constants are on a dimensionless scale, on the order of 1, and do not allow one to infer absolute abundances of transcripts once their relative yield coefficients become known.

[16] applied loess normalization to ERCC spike-in counts to derive a normalization function that they then applied to the counts corresponding to native RNA. Our analysis and rigorous testing of our theory and methods suggest that a local nonlinear transformation, such as loess normalization of the count data is not needed for our RNA-seq data. It seems likely that any local nonlinear fitting of counts to make replicate spike-in libraries as similar as possible would involve overfitting the data.

Our work has some important features in common with the HTN method of [46], particularly, the assumptions underlying their Eq (1) and our Eqs S1 Appendix (2) and (3). These equations explicitly allow for differences in total RNA abundance across conditions. In addition, both normalization methods are global and linear. However the HTN method of [46]: relies on having de facto housekeeping genes rather than experimentally-added spike-ins does not include a model for biological noise assumes that relative yield is simply proportional to transcript length is focused primarily on testing for differential gene expression and does not provide estimates of absolute RNA abundance. Their global scale factor for a given library is determined by minimizing the sum over spike-ins of the square differences between the spike-in counts in that library and those of a library chosen to be the reference library. That scale factor is then used for the native RNA counts within the same non-reference library. It can be shown that this library-by-library normalization procedure, in the limit as library size (native RNA and spike-ins) approaches infinity, will give an abundance measure that is proportional to our z abundance values based on νj normalization.

A quite different suite of normalization methods, called RUV (removal of unwanted variation), was introduced by [15, 36, 43, 44] and applied with great effect to many different data sets. The methods involve singular value decomposition (SVD) variant of factor analysis to compute a factor matrix W, which is used to model nuisance sources of variation that are unrelated to the experimental design. The factor matrix W is included, in addition to a design matrix, in a generalized linear model for normalized counts. One qualitative way of thinking about the W matrix is that is adds columns to the original design matrix for explanatory variables that one didn’t originally know about. Although this method is widely effective at reducing unwanted variation in RNA-seq data, it does not allow one to infer absolute cellular molecular RNA abundances, even if the factor matrix is computed based on spike-ins or an invariant gene set (S8 Appendix), as the authors are well aware. The simple reason is that proportion of spike-in count is tightly correlated with the biological phenomenon of interest the change of total RNA abundance with condition. However, we showed that results of our maximum likelihood normalization method can be improved, with respect to clustering and detection of differential gene expression, by applying an an RUV method based on residual, RUVr (RUVSeq package [15]) after νj normalization. We obtained closely similar results by a simpler method involving a correction factor δj for each library that was based on our discovery in a dilution study with technical replicates that we seem to have some noise in the actual overall amount of spike-ins added to the cellular RNA. We tentatively ascribed these to dilution/volume errors in handling the stock spike-in mixture. This finding highlights the importance of replacing pipetting methods for handling the spike-ins with more accurate robotic methods.

Slutsats

The continuing discovery of examples in which there are gross transcriptome differences between cellular states, has established a need for spike-in controls in RNA-seq experiments [19]. Despite some criticisms [15], external RNA spike-ins have been adopted in several recent studies alongside methods developed to use them for RNA-seq quantitation [16, 19, 36, 46, 47].

The model presented in this work lends itself for both absolute and relative RNA quantitation, dependent on the experimental ability to accurately isolate a fixed number cells for library preparation. In both cases, we offer evidence that our approach provides reproducible results in a wide variety of conditions and has a strong predictive power. In conclusion, the presented model allows for improved unbiased RNA-seq quantitation in any experimental setup using external RNA spike-ins.


Titta på videon: Real time PCR (December 2022).