Variant Call Format

Da Wikipedia, l'enciclopedia libera.
Vai alla navigazione Vai alla ricerca

Il Variant Call Format (VCF) è un formato di file testuale di tipo tab-separated usato in bioinformatica per raccogliere le varianti genomiche e attualmente è alla versione 4.3. Il formato permette di descrivere in formato tabulare le varianti genomiche più comuni di un genoma, insieme alla possibilità di inserire annotazioni e metadati[1].

È stato sviluppata a partire dal progetto 1000 Genome ed è stato adottato da diversi progetti tra cui UK10K, dbSNP e NHLBI Exome Project[2].

Sono stati sviluppati anche diversi strumenti e librerie software per poter manipolare il formato[3].

Il formato[modifica | modifica wikitesto]

Il formato comprende un header, le cui linee sono identificate dai simboli ## e da un body in cui sono elencate tutte le varianti. All'interno del body le informazioni relative ad ogni variante sono organizzate secondo 9 colonne obbligatorie.

##fileformat=VCFv4.3
##fileDate=20090805
##source=myImputationProgramV3.1
##reference=file:///seq/references/1000GenomesPilot-NCBI36.fasta
##contig=<ID=20,length=62435964,assembly=B36,md5=f126cdf8a6e0c7f379d618ff66beb2da,species="Homo sapiens",taxonomy=x>
##phasing=partial
##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data">
##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth">
##INFO=<ID=AF,Number=A,Type=Float,Description="Allele Frequency">
##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral Allele">
##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129">
##INFO=<ID=H2,Number=0,Type=Flag,Description="HapMap2 membership">
##FILTER=<ID=q10,Description="Quality below 10">
##FILTER=<ID=s50,Description="Less than 50% of samples have data">
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality">
##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth">
##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality">
#CHROM POS      ID         REF   ALT    QUAL  FILTER   INFO                             FORMAT       NA00001         NA00002          NA00003
20     14370    rs6054257  G     A      29    PASS    NS=3;DP=14;AF=0.5;DB;H2           GT:GQ:DP:HQ  0|0:48:1:51,51  1|0:48:8:51,51   1/1:43:5:.,.
20     17330    .          T     A      3     q10     NS=3;DP=11;AF=0.017               GT:GQ:DP:HQ  0|0:49:3:58,50  0|1:3:5:65,3     0/0:41:3
20     1110696  rs6040355  A     G,T    67    PASS    NS=2;DP=10;AF=0.333,0.667;AA=T;DB GT:GQ:DP:HQ  1|2:21:6:23,27  2|1:2:0:18,2     2/2:35:4
20     1230237  .          T     .      47    PASS    NS=3;DP=13;AA=T                   GT:GQ:DP:HQ  0|0:54:7:56,60  0|0:48:4:51,51   0/0:61:2
20     1234567  microsat1  GTC   G,GTCT 50    PASS    NS=3;DP=9;AA=G                    GT:GQ:DP     0/1:35:4        0/2:17:2         1/1:40:3

Le 9 colonne obbligatorie sono identificate dal simbolo #.

  1. CHROM - cromosoma su cui è presente la variante (es. chr1 o 1)
  2. POS - posizione su cui è stata fatta la chiamata della variante (1-based).
  3. ID - identificativo della variante (es. rs del dbSNP). Se assente si legge il simbolo .
  4. REF - allele di riferimento presente sulla posizione specificata.
  5. ALT - allele o lista di alleli alternativi.
  6. QUAL - punteggio di qualità della lettura dell'allele alternativo
  7. FILTER - esito o filtri con cui è stata selezionata la variante.
  8. INFO - lista di annotazioni relative alla variante definite tramite una coppia <chiave>=[,valore].
  9. FORMAT - lista di annotazioni relative alla relazione di ogni variante con ogni campione, riguardanti quindi il genotipo.

Ulteriormente ci sono un numero di colonne pari al numero di campioni, in cui viene riportato il valore delle annotazioni presenti nella colonna FORMAT. Il formato VCF supporta sia chiamata di varianti per un solo campione, sia per più campioni.

Note[modifica | modifica wikitesto]

  1. ^ Danecek et. al., 2014.
  2. ^ Petr Danecek, Adam Auton e Goncalo Abecasis, The variant call format and VCFtools, in Bioinformatics, vol. 27, n. 15, 1º agosto 2011, pp. 2156–2158, DOI:10.1093/bioinformatics/btr330. URL consultato il 31 luglio 2018.
  3. ^ (EN) VCFtools, su vcftools.github.io. URL consultato il 25 luglio 2018.

Collegamenti esterni[modifica | modifica wikitesto]