Amplicon: Amplicons are DNA products of a polymerase chain reaction (PCR). The term amplicon is often used interchangeably with PCR product.

SNP (Single Nucleotide Polymorphism)

Definition

  • A single base difference between two sequences is known as Single Nucleotide Polymorphism (SNP), population의 1% 이상인 경우
  • Responsible for: 사람마다 다른 특성. 예를 들면, 누구는 커피를 마시면 잠을 못 자고, 누구는 술을 마시면 얼굴이 빨개지고, 누구는 태어날 때부터 쌍꺼풀이 있으며, 누구는 특정 질환이 더 잘 생기는 것이다. 이런 의미에서 SNP는 앞선 돌연변이같이 유전적 질환을 결정하는 게 아니라, 특정 질병을 더 잘 일으키는 소인(risk)에 해당하는 변이인 것이다.
  • 빈도: 인간에게는 약 3만 개의 유전자(gene)가 있다. 한 개의 유전자(gene)는 평균 1만(10K)개의 염기(base)로 구성되고, 이 중 300분의 1에 해당하는 평균 300여 개의 SNP가 존재한다.

GATK (Genome Analysis Toolkit)

  • the industry standard for identifying SNPs and indels in germline DNA and RNAseq data. Its scope is now expanding to include somatic short variant calling, and to tackle copy number (CNV) and structural variation (SV)
  • primarily designed to process exomes and whole genomes generated with Illumina sequencing technology, but they can be adapted to handle a variety of other technologies
  • developed by Broad Institute
  • sequencing data(NGS)를 이용하여 genome 내 모든 variant calling이 가능하도록 sub program들로 구성되어 있다. 예를 들어 만약 사용자가 exomeSeq 데이터를 가지고 rare variant을 확인하기를 원한다면 GATK를 통해서 분석할 수 있다.
  • 입력: BAM 파일 등
  • 결과: VCF (Variant Calling Format) 파일

Variant Calling Format 의 약자로 Meta 정보가 담긴 라인과 헤더, 그리고 데이터 라인이 있습니다.

Meta 정보는 두개의 샵(##), Header 는 샵(#) 으로 시작하며 데이터 라인은 탭(tab)으로 나뉜 컬럼들이 있습니다.

데이터 라인은 CHROM, POS, ID, REF, ALT, QUAL, FILTER, INFO 로 된 8 개의 고정된 컬럼이 있고 FORMAT 과 각 샘플의 수 만큼의 컬럼이 이어집니다.

파일은 텍스트 형식의 파일로 메모장 같은 텍스트 에디터 프로그램으로 열어보시면 됩니다.

간혹 운영체제가 자동으로 vCardFormat (또는 Virtual Contact File) 으로 인식하여 더블클릭하여 뭔가 안열리는 것 같은 불상사가 있는 경우가 종종 있습니다만,,,

다시 말씀드리지만 텍스트 형식의 파일로 그냥 메모장 같은 프로그램으로 열어서 보시면 됩니다. ㅎㅎ

그러면 이렇게 생겼습니다. 출처: https://korbillgates.tistory.com/136 [생물정보학자의 블로그]

Cf) gVCF 는 VCF 파일의 한 종류로 genomic VCF 를 뜻합니다.

즉, VCF 파일에서 extra 정보가 더 들어 있는 것 이지요.

GATK HaplotypeCaller 를 실행할 때 -ERC GVCF (또는 -ERC BP_RESOLUTION) 옵션을 넣고 실행하게 되면 output 으로 gVCF 가 나오게 됩니다.

가장 큰 차이점은 아래 그림과 같이 non-variant block record 가 들어있다는 것 입니다.

출처: https://korbillgates.tistory.com/136 [생물정보학자의 블로그]

Copy number variation (CNV)

  • CNVs are deletions (loss) or duplications (gain) of chromosome material (is: this might be a single nucleotide, exome (s), or gene) that range in size from approximately one kilobase (kb) to multiple megabases (Mb), with the largest CNVs resulting in a loss or gain of an entire chromosome.
  • Depending on the size and genomic location of a CNV, the deletion or duplication may contain zero, one, or many genes.
  • CNVs may be benign, pathogenic, or of uncertain clinical significance.
    • a- The American College of Medical Genetics and Genomics (ACMG) and the Clinical Genome Resource (ClinGen) have recently introduced a technical standard for interpretation of CNVs using an evidence-based scoring system [Riggs et al 2020]. This guidance considers several factors when evaluating the potential pathogenicity of a CNV detected by CMA [Miller et al 2010] including:
      • i) Gene content. CNVs containing one or more disease-related genes may be pathogenic. The effect of a CNV that does not include known genes is difficult to predict.
      • Size. Larger CNVs are more likely to be pathogenic. However, at least 1% of unaffected individuals have a CNV >1 Mb [Itsara et al 2009].
      • Presence of the CNV in affected individuals. A similar or overlapping CNV in another affected individual supports pathogenicity of the CNV.
      • Presence of the CNV in population databases. A CNV that is frequently identified in unaffected individuals is less likely to be pathogenic.
      • Inheritance. A de novo CNV in a severe condition that tends to affect only one family member is more likely to be pathogenic than a CNV inherited from an unaffected parent. Conversely, inherited CNVs may be pathogenic, which can be confirmed by segregation analysis (i.e., targeted testing of the CNV in additional family members to determine if the CNV is segregating with the disorder).
      • Common characteristics of pathogenic or likely pathogenic CNVs
      • A recurrent deletion or duplication known to be disease-related and consistent with the affected individual’s phenotype (see Table 1). The breakpoints of recurrent CNVs are the same in unrelated individuals as the result of nonallelic homologous recombination.
      • A nonrecurrent deletion or duplication previously associated with the affected individual’s phenotype. The breakpoints of nonrecurrent CNVs are different and may be overlapping in unrelated individuals.
      • A deletion involving a known disease-related gene for which loss of function (haploinsufficiency) is the disease mechanism
      • A large, de novo deletion encompassing multiple genes
      • Common characteristics of CNVs of uncertain significance
      • A duplication involving a known disease-related gene in which pathogenic variants cause haploinsufficiency
      • A deletion involving a known disease-related gene in which pathogenic variants cause gain of function

Genotype-Phenotype

ADAR
HomozygousHomoz-ADHOMOZ-AR
heterozygousHETEROZ-ADHETEROZ-AR

위의 4가지 경우의 수가 다 가능함.

Gene network

  • Method
    • Ingenuity Pathway Analysis
  • Example (WORLDSymposium 2021, Exploration of the role of whole exome sequencing variants in GBA1-associated PD)

Figure 2. Identified gene network among GD/PD cases, in relation to GBA1. Genes highlighted in pink have at least 2 variants in GD/PD cohort.

Genetic Association Study

(Candidate gene association study)GWAS: Genome-Wide Association Study
특정 질환에 영향을 주는 것으로 알려진 유전자 변이(SNP)를 미리 지정 → 질병그룹과 정상 대조군에서 SNP의 유전형이 어떤 지를 비교특정 질병군과 건강한 대조군의 전장 유전체를 분석 → 의미 있는 유전체 변이(SNP)를 역으로 찾아내는 방식이다
DatabaseGWAS CATALOG (US정부, GWAS catalogue (http://www.genome.gov/gwastudies)
SampleSNP microarray chip (주: NGS같은 고급 sequencing을 쓰는 것이 아님, 따라서 rare variant 는 못 찾음) for 보통 10만개에서 100만 개 이상의 SNP→ multiple comparison correction (Bonferroni, FDR correction) → eg. 50만개의 SNP 라면, 1X10-7 이하의 유의수준일 경우 그 SNP 는 'GWAS positive' → replication validation in other cohort → GWAS CATALOG 에 등재
ExampleDrug response: C형 간염의 치료제로 쓰이는 인터페론과 리바비린의 치료 반응이 개인의 유전적 변이에 따라 다르게 나오는 것을 확인한 연구가 있는데, 해당 연구 결과 IL28B 유전자 주변의 SNP가 치료반응에 관여하는 것으로 알려졌다
Disease risk: 2005년 예일대 팀이 수행한 황반변성에 대한 연구인데, 96명의 황반변성 환자와 50명의 대조군을 통해 116,204개의 SNP 중 질병과 연관된 몇 개의 변이를 'CFH(complement factor H gene)' 라는 단 하나의 유전자에서 찾아내는데 성공했다(Science 2015, 308(570): 385-389).
ResultsManhattan plot
Method만약 두 SNP 가 HIGH LD 라면 (in linkage disequilibrium 이라면): '같이 유전되는 확률이 높다' '같은 유전적인 영향력을 가진다'
LD 분석방법: 홍경원 참조
Cf) GWAS 분석 방법을 이해하는 데 중요한 개념이 있는데, 흔히 LD (Linkage Disequilibrium)라고 부르는 '연관 비평형' 입니다. 우리는 부모로부터 한 쌍씩 유전자를 물려받게 되는데, 생식 세포는 분열되면서 같은 세포 내에서도 끊임없이 유전형의 재배열이 일어납니다. 그러나 유전자 재조합은 덩어리로 일어나기 때문에, 서로 거리가 가까운 유전자 위치 끼리는 유전형이 섞이지 않고 모자이크 패턴으로 함께 이동하게 되며, 이러한 하나의 덩어리를 일반적으로 'LD block'이라고 부릅니다. -- * 특정 대립유전자의 조합이 우연한 기대보다 더 빈번하게 발견되는 현상을 초래함

Uncertain Spans

locationtranscriptionuncertainty
Top method-comparison table tail(rows: ‘van der Merwe 2014 #722 / cDNA sequencing’; ‘Zilocchi 2020 #901 / No info’; ‘MLPA / No info’)Headers and earlier body rows are above the crop; column structure inferred from 20240722_184629.
Gene network figure node labels(e.g. PFN4, KPCB, ESYTL3, ABMK3, MTM, AKAP, CASBR, MLPH, NEAL1, SNCG)Small node labels in the IPA network diagram; readable as printed but several nodes are partly obscured by edges and the red circle annotation.
Bottom Genetic Association Study row(LD block / Imputation paragraph)Page is cut just after the LD block sentence; the next row (Imputation 이라고 부르는 과정…) and remaining rows continue on 20240722_184636.