cawka

BIOInformatics_SRR_dowload 본문

BIO Informatics/Srr

BIOInformatics_SRR_dowload

cawka 2026. 2. 2. 00:38

https://www.ncbi.nlm.nih.gov/gds

위 링크에서 GEO DataSets 우측 검색 창에 검색 할 “GSE숫자” 검색

검색 후 창에서 (Submitter supplied)을 포함한 링크 클릭

 

맨 아래에 있는 SRA Run Selector 글자 클릭

Total  옆  Download 에서 Medata, Accesslon list 클릭

 

SRA Toolkit 다운 + SRR 파일 일괄 다운 코드 _수정

sudo apt install sra-toolkit

#!/usr/bin/env bash
set -Eeuo pipefail
SRR_LIST="srr_list.txt"
SRR_DIR="./sra_files"
# PREFETCH_MAX="200G"   # 필요시 조정 (예: 50G, 500G)
mkdir -p "$SRR_DIR"
echo "SRR(.sra) batch download start"
while read -r SRR; do
  [ -z "$SRR" ] && continue
  echo "Downloading: $SRR"
  # .sra 파일만 다운로드
  prefetch --max-size "$PREFETCH_MAX" -O "$SRR_DIR" "$SRR"
  echo "Done: $SRR"
done < "$SRR_LIST"
echo "DONE"

#SRR
# 설정
GSE=GSE274598
BIOPROJECT=PRJNA1147260
BASE="$HOME/$GSE"
mkdir -p "$BASE" && cd "$BASE"
command -v esearch >/dev/null 2>&1 || { sudo apt update -qq; sudo apt install -y -qq ncbi-entrez-direct; }
esearch -db sra -query "$BIOPROJECT" | efetch -format runinfo > SraRunTable.csv
awk -F',' 'NR>1{print $1}' SraRunTable.csv | sort -u > SRR_Acc_List.txt
echo "SRR count = $(wc -l < SRR_Acc_List.txt)"
mkdir -p "${GSE}_SRR"
while read -r SRR; do prefetch -O "${GSE}_SRR" "$SRR"; done < SRR_Acc_List.txt
echo "DONE: ${GSE}_SRR/"

 

'BIO Informatics > Srr' 카테고리의 다른 글

BIOInformatics_SRR  (0) 2026.01.30