tcga 데이터 다운로드

CGC를 통해 연구원들은 전체 게놈, 전체 엑솜, RNA, 마이크로RNA, 바이술핏 시퀀싱 및 어레이 기반 연구를 포함한 클라우드의 공공 데이터에 즉시 안전하게 액세스할 수 있습니다. 오픈 액세스 및 제어 액세스 데이터를 모두 사용할 수 있습니다. 암 게놈 아틀라스 (TCGA)는 사용할 수있는 가장 크고 가장 완전한 암 유전체학 데이터 세트 중 하나입니다. 그러나 2.5페타바이트 이상의 크기로 TCGA는 사용하기가 어렵습니다. 수용할 수 있는 대규모 스토리지 시설과 처리해야 하는 고성능 계산 용량이 필요합니다. 이러한 문제는 많은 대규모 공용 데이터 집합에 공통적입니다. CGC가 출시되기 전에는 연구원이 대규모 데이터 집합을 통해 계산하거나 데이터와 함께 자신의 데이터를 분석하기 위해 데이터 집합을 자체 하드웨어에 다운로드했습니다. 또한 CGC의 데이터 브라우저 기능을 통해 연구원은 100개 이상의 서로 다른 속성을 빠르고 쉽게 검색하여 관심 있는 데이터를 정확하게 찾을 수 있습니다. Data Browser는 TCGA와 같은 암 유전체학 데이터를 설명하는 데 사용할 수 있는 140개 이상의 임상, 생물표본 및 분석 특성을 포함하는 풍부한 지식 기반을 쿼리합니다. 다운로드할 날짜 데이터 집합을 지정하는 NULL 또는 문자입니다.

기본적으로(날짜 = NULL) 사용 가능한 최신 날짜가 사용됩니다. 사용 가능한 모든 날짜는 http://gdac.broadinstitute.org/runs/ 또는 checkTCGA 기능을 사용하여 확인할 수 있습니다. 필요한 형식 `YYYY-MM-DD`. TCGA 데이터 집합을 생성하는 데 사용되는 각 시퀀싱 플랫폼 및 기타 기술에 대한 설명 및 지원 자료입니다. 암 유형의 구체적인 코호트의 출시 날짜의 지정된 날짜에서 TCGA 데이터를 다운로드 할 수 있습니다. 필요한 데이터 집합의 이름을 dataSet 매개 변수에 전달합니다. 기본적으로 병합된 임상 데이터집합은 릴리스의 최신 사용 가능한 날짜로부터 다운로드됩니다(값 데이터 집합 = `Merge_Clinical.Level_1`). 논리 – 데이터세트 매개 변수를 일치하는 모든 데이터 집합을 다운로드하거나 첫 번째 데이터 집합만 다운로드해야 합니다(가능한 경우 FFPE 구없이). averissimo/tcga.data에서 새로운 릴리스에 대한 알림을 원하십니까? 그 후 12년 동안 TCGA는 2.5페타바이트 이상의 게놈, 후성 유전체학, 전사체 및 프로테오믹 데이터를 생성했습니다.

이미 암을 진단, 치료 및 예방하는 능력의 향상으로 이어진 데이터는 연구 커뮤니티의 모든 사람이 사용할 수 있도록 공개적으로 사용할 수 있습니다. 이 프로토콜은 R 프로그래밍 환경과 바이오컨덕터의 특수 패키지를 사용하여 RNA-seq 데이터를 처리하여 유전자 목록을 만듭니다. 스크립트는 다운로드할 수 있으며 초보 사용자는 명령을 복사하여 R 콘솔에 붙여넣을 수 있습니다. 프로토콜 1B에 대한 유전자 발현 데이터를 생성하기 위해 TCGABiolinks R 패키지를 사용하여 2017-06-14에 게놈 데이터 공용 (GDC) 포털을 통해 http://cancergenome.nih.gov 암 게놈 아틀라스 (TCGA)의 난소 장액 세포증 종 프로젝트에서 유전자 발현 데이터를 다운로드했습니다.