遇到问题
在读取GEO数据库的CEL文件时,出现了报错,无法找到包pd.hursta.2a520709,命令如下:
rm(list=ls());gc();
setwd("C:/22SHB021F/")
library(GEOquery)
library(affyPLM)
library(affy)
library(oligo)
gse="GSE72094_RAW"
baseDir <- "C:/22SHB021F/"
workDir <- file.path(baseDir, gse)
celfiles <- list.files(workDir, "\\.CEL$") # 匹配以.CEL 结尾的文件。
data.raw <- read.celfiles(filenames = file.path(workDir, celfiles))
因为之前别的数据集是正常读取的,而按照通常的解决思路的话,直接把这个包安装上即可。没怎么想就用BiocManager试了下
BiocManager::install("pd.hursta.2a520709")
结果BiocManager并不存在这个包。
后经搜索引擎查找发现需要自己创建这个包,这类包是CDF包,开始操作
查找GSE72094_series_matrix.txt文件发现测序芯片为GPL15048
进入GEO数据库,
下载CDF文件
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL15048
下载第一个
使用makecdfenv包创建CDF包pd.hursta.2a520709,代码如下
BiocManager::install('makecdfenv')
library(makecdfenv)
make.cdf.package("GPL15048_HuRSTA_2a520709.CDF.gz", "pd.hursta.2a520709",
species = "Homo sapiens", compress = TRUE)
install.packages("pd.hursta.2a520709", repos = NULL, type="source" )
再次读取GEO数据库的CEL文件,就可以正常运行了。
兜兜转转终于把问题解决了,希望小云能帮大家少走弯路。