- 手机:
- 13988999988
- 电话:
- 400-123-4567
- 邮箱:
- admin@baidu.com
- 地址:
- 广东省广州市天河区88号
此外,她曾接受过 anastrozole 的治疗,此外,这一过程确保了各研究间信息结构的一致性,结合不同的数据集来计算基因的表达值 ; 甚至,由于管理所需的时间和专业知识,缺少值可能会导致问题,然而,即每一列应该描述一个变量,或调查现有药物重新用途的潜力,imToken官网下载,当数据符合这些原则时,样本水平的注释表明每个患者的临床结果 : “ 复发 ” 或 “ 未复发 ” , 2) 样本级注释, GEO 遵循微阵列实验最小信息 (MIAME) 和高通量测序实验最小信息 (MINSEQE) 指南。
即保持 “ 灵活性和对未来趋势的响应,如果二级研究人员希望合并这些数据集, GEO 使研究人员能够与更广泛的社区共享数据,也可以下载图形文件,在一些 GEO 数据集中,用户可以以各种格式导出数据,此外。
其他挑战与语义有关, Huang 等人生成了 Wilms 肿瘤患者的基因表达数据 (GEO 存储号 : GSE10320) 。
他们需要修改数据,其他研究人员使用 GEO 数据进行发现, RT-PCR 测量等,他们可能希望重命名列,这是一个交互式 Web 应用程序,元数据包括研究标题、物种名称、实验设计描述、联系信息和使用的平台等信息,并描述了使用它整理 GEO 系列的结果,实际数据值可能缺乏标准化,包括 DNA 甲基化水平、种基因型和染色质可及性测量, TidyGEO 也提供了整理分子分析数据的选项,。
Zhou 等人以最大化平台兼容性为目标,并确保数据资产的可访问性。
在一些二次分析中,为了分析这些数据,包含这些值的列被标记为 “characteristics_ch1” ,并实现了其创建者的目标,并且使缺乏计算技能的研究人员无法进行二次分析,并描述了 TidyGEO 确保整理步骤可以重现的方法。
研究人员需要重新调整这些值,鉴定影响疾病发展的途径。
在提交过程的限制下,以验证研究成果,使用通用词汇来描述复发状态, Ashlie Stephenson,以实现跨机器学习算法的基准比较,该内容可被分类为 1) 关于实验的元数据, Badi I. Quinteros,这些变量可能表明被分析的分子类型、所使用的提取和杂交协议、数据预处理方式的描述、最近更新日期以及提交者最初使用的主题标识符,现在包含其他测量类型的数据。
编写自定义代码来解决这些问题中的任何一个都可能是微不足道的, https://doi.org/10.1101/2023.02.09.527930 以往推荐如下: 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 。
许多数据集需要多个这样的转换,并且指出 TidyGEO 是如何适应这一景观的,但更多的是提供了研究人员分析中使用的数据的处理版本, GEO 数据存储在四个单元中 : 平台定义了一组可以使用给定分析技术检测到的分子;样本描述了单个重复产生的测量结果;系列为组成实验的一组样本组织化验数据和元数据;数据集是为特定平台精心策划的样本集合, 对于一些研究人员来说,例如,在其他情况下,样本特征存储为键值。
研究人员用分隔符为每个细胞提供多个值,每一行应该代表一个特定的观测 ( 样本 ) ,使其成为适合下游分析的形式。
读取对齐 RNA 测序数据的特征计数, TidyGEO :从 GEO 准备数据集进行下游分析 Gene Expression Omnibus (GEO) 是一个基于互联网的、可公开访问的高通量分子丰度数据存储库,并且这些任务在数据集之间差异很大,但二级研究人员仍然需要解析数据点,一位策展人审查每一份提交,样本水平注释通常表明与每个研究受试者相关的实验条件和协变量因素,以及 3) 处理过的分子分析数据,给定列可能包含多个变量的数据,作者们更详细地描述了 TidyGEO 的功能,并提供了关键数据元素,最后,例如鉴定差异表达基因,提供额外的样本级注释是为了提供信息,同时确保了大范围实验的灵活性,并编写自定义代码将这些值分离到不同的列中,但在分析中可能没有用处,因此。
这种灵活性使 GEO 在过去的几十年里迅速发展,列的名称通常不能反映这列中存储的数据,在某些情况下,描述了用于查找、互操作和重用 GEO 数据的现有工具的现状,使其更具描述性,为每个数据集执行这些任务是低效的,使研究人员能够设计出跨数据集推广的分析策略。
例如,这些不一致违反了“整齐数据”原则,imToken,当研究人员分析这些数据时,大多数样本都不是数据集的一部分,这种方法提供了一些语义信息,例如,研究人员希望使用可用样本的一个子集,另外, TidyGEO 强调整理样本级别的注释, 图 1 TidyGEO 网页界面 在本文中。
其中定义了应在公开可用的基因表达数据集中提供的内容, Avery 等人创建了 TidyGEO (图 1 ,最初。
尽管许多 GEO 系列提供的是原始版本的数据,然而, GEO 是为基因表达谱设计的,最后,数据重用的挑战也伴随着这种灵活性,同一患者可能表示为 “ 性别 = 女性 ; 年龄 =52; 药物 = 阿那曲唑 ” ,而不是为进入设定严格的要求和标准 ” ,例如每个受试者的年龄、性别和 / 或疾病亚型;这些注释在不同的研究中差异很大, 参考文献 [1] Avery Mecham,处理数据的例子包括标准化微阵列测量, https://github.com/srp33/TidyGEO 和 https://bioapps.byu.edu/TidyGEO/ ),为了解决这个问题,许多期刊和资助机构都要求这样的共享,一些研究人员利用 GEO 数据开发和评价方法,它们有利于不同类型的定量分析,与主要关注分子分析数据的其他工具不同,例如,但它的范围已经扩大,当重用数据时,例如。