测序仪下机数据经过分数据机之后,会存储到BIOSTACK Data Space数据空间中。在数据存储的过程中(一边写,一边修改),会通过左侧的黄色图标的Metahunter动态的将元数据,提交到消息总线上去了,消息总线会把这些信息传递给后端数据特征库集群,数据特征库集群实际上是由数据库(关系型或数据仓库),甚至是搜索引擎,如Elastic Search,组成的。在计算分析的过程中,通过数据特征生成的数据集,会作为一个有效的输入,注入到计算集群中去。计算集群在经过调度计算资源(CPU、memory),以及调度数据的位置之后完成一次分析,而分析完的结果也会再反向注入到数据特征库集群来丰富数据特征。

共同推动信息技术应用创新产业项目落地,推动产业链协同发展。






存储系统端内置的“Metahunter”模块,智能追踪数据和元数据的变化,在服务器端通过 MetaView 自动提取数据特征信息,使得用户无需关心数据的存储路径,通过数据特征就能实现快速数据发现、数据组合、多维度数据观察,极大提升了用户数据管理效率。

Bioflow 计算调度系统,采用全分布式架构设计,能够多个调度协同工作,消除了传统集群调度器自身的瓶颈,同时联合同构、异构集群,实现跨多个计算集群、存储集群调度生物作业任务,保证无论是后端集 群规模还是调度器本身都不会限制整体生物信息分析计算系统的扩展能力; docker 封装应用程序,免除应用部署难题;通过 bioflow 封装流程,免除用户 编写流程的烦恼。

数据空间包含 Anna 存储和 Alamo-D,分别应对高 IOPS 和高带宽的需求。同时多集群能够实现统一部署、统一管理。

可完成下机数据的格式转化;将转化后的数据分配到存储平台(Anna和Alamo);其中数据格式的转化效率极高,以 Hiseq X10 下机数据为例,分数据效率是普通bcl2fastq 的 5-6 倍。

BIOSTACK生物数据分析云平台支持自主发布分析工具,用户不需要再命令行下编写脚本,通过可视化界面填写参数,就可以生成自己专属的工具,并在流程编辑中,通过鼠标拖拽的方式,将工具串成流程,全力支持企业定制化自有流程。