基于网络的生物状态空间模型的预测和模拟:药物作用模式搜索
Network-Based Predictions and Simulations by Biological State Space Models: Search for Drug Mode of Action
-
摘要: 时间表达谱数据的分析因其样本点少维度高而很难分析。本文作者提出一种新的生物状态空间模型来从芯片数据逆向生成基因调控网。
时间表达谱分析与其它领域的时间数据的有很大的区别。在其它领域,时间数据通常有很长的记录(很多的样本点),很低的维度(通常就只有一个变量),并且记录点之间的时间是不变的。 生物学需要同时研究成千上万的变量(基因),由于实验的成本却通常只能采到很少几个时间点(<10)。 因此可以用状态空间模型来降维。状态空间模型假设一个p维的时间序列数据是由一个k维(k<作者提出的生物状态空间模型BSSMBasic 包括两部分,一部分是隐藏变量的自回归模型,另一部分是观测值相对于隐藏变量的线性回归模型。为了保证解的唯一性,还需引入一些约束。原来的状态空间模型和新加的约束可以合并成一个向量自回归模型。通过矩阵运算,可以把原来p维的数据投影到一个由k个模块构成的系统。为了处理实验重复数据,作者对每个重复单独使用原来的模型,这个改进的模型被称为BSSMRepli。为了防止过拟合,作者加入了一型范的惩罚函数,修改后的模型称为BSSMVAR。
Em算法被用来推断回归参数和k维动态系统每个模块的值,其似然函数和状态由卡尔曼滤波器估计。作者使用贝叶斯信息准则和秩分析来选择最优的模型。如果重复数据存在,在重复数据上的预测错误被用来选择模型。
为验证方法的性能,作者在酵母细胞周期数据,由于表皮生长因子缺乏导致的血管内皮细胞凋亡数据,和gefitinib刺激小气道上皮细胞数据上测试了他们的方法。在细胞周期数据中,BSSM找出的模块中基因在表达上和功能上的一致性都很高。与Beal的VBSSM比较显示作者的方法能发掘更清晰的调控模式,BSSM鉴定的网络与现有知识的吻合度也很高。
未来值得研究的方向包括:1)更稳定的参数训练方法,更有效的模型选择方法,或者通过贝叶斯方法引入更多的生物学知识。2)处理更高的维度。3)非线性模型。4)与网络分析结合起来。5)将统计分析与细胞网络的模拟结合起来。Abstract: Since time-course microarray data are short but contain a large number of genes, most of statistical models should be extended so that they can handle such statistically irregular situations. We introduce biological state space models that are established as suitable computational models for constructing gene networks from microarray gene expression data. This chapter elucidates theory and methodology of our biological state space models together with some representative analyses including discovery of drug mode of action. Through the applications we show the whole strategy of biological state space model analysis involving experimental design of time-course data, model building and analysis of the estimated networks.