特征矩阵中的多个特征的联合信息熵与互信息分布 (中科院古脊椎与古人类所供图)
长久以来,化石作为古生物学研究最主要的材料不可避免地受到保存环境的影响,其中的噪声造成了形态学特征的不完整与失真,进而影响后续的系统发育和功能形态方面研究。学界始终缺乏合适的理论框架与方法对化石中的形态学信息进行定量化的研究。
近日,国际学术期刊《生态学与演化》在线发表了由美国自然历史博物馆余琮煜,北京大学地球与空间明升体育app学院江左其杲,中科院古脊椎动物与古人类研究所王海冰等合作的题为“形态学研究中的信息论”的论文,提出了可以将信息论与通信系统工程作为古生物形态学研究的理论基础。
文章讨论了多个脊椎动物形态学特征矩阵中的信息熵,互信息,信道容量等参数,提出目前的形态学矩阵并没有很好地区分信源编码与信道编码,不同特征之间差异较大的信息熵往往被忽视,矩阵中过多的特征数量可能导致了信息传递的低效。
对通信系统完整的数学描述直到1948年才被克劳德香农提出。由于现实通信中几乎无法避免噪声,为了确保解码后的消息与编码前的消息的一致性,精心设计的编码是非常必要的。香农提出编码过程可以进一步细分为信源编码与信道编码,而且这两个步骤可以分开进行互不影响。
香农认为通信中最基础的问题是在一处近似或者精确地重现另一处的消息,类似的,我们认为古生物学中最基础的问题是在现代近似或者精确地重现在地质年代中的古生物,包括他们的演化历史与形态功能等诸多方面。
该研究首先计算了多个脊椎动物形态学特征矩阵中每个特征的信息熵(信息量),拥有更多特征状态的特征有明显较高的信息熵。对于矩阵中多个特征的联合信息熵的结果显示仅仅少数形态学特征即可描述信源信息熵,绝大多数特征并没有提供额外的信息。这与古脊椎动物学研究中报道新物种的习惯符合,即利用少数特征作为鉴定特征,而在系统发育研究中则会使用数量大得多的特征。
类似地,这样的区别可以用通信系统工程当中的信源与信道编码过程解释。进一步地,研究计算了每个特征矩阵中特征对之间的互信息,发现特征之间的相关性广泛存在,但习惯上对于解剖结构的划分并没有体现出较好的模块性。
基于加性高斯白噪声信道模型,研究估算了不同特征矩阵对应的信道容量,发现信道容量均被特征数量饱和。香农的理论告诉我们超越信道容量的通信速率必然带来噪声,而在加性高斯白噪声信道模型中,随着带宽的提高,信道容量并不会无限提高,过宽的带宽不仅浪费通信资源也无法改善通信的质量。这与目前被研究人员偏爱的超大型特征矩阵相悖。
由于信息熵直接度量了单个变量的信息量多少,因此可以在系统发育的特征权重方面提供参考依据。研究比较了平等加权,隐含加权与信息熵加权在多个脊椎动物类群中的系统发育结果。尽管最终结果十分接近,但信息熵加权由于完全不需要任何先验知识,且直接建立了特征权重与信息熵之间的关系,比其他加权方式拥有更好的解释性和更少的额外假设。
随着观测手段的进步,古生物学家需要处理飞速增加的数据,如何在海量的数据中寻找需要的信息依然是很有挑战性的工作。利用已经发展成熟的信息论与通信系统工程作为理论基础,为形态学数据的数字化提供了理论支持,也为基于形态学的系统发育研究提供了指导。
正如现代通信系统在数字信号取代模拟信号之后迎来的大发展,未来基于信息论的古生物学有希望帮助人们更好地破解生物演化的密码。(来源:明升官网明升体育app报 崔雪芹)
相关论文信息:
版权声明:凡本网注明“来源:明升官网明升体育app报、明升手机版(明升官网)、明升体育app手机版杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、明升头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。