人们可以利用主成分分析(Principal Component Analysis,PCA)筛选一些有意义的特征以解释数据差异的程度,从而展现数据的复杂性。然而,主成分分析的基本假设是所有数据源是同质的。物联网的发展带来了挑战,因为从联网车辆、传感器、摄像头、智能手表等不同来源收集的数据之间具有明显的异质性。考虑到能够用来收集数据的物品和技术越来越多,人们需要一种新的分析工具来分析异构数据,以及分析多个来源的日益复杂的数据之间有哪些异同。近日,美国密歇根大学官网发布消息称,该校研究人员开发了一种能够从不同数据集中提取可识别、可解释的数据共有和独有特征的统计工具,即个性化主成分分析(personalized PCA)。
研究人员提到,利用低秩表示(low-rank representation)学习技术,个性化主成分分析方法可以识别数据的共有和独有特征,更好地处理来自多个来源的复杂数据。该方法可以用完全联合、分布式的方式实现。也就是说,无需分享不同来源的全部原始数据,只需要在各客户端之间分享具有共有特征的数据。这能够加强对数据隐私的保护,降低数据传输与存储成本。
借助个性化主成分分析,人们可以构建起强大的统计模型,分析彼此间存在很大差异的数据,提取其共有和独有特征,并为下游分析研究提供丰富的信息。
研究人员利用个性化主成分分析分析了1960年至2020年的美国总统竞选电视辩论,从13个不同数据集中有效提取关键主题。这表明,使用这种方法能够辨别历次辩论共有和独有的辩论主题及关键词。
研究人员认为,个性化主成分分析突出了对于相关从业者而言易于解释的线性特征,进一步强化了其在新应用程序中的使用。该统计工具具有良好的统计效果,可为遗传学、图像信号处理乃至大型语言模型等领域的数据分析处理提供助力。
(姚晓丹/编译)
扫码在手机上查看