摘要:在数据异构应用场景中,现有联邦学习存在客户端本地训练速度低、聚合后模型稳定性差等问题,基于此,提出一种面向数据异构的聚类抽样个性化联邦学习算法(Personalized Federated Learning with Clustered Sampling for non-IID dataset, pFedCS)加快其训练速度,提高模型准确度。该算法通过在本地训练过程中引入正则化损失函数,防止本地模型与全局模型参数产生较大偏差;并提出一种基于相似度的聚类方法将客户端进行聚类,根据每一类客户端样本数量,确定其抽样权重,然后,从该类中选出具有代表性的客户端参与模型聚合,当某一类样本数量较少时,对其进行抽样,增强样本的多样性,以便更好地捕捉全局数据分布的特征。实验结果表明,在MNIST和Synthetic两类数据集上,pFedCS相较于FedAvg、Per-FedAvg、FedProx和FedTC具有更高的准确率和更快的收敛速度。