
计算机科学技术学报 ›› 2019,Vol. 34 ›› Issue (1): 7793.doi: 10.1007/s1139001919005
所属专题： Computer Architecture and Systems
Min Li^{1,2}, Student Member, CCF, Chao Yang^{3,4,5,*}, Senior Member, CCF, Member, ACM, IEEE, Qiao Sun^{1} WenJing Ma^{1}, WenLong Cao^{1,2}, Student Member, CCF, and YuLong Ao^{3,4,5}, Member, CCF
kmeans是无监督学习中一种经典的基于距离计算的聚类算法，由于简单，易实现，无需标记样本等特点，kmeans在图像处理、数据挖掘、文本聚类、生物学等领域有着广泛的应用，并越来越多的被用作许多更复杂算法的预处理手段。大数据时代的到来，使得样本数据的特征维度从原来的几十维上升到了数以千计，相应的，对计算速度也提出了更高的要求，因此，研究kmeans的并行加速对于实际应用是非常重要且有意义的。我们提出了一种将距离计算与簇标签规约融合的kmeans并行算法；同时将其部署在申威26010众核处理器上。该算法减少了对距离矩阵的存储及内存访问次数，使用三层分块策略进行任务划分，以实现数据到硬件资源的高效映射，并利用协作式的核间数据共享方式以提高数据的重用率，使用寄存器通信机制实现簇标签规约。通过使用指令重排、双缓冲等优化技术，我们进一步大幅提升了kmeans的性能。此外，我们对分块大小的选择进行了讨论，并建立简单的性能模型进行性能分析。实验显示，我们的方法可以达到348.1 GFlops的浮点计算性能，相比机器最大浮点性能/理论上最大性能，可以获得46.9%/84%的浮点计算效率，相比较当前在CPU和GPU上最好的实现算法，具有很大的优越性。
