天体系统的运行预测 随着信息技术在天体运行系统预测领域的深度运用与融合发展,天体系统数据的来源、体量和维度在不断增加,这使数据的冗余度变高,质量下降。据相关研究,大型天体系统预测过程中所产生的数据超过70%都是冗余的,这对有效获取可靠的天体系统预测结果等带来巨大的消极影响,而合理利用硬件资源,从大规模天体系统数据中检测出冗余数据,提高数据在天体系统安全分析等领域的可用性是当前天体系统数据质量所面临的巨大挑战;应对上述挑战的有效途径就是要在大规模天体系统数据的处理中有效检测出相似重复记录,去除冗余数据,提高数据质量和可用性。 当前的检测方法主要关注集中式存储关系数据库中的相似重复记录检测,主要体现在两个方面:即基于语义规则的描述方法和基于相似性测度的描述方法。基于语义规则的描述方法主要通过经验知识来给出解决相似性问题的准则,而基于相似性测度的描述方法主要利用相似性准则函数对记录计算,以得出一个特定的指标,与预设的阈值进行对比,判定记录的相似重复性;这些方法在处理小数据集时具有一定的成效,但记忆率和精确率的平衡度低,稳定性差,且因硬件资源的约束,数据的处理规模和时效性受到限制,而纵向地对硬件资源进行扩展则较为昂贵,在系统中新增节点会因负载均衡而导致数据库重组,这使关系数据库的伸缩性受到制约,不能有效实现云环境下分布式存储的关系数据上的大数据集上的相似重复记录检测,故不适用于大规模天体系统数据的相似重复记录检测; 为此,必须对传统Sim-Hash算法进行改进,提出云环境下适用于大规模天体系统数据相似重复记录并行检测的新Hash算法,以有效解决大规模天体系统数据相似重复记录并行检测问题。