向量检索是整个RAG管道的一个重要的步骤,传统的暴力最近邻搜索因为计算成本太高,扩展性差等无法应对大规模的搜索 ...
针对传统K-means算法初始中心敏感、聚类结果不稳定等问题,武汉理工大学团队创新性地将拓扑数据分析工具——持续同调(Persistent Homology)引入聚类分析,提出PH-K-means算法。该算法通过计算最长Betti数长度确定k个初始聚类中心,在7个常用数据集上验证显示:相比K ...
随着债券市场扩容,地方债已跃升为市场中的第一大品种,日益引发关注,本文探讨了金融科技在地方债利差分析中的应用。一级市场方面,通过K-Means聚类算法对地方债投标加点数据进行分类,揭示了不同地区和不同期限地方债的聚类特征,促进信用风险识别和 ...
张晓艳,审计署审计科研所企业审计研究室副研究员。 【摘要】聚类算法在识别异常企业方面的思维模式,与企业审计查找疑点的理念高度一致,能够有效地应用于企业审计中。本研究以国有非金融上市公司2019年至2023年的数据为例,选定10项关键指标,分行业 ...
对于本题来说,窗口内维护的信息是每个字符出现的次数。如果窗口内的子串符合要求,那么一直右移左端点,直到窗口内的子串不符合要求。此时位于区间 $[l - 1, r]$ 内的子串是满足题目要求的最小的子串。 此时以下所示的字符串都是满足题意的子串,一共有 ...
编辑导语:由于数据对于各行各业的人来说是越来越重要的存在,于是近年来关于数据分析的方法也是越来越多。在本篇文章中,作者为我们介绍了聚类模型,看看应该如何用聚类模型(k-means)来做数据分析吧。 在日常工作中,很多时候都会用到数据分析的 ...
说明(2019-2-25):感谢大家的关注,但其实这些笔记远没有那么大的价值;深度学习以及自然语言处理的发展极其迅速,这里的很多内容已经年久失修,甚至很多都没有完成;本人也已经毕业入职,不再有那么多的时间继续维护这些笔记,大家酌情参考即可(不 ...
最近在学习一些数据挖掘的算法,看到了这个算法,也许这个算法对你来说很简单,但对我来说,我是一个初学者,我在网上翻看了很多资料,发现中文社区没有把这个问题讲得很全面很清楚的文章,所以,把我的学习笔记记录下来,分享给大家。 在数据挖掘中 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果