本文介绍一种估计余弦相似度的算法:simHash
近似最近邻搜索 ANN
本文讨论的问题:大规模数据的近似最近邻问题(Approximate Nearest Neighbor,ANN)
讨论的范围:由于不同类型的数据处理方法区别较大,本文只讨论可以用集合表示的数据,如文档(词项集合)、基因序列,用 Jaccard 相似度衡量两个集合的相似程度
K 近邻问题 KNN
            
              
                
              
              发表于
              
              
            
            
              
                
              
              分类于
                
                  llm
                
            
          
        
      RAG 在检索时,会在向量数据库中找出与查询向量 P 最相近的 k 个文档向量,如何从海量向量中找出与 P 最相近 k 个向量呢,这是一个 K 近邻问题( K-Nearest Neighbors,KNN)
本文介绍下问题 KNN 的两种方法
大模型应用技术综述
本文介绍大模型应用中常用的技术,你可以了解到大模型应用的一整套运行机制及其原理
Raft 算法原理
Raft 是一种分布式一致性算法,解决的是分布式系统中如何实现一致性的问题;在很多分布式服务中都使用了 Raft 算法,如分布式协调服务 etcd、consul,分布式数据库 TiDB,分布式消息队列 RocketMQ
hyperloglog 算法思想与流程
uv (Unique Visitor) ,指在特定时间内访问网站的不同用户数量
本文讨论一种统计 uv 的方法及其原理
k8s-learn
            
              
                
              
              发表于
              
              
            
            
              
                
              
              分类于
                
                  k8s
                
            
          
        
      学习 k8s
增益模型 Uplift Model
            
              
                
              
              发表于
              
            
              
                
                  
                
                更新于
                
              
          
        
      本文介绍增益模型 - Uplift Model
LSM-Tree
LSM-Tree (Log-Structured-Merge Tree) 是一种用于存储键值对的数据结构,经常用于写密集型场景,广泛应用于现代键值存储系统和数据库(如 RocksDB、LevelDB 等),具有高效的写入性能和良好的读取效率
线程池原理解析
            
              
                
              
              发表于
              
            
              
                
                  
                
                更新于
                
              
          
        
      本文介绍 jdk 线程池原理