1998年,Google的搜索旅程始于斯坦福大学 靠背,一个在40 g babyte服务器上运行的项目。将近三十年后,软件开发人员 瑞安·皮尔斯(Ryan Pearce) 从早期开始的灵感来建造 搜索页,一种本土搜索引擎 – 以及以隐私为中心的变体称为 寻求忍者 – 不是在硅谷数据中心主持,而是在他的洗衣房中。
Google的谦虚开始
Google的起源有充分的记录。 Backrub是它的第一次迭代,仅在40 GB的存储空间上运行。套管是由Duplo Blocks制成的,Duplo Blocks是一种嬉戏的解决方案,既象征着足智多谋又约束。随着项目的增长,IBM和英特尔的捐款使创始人Larry Page和Sergey Brin可以将刚起步的系统移至一个小型服务器机架中。
从那里开始,增长变成了指数。到2025年,Google的运营已经跨越 全球数据中心的分布式网络,远远超出了谦虚的二倍案。它的索引从 1998年2400万页 到 到2020年4000亿,这一数字在2023年美国诉Google反托拉斯试验中揭示。
洗衣房搜索引擎
Pearce的设置提供了惊人的对比度。搜索页面并寻求忍者从他的 家里的公用事业室,这是必要的决定。服务器最初放置在他的卧室里,产生了太多的热量和噪音。 Pearce随着妻子的意见,将其转移到洗衣房,钻新的网络连接并调整通风以保持系统运行。
图片由瑞安·皮尔斯(Ryan Pearce)提供尽管面临这些挑战,但他的搜索引擎目前索引 20亿页 – 在六个月内进球40亿。 Pearce指出:“目前,在洗衣房中,我比Google拥有的存储空间要比Google多。
建立有限的资源
皮尔斯通过 自我托管和硬件套利。通过购买二手服务器,他以其原始成本的一小部分购买了高端组件。他目前的设置包括 32核AMD EPYC 7532,一旦价格超过3,000美元,但在eBay上以200美元的价格购买。总系统成本周围 $ 5,000,有3,000美元用于存储和一半的RAM Terabyte。
在家进行此操作带来了明显的权衡。热管理,噪音和功率都需要持续平衡。但是与云托管相比的节省相当大。皮尔斯(Pearce)的方法与威尔逊·林(Wilson Lin)这样的业余爱好者的对立面,他们依靠多个云服务来减少开销。
搜索由AI提供动力
搜索页面混合 传统搜索技术 和 人工智能。大型语言模型(LLMS)扩展关键字并提高查询理解,增强相关性。 Pearce解释说:“我正在做的实际上是非常传统的搜索。这是Google大概在20年前所做的,除了唯一的调整是我确实使用AI来进行关键字扩展并协助上下文理解。”
对AI的依赖反映了行业的趋势。到2019年,微软透露 Bing搜索结果的90% 是机器学习的驱动。 Google的 Rankbrain,将近十年前推出,将AI嵌入了排名系统中。 Pearce轻巧使用LLM-通过诸如此类的服务访问 桑巴诺瓦的 骆驼3 – 说明独立开发商如何利用与公司巨头供电的相同工具。
迭代和代码大规模
皮尔斯估计他的项目包含 150,000行活动代码,但是迭代过程几乎循环 500,000行。他的开发方法始于LLM驱动的原型,后来以效率优化为传统代码。
这种混合策略使他能够快速测试功能,包括 LLM生成的页面摘要,Google和Bing的功能现在大规模交付。矢量数据库最初产生了“非常艺术”的结果,但Pearce继续完善其基础设施以平衡准确性,速度和成本。
隐私和利基野心
寻求忍者是皮尔斯引擎的隐私变体,是他愿景的一部分 提供广告驱动的,数据繁多的搜索生态系统的替代方案。最初,他希望优先考虑较小的网站而不是主导公司 Marginalia,非商业搜索引擎。尽管这仍然是未来的野心,但它表明了替代搜索工具如何能够使网络体验多样化。

国际兴趣已经出现。皮尔斯说,他在中国寻求一个 未经审查的搜索后端 对于LLM代理,向全球对独立搜索工具的需求发出信号。
挑战和前进的道路
Pearce承认,仅在英语中运行,搜索页面仍然远小于Google的基础架构 – “桶中的下降”。扩展到其他语言将需要大量的新数据集和算法调整。目前,他的20亿页数据库证明了在公司实验室之外可以完成的工作。
长期,皮尔斯(Pearce)计划将他的系统从洗衣房中移出并进入 托管设施,在扩展家庭范围时保持控制。他还开始测试 会员风格的广告 抵消成本,旨在与传统的网络广告相比,旨在实现侵入性的模型。
皮尔斯说:“我的计划是,如果我经过一定的交通量,我将被托管。这不会永远在那个洗衣房里。”
所有人的灵感
从Google的Duplo Case到Pearce的洗衣房,搜索的历史突出了一个反复出现的主题: 独创性通常从适度的基础架构开始。
现在,AI,存储和负担得起的硬件的进步使独立开发人员至少在精神上与资源密集型的科技公司竞争成为可能。
Searcha页面并寻求Ninja可能永远不会与Google的4000亿页索引相媲美,但是它们的存在提醒人们,搜索创新并不仅仅属于硅谷。





