第314章 Y搜出海（6143）_我真的有一座法师塔

第314章 Y搜出海（6143） (第1/2页)

这是实时爬取的数据吗？怎么可能？
　　
　　柚子科技怎么可能有这么大的数据中心和带宽？
　　
　　别说只是拿了10亿迈元投资的柚子科技，就算是目前现金流已经基本回正的大米，想要投一个搜索引擎，也是天方夜谭般的事情！
　　
　　“实时抓取？柚子科技的带宽和服务器够吗？”
　　
　　雷君完全想不通，柚子科技这个Y搜，是怎么实现的。
　　
　　搜索引擎发展到了今天，无论是罗伯特李的超链技术和古狗基层的pagerank技术，本质都是通过网络爬虫从一个或多个著名网站开始，不断地通过各种网页链接爬取网页并读取网页内容。
　　
　　抓取到的网页内容并不是直接用于搜索，而是被分析、提取出页面中的关键信息，如文本内容、标题、关键词、链接等后，存储在搜索引擎的索引库中。
　　
　　这个索引库就像是一本互联网内容的目录，帮助搜索引擎在用户发起查询时迅速找到相关的页面。
　　
　　罗伯特李的超链技术和pagerank不同的是，罗伯特李解决的是爬取的方式问题，而pagerank解决的是为网页赋权的问题。
　　
　　具有相同内容的两个网页，来自白屋的网页和来自非洲一个小孩的个人网页，权重显然是不同的。
　　
　　古狗的pagerank通关算法，将这些网页进行赋权，算出哪些网页更有价值，那么这些网页就更容易被搜到。
　　
　　这两种技术，也是当今搜索引擎最底层的技术，几乎所有搜索引擎都是建立在这两种技术之上的。
　　
　　但这就带来一个问题。
　　
　　带宽和无比庞大的数据库问题。
　　
　　带宽决定了搜索引擎的爬取速度和用户体验速度，而数据库决定了搜索结果的准确性和丰富性。
　　
　　每秒钟互联网上都会有无数新的网页诞生，爬下来的链接数据库存在哪里？需要多大的服务器空间？
　　
　　虽然只是存储连接和内容索引，但整个互联网网页量太大了，仅仅只是这一小部分，就不是哪个小企业能够承受的。
　　
　　古狗每年光是花在服务器新增、更新、维护上的钱就多达七十亿迈元，而且这笔钱每年都在增加。
　　
　　古狗和千寻都是在互联网蛮荒时代就已经进入这个领域的创业者，在一开始，不需要投入太多的服务器资源，就能够把互联网上所有的网页链接全都爬一遍。
　　
　　但现在可不是，经过十几年的发展，互联网已经变成了一个庞然巨物，互联网用户已经超过34亿人，占全球人口的45%。
　　
　　如果去掉学龄前尚未真正注册互联网账户的幼儿和对互联网完全没有认知的高龄老人，占比可能已经超过了65%。
　　
　　现在互联网上的数据量之大，可想而知。
　　
　　古狗和千寻这种搜索引擎巨头，是随着互联网一步步成长起来的，他们的营收增速比互联网的增长还要快，自然能够不停地加大投入，来增设新的服务器，响应用户需求。
　　
　　这也是这个行业为什么没有新入局者的原因。
　　
　　这完全是一个积累型的行业，护城河非常深，根本不是一般公司能跨越的。
　　
　　想要凭借搜索体验、内容丰富度、搜索精准度等产品力指标推翻古狗或千寻的统治，唯一的办法就是某个巨头或大佬，不计回报的投入数百亿迈元，爬取整个互联网的内容，通过精妙的算法，才能做出一个和千寻或古狗在产品力上能掰手腕的搜索引擎出来。
　　
　　这也只是能掰掰手腕，是否能真的超过千寻和古狗，还不好说。
　　
　　也正因为如此，基于成本方面的考量，搜索引擎不会为每个网页设定统一的爬取频率。
　　
　　爬虫会根据网页的重要性、更新频率、网站的爬取策略来动态调整抓取频率。
　　
　　重要的网页，比如各个新闻网站和搜索引擎自己的新闻中心，可能几分钟就会重新爬取一次，而不常更新的页面可能几天、几周甚至几个月才被重新抓取一次。
　　
　　但刚刚雷君和周授兹所看到的Y搜，针对于一些普遍认为不应当被频繁抓取的网页，也进行了抓取不说，抓到的结果，还是几分钟之前的。
　　
　　例如，其中有一篇写于大嘴的自媒体文章，发表于5分钟之前。
　　
　　这种自媒体一般来说搜索引擎抓取的频率会非常低，除非类似在头条里面搜头条号这种垂直类型的搜索能搜出来，否则用千寻或古狗都是搜不出来的。
　　
　　就像这个网页就是如此，因为抓取频率的问题，这篇文章用千寻和古狗都搜不出来。
　　
　　但Y搜就是给搜出来了，而且这篇文章的质量还不低。
　　
　　难道说正好赶上Y搜爬这个链接了？
　　
　　那未免也太巧了吧？
　　
　　“Y搜不算完全的实时搜索，它和传统的搜索引擎技术实际是两个方向。”方豫把烟在烟灰缸里掐灭。
　　
　　他烟瘾不重，选在室外和雷君还有周授兹见面，就是因为雷君是个老烟枪，一天两包，新镐室内全面禁烟，这种带室外区的咖啡厅谈事情对烟民比较有利。
　　
　　“Y搜所用的搜索技术和传统搜索技术完全不同，传统的搜索技术是下载链接后对链接赋权索引建立数据库。”
　　
　　“而Y搜，是通过大模型分析学习目前互联网上十七亿个网页的数据连接，针对于哪些链接的质量可能更高进行概率性的判定，依据这种概率，给出搜索结果。”
　　
　　“因此，Y搜并不需要特别多的服务器来存储这些网页具体数据，只是这些链接的索引都被大模型‘学习’了而已。我们只需要储存链接就可以了。”（注1）
　　
　　“当用户进行搜索的时候，大模型会自动依据用户的意图或自己的判断，给出其认为符合用户需求的链接。”
　　
　　“至于说爬取频率的问题，其实这并没有这么难，根据internetlivestats实时数据，互联网目前有13亿网页，其中百分之五十都是空链接或失效链接。”
　　
　　“去掉这些，只有六亿多，六亿的链接中，又有接近四个亿网页是‘非活跃网站’。”
　　
　　“橘子的算法是依据‘数据标记’进行判断，已经爬取的‘数据标记’并未改变的情况下并不会重复爬取，在‘数据标记’被改变后，橘子大模型才会主动爬取更新的网页，确保自身的数据处于最新，同时再新建一个‘数据标记’。”
　　
　　“这种技术的好处在于，我们不需要像千寻和古狗一样，建立那么多那么大的数据中心。”
　　
　　“一个占地两万平米的单层数据中心，应该就足够满足全大周用户的搜索需求，投入可能只相当于古狗的百分之一不到，目前Y搜使用的是阿狸云。”
　　
　　“当然，如果还要开发其他业务的话，比如目前的千寻和古狗的网盘、百科、文库、地图、邮件等功能，还是需要很大的数据中心来做支撑。”
　　
　　“另外这个技术还有一个好处就是非常便于审核和过滤，在审核过滤规则确定的情况下，Y搜可以更为精准的过滤需要审核的信息，避免误伤。”
　　
　　“AI时代，未被污染的数据太重要了，但现在大周互联网上的周文数据污染情况过于严重，训练大模型的效果很差。”
　　
　　“这其中相当一部分是由于审核误伤所导致的，造成周文数据可训练度差，因此在Y搜的算法之下，可以精准识别需要过滤的搜索结果，降低97.98%的数据误伤。”
　　
　　“这一条虽然短时间内看不出来什么，但时间长了，对整个大周的互联网数据资源都有相当大的好处。”
　　
　　“带宽和千寻目前的带宽需求相差不大，毕竟数据的传输和返回都是需要带宽的，但这部分成本对于搜索引擎来说，占比本身就不大。”
　　
　　“这种技术最大的难点在于，大多数网页的变化是难以精确预估的，且需要一个可靠的爬取策略来保持数据的时效性，并且保障链接和生成索引之间的准确性。”
　　
　　“但好在，在这方面我们取得了一些突破，当然，具体的算法涉及机密，就不和二位介绍了。”
　　
　　“正因为各方面的成本都节省了，即使Y搜不上市，我也能维持这个搜索引擎的正常运营。”
　　
　　雷君看着方豫的手机屏幕，就像在看外星人：“你的意思是，Y搜是一个伪装成搜索引擎的大模型？”
　　
　　短短几个月时间，AI就把搜索引擎行业颠覆了？
　　
　　这是什么样的进化速度！？
　　
　　有可能做到吗？
　　
　　如果是真的，那下一个即将被颠覆的行业又是哪一个？
　　
　　雷君突然感觉有些庆幸，还好自己的小米选择的是硬件创业，能成为AI的载体。
　　
　　如果当初选择进入什么移动互联网软件创新领域，现在估计已经开始担心的睡不着觉了吧？
　　
　　方豫立刻纠正雷君的说法：“不，只能算是融合了AI功能的搜索引擎。”
　　
　　过犹不及，把AI融合进搜索引擎是一回事，但搜索引擎本身就是AI大模型是另一回事。
　　
　　现在大多数人对AI还处于知道有这回事，但还没有切身感受的阶段。
　　
　　这时候如果他们发现自己日常使用的搜索功能从根本上的运行逻辑都变了，必然会对AI产生警惕心理。
　　
　　到时候，说不准搞出什么事情来。
　　
　　方豫言辞恳切：“涉及尚未公开的技术信息，因为信任雷总不是喜欢八卦的人，才会告诉雷总，还请雷总帮我保密。”
　　
　　雷君苦笑两声，他现在还真的有点相信方豫的确是没想让Y搜上市了。
　　
　　这种模式下，运营一个全网覆盖的搜索引擎门槛被大幅拉低了，就算柚子科技这种刚刚迈入独角兽的初创公司，同样也能进入这个领域。
　　
　　

（本章未完，请点击下一页继续阅读）

零点看书

第314章 Y搜出海（6143）