google图片搜索原理-谷歌图片搜索工作原理
想象一下,你丢掉了一堆旧照,对着电脑屏幕胡乱按着,直到最终终于点开了那张翻到正午阳光下的照片,那一刻真香;但要是你打开谷歌图片搜索,那里却是个几亿张照片如何都搜不完的迷宫,哪怕你只输了一句话,系统也得在大脑里转半天,还得自己琢磨你到底想求啥。 说白了,谷歌就是个超级大的图书馆,但它不是那种你翻目录找书的图书馆,更像是一个不懂中文、只会读英文的“全能翻译官”。你输入“巴黎”,它脑子里能瞬间蹦出巴黎铁塔、凯旋门、埃菲尔铁塔这些地标,就连能查出法国如何分区的,但它不懂你脑子里在想啥,它只知道字面上给你的信息。你要是想搜“如何吃牛排”,它能把刀叉、黄油、红酒、厨师、餐厅菜单全拼出来,但它不会告诉你“吃法”是啥,出于它识字忒广了,有时候连如何吃都不精通,只能硬凑答案。 它的核心是个庞大的数据库,叫 Indexing。
这玩意儿就像个不知疲倦的搬运工,24 小时不间断地把全世界互联网上每一个网页都扔进它肚子里。它不只看字,还看图片、视频、就连你发的微博、抖音,只要能上网的都能塞进去。
这就好比把整个互联网按字母排序成了一个无边的海洋,然后派出了无数个小潜水艇去捞取。 但这个海洋忒大,小潜水艇一辈子够不着底,故此它有个超级大脑,叫训练数据集(Training Dataset)。当你输入“巴黎”,谷歌得先从这浩瀚的数据海里找线索,看看哪些人的文字和照片跟“巴黎”沾边。它得知道“巴黎”旁边有没有“塔”,有没有“法国”,有没有“天空”。
要是没有这些线索,它就不知道该如何把搜索结局排个序。 这就引出了谷歌最了得的局部——它是如何猜出你心里想的? 这得归功于它学过的东西。谷歌有一大堆人类写的文档,比如维基百科、新闻、百科词条,这些文档就是它的教科书。但它不直接读这些书,而是让计算机来猜。计算机拿着书,把里面的句子拆开,拆成一个个词,比如“塔”字出现了多少次,“法国”出现了多少次。 要是一本书里“塔”出现了 1000 次,“面包”出现了 100 次,那么它就能算出大约 90% 的人读这本书,都是关于“塔”的。
要是一本书里“巴黎”出现了 50 次,“法国”出现了 50 次,那它就知道这本书大约讲到了巴黎。 谷歌就像一个超级算命先生,把成千上万个文档扔进同一个炉子去烧。炉子里有 300 亿个句子,它让 AI(这里是它自己用的一个称呼)去猜,哪个句子最常出现,就代表哪个主题最火。
然后它把这些“最火”的句子排个队,排到第一位的就是最相关的。 这就解释了为啥有时候你搜“巴黎”,它给你一堆巴黎铁塔的照片;有时候你搜“巴黎”,它给你一堆巴黎餐厅的照片;有时候你搜“巴黎”,它又给你一堆巴黎法国的历史故事。出于它没告诉你“我想找啥”,它只能告诉你“大家认定跟‘巴黎’啥相关的”。
这就好比你在超市买苹果,大家买苹果的缘由有几十种,它只能给你一堆苹果,告诉你“大家买苹果的缘由有 10 种”,但它不会告诉你“你为啥想买苹果”。 还有一个关键点,是它对“图片”的理解。
你看谷歌图片搜索,它不是好办的关键词匹配,它得知道图片里的东西。
比如你搜“苹果”,它得判断那是水果还是一个人,要么是手机屏幕。
要是图片里的人穿着苹果公司的衣服,它可能就把它归为“苹果”相关的结局。
这就像你在找一件衣服,你只说“红色”,它得猜你穿的是衣服、衬衫还是围巾。它得分析图片的结构、颜色、光影,就连你拍的时候是啥时候。 这就害得了它有时候挺“糊涂”。
比如你搜“复古”,它可能跳出来一套 80 年代的牛仔装,也可能跳出来一块老式的怀表,也可能跳出来一个穿着背带裤的古人。出于它没听懂你在说啥,它只知道“用户最近输入了这两个词,故此把这两个词关联起来”。就连有时候它还会搞个“幻觉”,编个故事来增添你的兴趣。
比如你说“我想找关于猫的照片”,它可能给你一张猫的照片,但背景是“忒空站”,出于它认定猫和忒空站组合起来挺酷,别看它没告诉你猫和忒空站之间有啥关系,但它认定你肯定喜爱这种组合。 你还会发现,有时候你搜“香蕉”,它给你一堆香蕉,但第一张图里实际上是香蕉形状的恐龙。
这是出于它的训练数据里,恐龙和香蕉的组合频率比“恐龙和香蕉没有香蕉”的频率高得多。就像你在超市买香蕉,大家买香蕉的理由有几十种,它只能给你一堆香蕉,告诉你“大家买香蕉的理由有 10 种”,但它不会告诉你“为啥第一张图里有恐龙”。 并且,谷歌的图片搜索还特别爱玩“联想陷阱”。
比如你搜“巴黎铁塔”,它可能给你排第一的是“巴黎铁塔”,但排第二的可能是“巴黎卢浮宫”,但卢浮宫实际上离铁塔挺远的。出于它的算法是为了取悦你,为了让你的搜索结局看起来更丰富,而不一定是确实最准的。
这就像你去问路人“如何到公园”,它可能给你指一条路,但要是你问“如何到火车站”,它可能给你指一条离火车站更近的路,别看路线上可能绕路,但它知道哪条路人多。 这就害得了它有时候挺“一本正经地胡说八道”。
比如你搜“如何做红烧肉”,它可能给你一篇关于红烧肉如何做的美食教程,这里面有大量步骤,比如把肉切成块、加酱油、加水煮。它不会告诉你“实际上红烧肉的精髓是火候”,出于它不知道你的真意图,它只知道“用户问的跟红烧肉相关的内容有这些”。它像个只会背菜谱的秦时明月,只知道如何煮,却不会教你吃。 还有个细节,就是它知道你是“人类”。它看过你无数次,你输入啥词,鼠标往哪移,屏幕如何闪,它都注意到了。但它不能直接把你输入的词塞进搜索结局里,出于它不知道你要找啥,它只能把跟它数据库里相关的词塞进结局里。
比如你搜“我”,它可能会给你一张你自拍的照片,出于照片里的人身上有“我”两个字。 最终,你得接纳它就是个“半吊子”专家。它不是全知全能的上帝,它就是个靠概率猜的推手。它能把宇宙大到亿万年前的恐龙,也能把你目前的心情猜成“快乐”。它不追求真理,它追求的是“你好找”。 故此,下次你想找个东西,还是得自己动脑子,去谷歌库里捞。
毕竟,谷歌再强大,也只是个拿着放大镜看世界的人,它看不懂复杂的逻辑,只认得好办的词组。它会把好办的词组拼成复杂的句子,让你认定它懂你,实际上它只是在努力模仿人类讲话的习惯。
声明:演示网站所有内容,若无特殊说明或标注,均来源于网络转载,仅供学习交流使用,禁止商用。若本站侵犯了你的权益,可联系本站删除。
