欧美日本免费一区二区三区,中文字幕丰满乱孑伦无码专区,免费a级毛片无码鲁大师,亚洲久悠悠色悠在线播放

搜索引擎的基本結(jié)構(gòu) 搜索引擎的主要模塊及功能

本文章由注冊用戶 知識雜談 上傳提供 評論 發(fā)布 糾錯/刪除 版權(quán)聲明 0
摘要:搜索引擎是將與用戶檢索內(nèi)容相關(guān)的信息展示給用戶的系統(tǒng),是一項檢索服務(wù),是根據(jù)一定的策略,用特定的計算機(jī)程序,從網(wǎng)上搜集、整理信息并呈現(xiàn)給用戶。搜索引擎技術(shù)的核心模塊一般包括爬蟲、索引、檢索和排序等,同時可添加其他一系列輔助模塊,以為用戶創(chuàng)造更好的網(wǎng)絡(luò)使用環(huán)境。下面來了解下搜索引擎的基本結(jié)構(gòu)及模塊功能。

一、搜索引擎的基本結(jié)構(gòu)

搜索引擎基本結(jié)構(gòu)一般包括:搜索器、索引器、檢索器、用戶接口等四個功能模塊。

1、搜索器

搜索器也叫網(wǎng)絡(luò)蜘蛛,是搜索引擎用來爬行和抓取網(wǎng)頁的一個自動程序,在系統(tǒng)后臺不停歇地在互聯(lián)網(wǎng)各個節(jié)點(diǎn)爬行,在爬行過程中盡可能快的發(fā)現(xiàn)和抓取網(wǎng)頁。

2、索引器

它的主要功能是理解搜索器所采集的網(wǎng)頁信息,并從中抽取索引項。

3、檢索器

其功能是快速查找文檔,進(jìn)行文檔與查詢的相關(guān)度評價,對要輸出的結(jié)果進(jìn)行排序。

4、用戶接口

它為用戶提供可視化的查詢輸入和結(jié)果輸出的界面。

二、搜索引擎的主要模塊及功能

1、爬蟲:從互聯(lián)網(wǎng)爬取原始網(wǎng)頁數(shù)據(jù),存儲于文檔知識庫服務(wù)器。

2、文檔知識庫服務(wù)器:存儲原始網(wǎng)頁數(shù)據(jù),通常是分布式Key-Value數(shù)據(jù)庫,能根據(jù)URL/UID快速獲取網(wǎng)頁內(nèi)容。

3、索引:讀取原始網(wǎng)頁數(shù)據(jù),解析網(wǎng)頁,抽取有效字段,生成索引數(shù)據(jù)。索引數(shù)據(jù)的生成方式通常是增量的,分塊/分片的,并會進(jìn)行索引合并、優(yōu)化和刪除。生成的索引數(shù)據(jù)通常包括:字典數(shù)據(jù)、倒排表、正排表、文檔屬性等。生成的索引存儲于索引服務(wù)器。

4、索引服務(wù)器:存儲索引數(shù)據(jù),主要是倒排表,通常是分塊、分片存儲,并支持增量更新和刪除。數(shù)據(jù)內(nèi)容量非常大時,還根據(jù)類別、主題、時間、網(wǎng)頁質(zhì)量劃分?jǐn)?shù)據(jù)分區(qū)和分布,更好地服務(wù)在線查詢。

5、檢索:讀取倒排表索引,響應(yīng)前端查詢請求,返回相關(guān)文檔列表數(shù)據(jù)。

6、排序:對檢索器返回的文檔列表進(jìn)行排序,基于文檔和查詢的相關(guān)性、文檔的鏈接權(quán)重等屬性。

7、鏈接分析:收集各網(wǎng)頁的鏈接數(shù)據(jù)和錨文本(Anchor Text),以此計算各網(wǎng)頁鏈接評分,最終會作為網(wǎng)頁屬性參與返回結(jié)果排序。

8、網(wǎng)頁去重:提取各網(wǎng)頁的相關(guān)特征屬性,計算相似網(wǎng)頁組,提供離線索引和在線查詢的去重服務(wù)。

9、網(wǎng)頁反垃圾:收集各網(wǎng)頁和網(wǎng)站歷史信息,提取垃圾網(wǎng)頁特征,從而對在線索引中的網(wǎng)頁進(jìn)行判定,去除垃圾網(wǎng)頁。

10、查詢分析:分析用戶查詢,生成結(jié)構(gòu)化查詢請求,指派到相應(yīng)的類別、主題數(shù)據(jù)服務(wù)器進(jìn)行查詢。

11、頁面描述/摘要:為檢索和排序完成的網(wǎng)頁列表提供相應(yīng)的描述和摘要。

12、前端:接受用戶請求,分發(fā)至相應(yīng)服務(wù)器,返回查詢結(jié)果。

網(wǎng)站提醒和聲明
本站為注冊用戶提供信息存儲空間服務(wù),非“MAIGOO編輯”、“MAIGOO榜單研究員”、“MAIGOO文章編輯員”上傳提供的文章/文字均是注冊用戶自主發(fā)布上傳,不代表本站觀點(diǎn),版權(quán)歸原作者所有,如有侵權(quán)、虛假信息、錯誤信息或任何問題,請及時聯(lián)系我們,我們將在第一時間刪除或更正。 申請刪除>> 糾錯>> 投訴侵權(quán)>> 網(wǎng)頁上相關(guān)信息的知識產(chǎn)權(quán)歸網(wǎng)站方所有(包括但不限于文字、圖片、圖表、著作權(quán)、商標(biāo)權(quán)、為用戶提供的商業(yè)信息等),非經(jīng)許可不得抄襲或使用。
提交說明: 快速提交發(fā)布>> 查看提交幫助>> 注冊登錄>>
您還未登錄,依《網(wǎng)絡(luò)安全法》相關(guān)要求,請您登錄賬戶后再提交發(fā)布信息。點(diǎn)擊登錄>>如您還未注冊,可>>,感謝您的理解及支持!
最新評論
暫無評論
相關(guān)推薦
搜索引擎營銷是什么意思 搜索引擎營銷的方法有哪些
搜索引擎營銷,也稱為SEM,是一種基于搜索引擎平臺的網(wǎng)絡(luò)營銷。通過搜索引擎營銷可以擴(kuò)大網(wǎng)站影響力及知名度,也可以在眾多同行中脫穎而出,獲得更多的流量。SEM有兩個主要支柱:搜索引擎優(yōu)化和PPC付費(fèi)搜索廣告。下面來了解下搜索引擎營銷的方法。
什么是搜索引擎 搜索引擎的工作原理
在互聯(lián)網(wǎng)時代,我們應(yīng)該都用過搜索引擎查詢過一些信息。說到搜索引擎,我們腦海里想到的無非就是百度、谷歌、搜狗等等。搜索引擎這個名字也許我們并不陌生,但至于什么是搜索引擎也許大家并不怎么了解。下面小編就來介紹搜索引擎的含義及搜索引擎的工作原理。
搜索引擎和瀏覽器的區(qū)別 搜索引擎和數(shù)據(jù)庫的區(qū)別
也許在很多人的意識里,搜索引擎就是瀏覽器,瀏覽器就是搜索引擎,其實(shí)這是不正確的想法。搜索引擎不是瀏覽器,它們之間有區(qū)別。瀏覽器是一個程序,通過這個程序可以鏈接到互聯(lián)網(wǎng),讓網(wǎng)民通過這個瀏覽器查看到服務(wù)器上面的資料。而搜索引擎是一個網(wǎng)站,通過一定的算法,向用戶提供網(wǎng)站收集到的資料。搜索引擎和數(shù)據(jù)庫又有什么區(qū)別?下面來了解下。
百度極速版真的能賺錢嗎 百度極速版看視頻20元能取出嗎
百度極速版應(yīng)用內(nèi)包含個性化時事新聞、熱點(diǎn)資訊、明星動態(tài)、動漫小說等功能,在精簡的同時為用戶提供更多功能和賺錢的方式,一鍵收藏、關(guān)注,隨時查看便捷可靠。很多用戶好奇百度極速版真的能賺錢嗎?那么下面就一起來了解一下吧!
什么是搜索引擎推廣 搜索引擎推廣的方法有哪些
對于新上線的網(wǎng)站而言,想要從搜索引擎中獲得流量是非常困難的。若想引流,就需要懂得搜索引擎推廣。那么什么是搜索引擎推廣?搜索引擎推廣其實(shí)就是把公司網(wǎng)站展示在搜索引擎上,這樣網(wǎng)民們搜索相關(guān)關(guān)鍵詞的時候,公司網(wǎng)頁就會被檢索出來,網(wǎng)民們點(diǎn)擊進(jìn)去,就看到了你的產(chǎn)品相關(guān),起到推廣的作用。搜索引擎推廣的方法有哪些?下面來了解下。