robots.txt是一個(gè)純文本文件,在這個(gè)文件中網(wǎng)站管理者可以聲明該網(wǎng)站中不想被搜索引擎訪問的部分,或者指定搜索引擎只收錄指定的內(nèi)容。
搜索引擎爬去我們頁面的工具叫做搜索引擎機(jī)器人,也生動(dòng)的叫做“蜘蛛”蜘蛛在爬去網(wǎng)站頁面之前,會(huì)先去訪問網(wǎng)站根目錄下面的一個(gè)文件,就是robots.txt。
robotx.txt是一種用于限制搜索引擎爬蟲訪問網(wǎng)站的文件。通常,網(wǎng)站管理員可以將不希望搜索引擎訪問的內(nèi)容,包括網(wǎng)站目錄下的文件、HTML文件、CSS文件和JavaScript文件,添加到robotx.txt文件中。
另外,robots.txt主要用于保證網(wǎng)絡(luò)安全和網(wǎng)站隱私,百度蜘蛛遵循robots.txt協(xié)議。通過根目錄下創(chuàng)建的純文本文件robots.txt,網(wǎng)站可以聲明哪些頁面不想被百度蜘蛛抓取收錄。
1、機(jī)器人放在服務(wù)器的根目錄下,所以如果你想查看,只要在IE上輸入http://yourwebsite/robots.txt即可。如果想檢查分析機(jī)器人,有專業(yè)的相關(guān)工具。
2、robots.txt文件應(yīng)該放在網(wǎng)站根目錄下。舉例來說,當(dāng)搜索引擎 訪問一個(gè)網(wǎng)站時(shí),首先會(huì)檢查該網(wǎng)站中是否存在robots.txt這個(gè)文件,如果robots機(jī)器人程序找到這個(gè)文件,它就會(huì)根據(jù)這個(gè)文件的內(nèi)容,來確定它訪問權(quán)限的范圍。
3、打開您的網(wǎng)頁瀏覽器,如Chrome,F(xiàn)irefox等,輸入b站的網(wǎng)址“”。在瀏覽器地址欄的末尾輸入“/robots.txt”,即“”,然后按下回車鍵。
4、任何一條Disallow記錄為空,說明該網(wǎng)站的所有部分都允許被訪問,在 “/robots.txt”文件中,至少要有一條Disallow記錄。如果“/robots.txt”是一個(gè)空文 件,則對(duì)于所有的搜索引擎robot,該網(wǎng)站都是開放的。
5、在”robots.txt”文件中,如果有多條User-agent記錄說明有多個(gè)robot會(huì)受到”robots.txt”的限制,對(duì)該文件來說,至少要有一條User-agent記錄。
1、機(jī)器人放在服務(wù)器的根目錄下,所以如果你想查看,只要在IE上輸入http://yourwebsite/robots.txt即可。如果想檢查分析機(jī)器人,有專業(yè)的相關(guān)工具。
2、打開您的網(wǎng)頁瀏覽器,如Chrome,F(xiàn)irefox等,輸入b站的網(wǎng)址“”。在瀏覽器地址欄的末尾輸入“/robots.txt”,即“”,然后按下回車鍵。
3、robots.txt文件必須駐留在域的根目錄,并且必須命名為“robots.txt”。位于子目錄中的robots.txt文件無效,因?yàn)槁纹髦辉谟虻母夸涍@個(gè)文件。例如,http://是有效位置。
4、登陸網(wǎng)站后臺(tái)FTP,robots文件就在站點(diǎn)的根目錄下面,直接使用查找輸入r就可以找到,如果沒有找到的話,可能設(shè)置的隱藏,強(qiáng)制現(xiàn)實(shí)文件即可,還有一種原因就是網(wǎng)站沒有robots文件,不是所有的建站系統(tǒng)都自帶robots文件的。