'robots.txt'는 구글 SEO 중에서,
홈페이지 SEO 입니다!
SEO 의 기반이 되는 '홈페이지 SEO'를 잘 다져야, 높은 건물을 지을 수 있어요!
3. robots.txt 만들고 제출하는 방법(제작중)
4. 보안프로토콜 직접 작업하는 방법(제작중)
5. 모바일 친화성 작업하는 방법(제작중)
6. 페이지 로딩속도 개선하는 방법(제작중)
7. Url 최적화 하는 방법(제작중)
robots.txt 란?
간단하게 예시를 통해 robots.txt 가 무엇인지 부터 알아봅시다.
robots.txt 는 '출입금지 표지판' 같은 역할을 합니다.
만약에 거대한 쇼핑몰을 운영한다고 상상을 해보세요. 고객들에게 공개가 되는 공간도 있겠지만, 상황에 따라서 스탭만 들어가는 공간이나, 출입이 금지되어야 하는 공간들이 있을 겁니다. 그런 공간 앞에는 출입금지 표지판들을 놔둬야 고객들이 입장하지 않겠죠?
robots.txt 가 바로 그 출입금지 표지판 역할을 하게 됩니다. 검색 엔진에서 우리 홈페이지에 있는 정보들을 가지러 들어왔는데, 유출되면 안되는 정보까지 다 가져가면 안되겠죠? 그 부분을 막아주는 것이 robots.txt 입니다.
robots.txt 를 왜 해야하는가?
robots.txt 작업을 해야, 크롤링을 통제할 수 있습니다.
검색 엔진 은 '크롤러'를 통해서 새로운 페이지를 색인합니다.
크롤러는 크롤링(crawling)을 하는 AI 입니다. 크롤링은 홈페이지 안에 들어 있는 웹페이지를 가져가는 것을 뜻하죠. 크롤러가 우리 홈페이지에 방문해서, 웹사이트를 복사해서 손에 들고, 구글 검색엔진에게 가져다줍니다. 그러면 구글 검색 엔진 이 새로운 페이지를 인지하고, 그 페이지에 이름을 붙여줍니다. 이 과정을 '색인'이라고 합니다. 색인이 되어야 구글 검색에서 검색이 되죠.
robots.txt 작업을 잘하면, 원하는 페이지만 검색엔진이 가져가도록 할 수 있습니다.
크롤러는 기본적으로 홈페이지에 들어오면 모든 정보를 다 가져갑니다. 홈페이지 안에 있는 모든 정보를 긁어서 검색엔진에게 가져다 주는 일이 크롤러가 해야하는 일이기 때문이죠. 가만히 놔두면 홈페이지 내에서 고객들의 정보까지도 검색 엔진에게 가져다 줘버릴지 모를 일이죠. 이런 일을 robots.txt 설정을 해놓으면 방지할 수 있습니다.
robots.txt 작업을 잘하면, 비효율성을 줄일 수 있습니다.
검색 엔진은 크롤링하기만 해도 에너지가 들어갑니다. 검색 엔진 입장에서는 크롤링을 적게 하고 많은 문서를 얻을 수 있으면 좋죠. 그래서 한 홈페이지마다 크롤링 에너지를 제한해서 제공하고 있습니다. 이 에너지를 쓸데 없는 페이지를 가져가는 곳에 쓰게 하면, 필요한 문서들은 가져가지도 않고 작업을 마칠수도 있죠. 그렇기 때문에 robots.txt 로 쓸데 없는 페이지를 못가져가게 만들어 놓으면, 더 효율적인 색인 작업을 진행할 수 있습니다.
robots.txt 작업을 잘하면, 사이트맵 의 위치를 알려줄 수 있습니다.
사이트 맵은 우리 홈페이지의 지도역할을 합니다. 링크들이 어떤 형식으로 퍼져있는지를 정리해놓은 지도이죠. 이 사이트 맵을 크롤링러가 가지고 홈페이지를 수색한다면 더 빠르고 정확하게 새로운 콘텐츠들을 수집해서 나갈 수 있게 됩니다.
robots.txt 파일에는 사이트맵이 어디있는지 위치를 적어넣을 수 있습니다. 크롤러는 홈페이지에 들어오자마자 robots.txt 부터 확인하는데, 거기에 사이트맵 주소가 적혀있으면 사이트 맵을 손에 쥐고 홈페이지를 둘러봅니다.
구글 공식 문서에서도, robots.txt 는 필요하지 않은 정보들은 차단해서 크롤러 트래픽을 관리할 수 있다고 설명하고 있죠.
robots.txt 만드는 방법
robots.txt 는 검색 엔진의 규정에 맞게 작성을 해주셔야 합니다.
robots.txt 를 만들 때는 가이드라인에 맞춰서 작성을 해주셔야 합니다. 컴퓨터가 인지할 수 있는 방식으로 써주지 않으면, 컴퓨터는 읽어낼 수 없기 때문이죠. 정확한 가이드라인은 구글 가이드라인에서 제시하고 있습니다. 여기에 적혀있는 내용을 보다 이해하기 쉽도록 작성해서 알려드리고, 사용하시기 편하도록 파일도 제공해드리겠습니다.
robots.txt 는 메모장으로 만드시면 됩니다.
이름에서도 알 수 있듯이 robots.txt 파일은 .txt 파일입니다. 메모장으로 저장했을 때, 기본적으로 저장되는 파일 형식이죠. 다른 복잡한 프로그램을 사용하실 필요 없이 메모장을 사용해주시면 됩니다.
robots.txt 기본 규칙
robots.txt 는 기본적으로 사람이 아닌 컴퓨터가 읽고 인식하는 파일입니다. 그렇기 때문에 정해진 형식과 문법에 따라서 만들어 주지 않으면 컴퓨터가 인식하지 못하게 됩니다. 가장 기본적인 문법은 다음과 같습니다.
User-agent: *
Disallow: /forbidden/
User agent 는 명령을 받을 대상을 적는 칸입니다.
홈페이지를 찾아오는 크롤러의 이름을 적어넣으면 됩니다. 위 처럼 User agent 에 * 을 쓰게 되면, 모든 크롤러에게 한번에 명령을 내리게 됩니다.
Disallow 는 출입 금지 구역을 설정합니다.
크롤러가 가져가서는 안되는 페이지를 여기에 작성해주시면 됩니다. 여기에 작성해주시는 폴더나 파일은 크롤러가 파악하고 접근을 하지 않습니다.
위의 robots.txt 는 모든 검색엔진에게 forbidden 폴더의 접근을 금지한다는 말이 됩니다.
robots.txt 심화 규칙
조금 더 자세히 들어가볼까요?
User agent 를 조금 더 디테일하게 다뤄봅시다.
크롤러는 각 검색엔진마다 고유한 이름을 가지고 있습니다. 그 이름을 작성해서 넣으면, 그 크롤러만 따로 명령을 받게 됩니다. 대표적인 서치 엔진인 구글, 네이버, 다음, 빙 의 크롤러 이름은 다음과 같습니다.
- 구글(Google) : Googlebot
- 네이버(Naver) : Yeti
- 다음(Daum) : Daum
- 빙(Bing) : Bingbot
만약에 빙 크롤러에게만 /forbidden/ 폴더 접근 금지 명령을 내리고 싶다면,
User-agent: Bingbot
Disallow: /forbidden/
이렇게 적어주시면 됩니다.
두가지 이상의 크롤러에게 명령을 내리려면 연달아서 적어주시면 됩니다.
만약에 빙과 다음 두개의 크롤러에게 /forbidden/ 폴더 접근 금지 명령을 내리고 싶다면,
User-agent: Bingbot
User-agent: Daum
Disallow: /forbidden/
이렇게 작성해주시면 됩니다. 쉽죠?
이번에는 Disallow 를 조금 더 자세히 다뤄봅시다.
Disallow 는 크롤링을 하지 말아야 할 폴더를 적어넣는 칸입니다. 크롤러는 기본적으로 홈페이지에 방문해서 모든 정보를 긁어갑니다. 우리가 설정해줘야 하는 것은 접근 금지 구역이죠. Disallow 는 접근 금지 구역을 설정할 수 있는 명령어입니다.
여기에는 폴더의 주소, 파일의 주소를 넣을 수 있습니다.
지금 제가 작성하고 있는 이 글의 주소는 다음과 같습니다.
https://loveca.tistory.com/entry/robots-txt
이 주소를 자세하게 뜯어보면, https://loveca.tistory.com 이런 티스토리 홈페이지 안에 /entry/ 라는 폴더가 있습니다. 그리고 robots-txt 라는 파일이 entry 폴더 안에 들어있는 것이죠. 홈페이지 안에는 여러가지 폴더가 있을 수 있고, 한 폴더 안에도 여러가지 파일들이 있을 수 있습니다.
Disallow 에는 폴더의 경로도 넣을 수 있고, 파일의 경로도 넣을 수 있습니다. 만약에 모든 크롤러에게 /entry/ 폴더에 접근을 금지하고 싶다면 다음과 같이 적으시면 됩니다.
User-agent: *
Disallow: /entry/
구체적으로 현제 이 글에만 접근을 금지하고 싶으시다면, 이렇게 적어주시면 됩니다.
User-agent: *
Disallow: /entry/robots-txt
그리고 추가적으로 여러 페이지에 접근을 금지하고 싶으시면, 여러줄로 적어주시면 됩니다.
User-agent: *
Disallow: /entry/robots-txt
Disallow: /entry/seo
robots.txt 심화 응용
이제 거의 다왔습니다. 여러개의 크롤러에게 여러개의 폴더나 파일을 접근 제한 하는 방법을 알아봅시다.
네이버와 구글에게 /entry-1/과 /entry-2/의 크롤링을 제한다면, 이렇게 적어주시면 됩니다.
User-agent: Yeti
User-agent: Googlebot
Disallow: /entry-1/
Disallow: /entry-2/
여기에 추가적으로 다음 크롤러에게는 /entry-3/ 폴더를 크롤링 제한하려면 다음 줄에 적어주시면 됩니다.
User-agent: Yeti
User-agent: Googlebot
Disallow: /entry-1/
Disallow: /entry-2/
User-agent: Daum
Disallow: /entry-3/
이제 어떻게 작성해야 하는지 감이 오시죠?
robots.txt 파일에 사이트맵 위치 넣기
그리고 마지막으로 robots.txt 에 사이트맵 의 주소를 넣어봅시다.
보통 사이트맵의 주소는 홈페이지 주소 뒤에 /sitemap.xml 을 치면 확인이 가능합니다. 이 티스토리의 사이트맵은 이렇게 생겼죠.
https://loveca.tistory.com/sitemap.xml
(플랫폼마다 사이트맵의 주소는 다를 수 있습니다. 먼저 자신의 사이트맵이 어디에 위치해있는지 확인부터 해주셔야합니다.)
만약에 아직 사이트맵이 없으신 상태라면, 제가 정리해놓은 사이트맵 만드는 방법 글이 있으니 확인해보시면 좋겠네요.
사이트맵 주소 삽입은 Sitemap: 뒤에 사이트맵 주소를 넣어서 작성해주시면 됩니다.
Sitemap: https://loveca.tistory.com/sitemap.xml
사이트맵 의 주소를 아셨다면, 이제 robots.txt 맨 아래 사이트맵 주소를 넣어주시면 됩니다.
User-agent: *
Disallow: /manage/
Sitemap: https://loveca.tistory.com/sitemap.xml
이렇게 작성하시면, 모든 크롤러에게 /manage/ 폴더는 접근 금지를 시키고, 사이트맵이 있으니 가져가라는 명령을 내리게 되는 것입니다.
이렇게 전부 작성하셨다면, 파일을 다른이름으로 저장을 눌러주시고, 반드시 파일 이름을 robots.txt 라고 저장해주세요. 만약에 파일을 업로드 한 이후에도 파일을 찾을 수 없는 경우 robots.txt 라는 이름으로 저장하지 않았을 수 있습니다.
작성하기 귀찮으시면, 아래 파일을 다운로드 받으셔서 사용하시면 되겠습니다.
robots.txt 홈페이지 업로드하는 방법
robots.txt 를 다 만드셨다면, 이제 홈페이지에 업로드를 해야합니다.
robots.txt 가 내 컴퓨터에만 있으면, 검색엔진이 확인할 수 없겠죠! 찾아오는 검색엔진이 robots.txt 를 확인하려면, 기본적으로 홈페이지에 업로드가 되어있어야 합니다.
그럼 홈페이지에 robots.txt 파일을 올려볼까요?
파일 업로드는 여러가지 방식으로 할 수 있지만, 대표적으로 파일질라(FileZilla)를 통해서 많이 합니다.
파일질라 홈페이지로 이동하셔서 왼쪽에 있는 파일을 다운로드 받고 진행하시면 됩니다.
프로그램을 실행해서, 일단 홈페이지에 접근해야합니다.
위쪽 화면을 보시면 호스트 , 사용자명 , 비밀번호 , 포트 그리고 빠른 연결 버튼이 있습니다.
호스트 : 접속할 곳의 아이피 혹은 주소 예) loveca.tistory.com
사용자명 : FTP 아이디 입력
비밀번호 : FTP 비밀번호 입력
포트 : FTP 접속 시 이용할 포트를 입력합니다. 입력하지 않을 시 기본포트(21)를 통해 연결합니다.
* 닷홈 웹호스팅은 기본포트(21)를 이용하여 연결합니다.
* sftp 접속 시 22 를 입력하시면 됩니다.
이렇게 입력하시면, 홈페이지에 연결이 됩니다.
홈페이지가 연결이 되셨다면, 홈페이지 메인 폴더에 사이트맵 을 올려주세요.
홈페이지 가장 상위 폴더에 사이트맵 을 넣어주셔야합니다. 그래야 검색 엔진 이 홈페이지에 오자마자 사이트맵 을 발견하고 들고갈 수 있습니다.
홈페이지 주소를 잘 살펴보시면, 폴더처럼 이루어져 있는 것을 보실 수 있습니다.
https://loveca.tistory.com/entry/seo
이런 주소가 있다고 생각해보시면, loveca.tistory.com 라는 커다란 폴더 안에 entry 라는 폴더가 있고, 그 안에 seo라는 문서가 있는 형식이죠.
사이트맵을 홈페이지 주소 바로 뒤에 붙어 있을 수 있도록 만들어 주셔야 합니다.
https://loveca.tistory.com/robots.txt
이런 형식이 되어야합니다.
robots.txt 업로드 잘 되었는지 확인하는 방법
파일까지 업로드가 끝나셨다면, 이제 홈페이지에 잘 설정이 되었는지 확인해보세요!
https://loveca.tistory.com/robots.txt
자신의 robots.txt 파일의 주소를 주소창에 입력해서 이동해보시면 됩니다.
주소창에 넣었을 때, 이런식으로 나오면, 잘 작업이 되신겁니다.
만약에 이렇게 나오지 않으셨다면, 이름을 잘 작성했는지와 폴더가 다른 곳에 들어가있는 것은 아닌지 확인해보세요!
robots.txt 검색 엔진에 제출하는 방법
robots.txt 는 따로 제출하실 필요 없습니다.
크롤러가 홈페이지에 찾아왔을 때, 먼저 robots.txt 가 있는지 확인부터하고 홈페이지를 돌아다니기 때문이죠. 위 과정대로 따라와서 잘 설정 되셨다면, 따로 검색엔진에 제출하실 필요는 없습니다.
✅ 다음 글
robots.txt 작업을 다 하셨다면, 이번엔 보안성을 갖춰봅시다!
이번에는 구글이 요즘 중요하게 생각하는 홈페이지 보안에 대해서 알아봅시다.
보안을 잘 갖추고 있어야, 기본적으로 괜찮은 기능들을 갖춘 사이트로 인정받을 수 있어요!
보안 설정이 무엇인지, 어떻게 하는지까지 하나씩 차근차근 알려드릴게요💕
(제작중입니다.)
이렇게만 따라하면,
'네이버, 구글 상위 노출' 할 수 있다?
현업 SEO 담당자가 알려주는 검색 상위 노출 로직을 확인해보세요!
SEO 최적화 를 하면, 검색 순위가올라갑니다! 2023년 기준 구글 검색을 했을 때, 90.63%의 사람이 1페이지를 벗어나지 않아요. 그리고 그 중에 31.7%는 1등의 글을 클릭하죠. 구글 의 검색시장 점유율이 높아지고 있는 상황에서, 구글 상위 노출 의 중요성은 점점 더 커져가고 있습니다.
'구글 상위 노출'을 하기 위해서는 전문적이고 많은 정보를 알아야 합니다. 구글 상위 노출 을 하기 위한 SEO 과정에는 수백가지의 기준이 있기 때문이죠. 그래서 카더라도 많고, SEO 를 해도 효과를 못 보시는 분들도 계시죠.
구글 상위 노출하러 가기 >
'네이버 상위 노출'은 영역별로 다른 전략을 취해야 합니다. 키워드마다 상위 노출하는 영역들이 다르고, 각 영역마다 상위 노출할 수 있는 전략이 다르기 때문이죠. 한 키워드에서 상위 노출을 하려면, 그 키워드에서 상위 노출하고 있는 영역 안에서 상위 노출해야합니다.
네이버 상위 노출하러 가기 >
현업 SEO 담당자가 전부 쉽게 알려드립니다. 네이버, 구글 SEO 는 어려운 정보들을 많이 포함하고 있습니다. 하지만 구글, 네이버 에서 직접 상위 노출 을 해본 SEO 담당자가 알려준다면 어떨까요? 각각의 커리큘럼에서 제가 천천히 따라만 오시면 다 이해하실 수 있도록 설명해 드리겠습니다😊
항상 도움이 되는 좋은 글만 드릴게요!😊
Sincerely yours,
구글 상위 노출 전문 마케터
LoveCA.
로베카가 운영하는 '네이버 블로그'가 궁금하시다면,
놀러오세요😊
추가로 궁금한 점은 댓글로 남겨주시고,
▼ 도움이 되셨다면 '하트'를 눌러주세요💕