트렌드 큐레이션

[리뷰] '2017 WEB CONNECT DAY’'_네이버 검색, 그 한계에 도전하다

오픈애즈

2017.12.11 23:35
  • 2867
  • 콘텐츠에 ‘좋아’해줘서 고마워요 -
    0
  • 0

오픈애즈가 간다_리뷰


'2017 WEB CONNECT DAY'

네이버 검색, 그 한계에 도전하다

 

 

  2017 WEB CONNECT DAY 현장스케치

 

네이버는 한국 웹 문서가 척박했던 2000년대 초반부터 소비자들이 검색결과를 통해 질문을 하고 정보를 얻어가는 이 모든 행동들을 데이터화 시켜 원하는 정보를 빠르고 쉽게 찾을 수 있도록 노력하고 있습니다. 최근 네이버의 웹 검색 기술 본부에서 직접 현재의 검색 기술과 앞으로 검색 엔진의 변화에 대해 공유하는 자리를 마련하여 오픈애즈가 그 현장에 참석하였습니다.

최근에는 소비자가 원하는 검색결과 값을 잘 보여주기 위한 기술에 대한 이야기와 AI 기반의 웹 검색 기술 발전에 맞추어 시스템을 개선하고 딥러닝 기술을 강화시켜 개발에 힘쓰고 있다고 합니다. 네이버 콘텐츠만을 노출시킨다는 일종의 편견을 깨고 학술전문 자료 및 외국 사이트까지도 네이버 검색결과 창에서 노출이 잘 될수 있도록 연구를 이어가고 있다고 전했습니다. 사이트 운영에 도움이 될 만한 유익한 정보들을 공개하고 더 나아가 웹 표준화에 대한 당위성을 알려 한국 웹사이트 시장의 발전을 위해 노력할 것이라고 전했습니다.

 

  2017 WEB CONNECT DAY 순서

 

 

네이버에서 예측하는 생산된 소비와 소비될 콘텐츠

 

10년 전 구글에서 발표한 웹 수집 정보의 규모가 1조개였다면 현재는 전체 시장 100조 이상의 정보가 발생하고 있다고 추정하고 있습니다. 방대한 양의 정보가 노출되고 있기에 세상의 모든 인터넷 정보를 네이버 검색결과에 담을 수 없는 상황입니다.

네이버에서는 규모의 문제에 따라, 네이버의 지향성에 따라 '생산된 소비와 소비될 콘텐츠'를 예측하여(상위노출 로직) 유저가 만족하는 결과값을 보여주고자 개발에 힘쓰고 있습니다. 전체 웹 정보에서 원하는 정보를 필터링하여 검색결과를 노출 할 수 있도록 일정한 규칙을 만들어 검색결과의 품질을 개선하는 작업이 시행 중입니다.

 

 네이버(좌)와 구글(우) 검색 결과 : 동일한 키워드로 검색 시 세부페이지의 차이 발생
 

그에 따라 '검색등록 폐지', '웹마스터도구 신설', 검색결과 내 '웹 수집'을 신설하여 대한민국 웹 표준화를 위한 노력을 지속해왔습니다.

 

 

 

추후에는 사이트들의 웹 표준화를 실현시켜 세부페이지까지도 검색결과에서 노출될 수 있도록 시행 할 예정이라고 합니다. 검색등록 서비스를 통하여 자주 찾는 페이지를 노출시킬 수 있었는데요. 이와 같은 과정의 번거로움을 해소시키고자 네이버 봇이 소비자들이 자주 찾는 페이지를 스스로 확인하여 검색결과 창에 보여줄 예정이라고 합니다.

 

OPENTIP! 나의 사이트가 웹마스터도구에서 세부페이지들까지도 수집이 잘 될 수 있도록 점검하는 시간이 필요합니다.     관련 콘텐츠 보기 >

사이트 검색결과와 웹 수집의 통합을 통해 전체 채널에서의 결과 값을 고도화시켜 구글에서만 노출되던 세부페이지 내용도 검색하는 유저가 찾고자 하는 내용이라면 네이버 웹 수집을 통해 네이버 검색결과에서도 확인할 수 있게 된다고 합니다 .

2018년 상반기 공개를 목표로 기술 개발을 진행하고 있다고 하니 적응하기 위한 노력이 필요하더라도 본질 개선을 위해 검색등록은 이제 추억 속으로 남겨두어야 할 것 같습니다.

 

 각 탭을 선택하여 기존처럼 사이트와 웹 수집 결과 값을 확인할 수 있으며 차후 통폐합 될 예정

 

 

웹 검색과 랭킹

 

2016년과 2017년에는 딥러닝 방식으로 콘텐츠에 대한 품질지수를 부과하여 노출량을 조절한 'C-Rank'의 시대였습니다. 2017년 네이버는 주제별 출처의 신뢰도와 인기도를 반영하는 C-Rank 알고리즘을 도입하였는데요. 이 날 C-Rank를 도입하면서 상위노출로 얼룩진 통합검색을 정상적으로 돌려놓고 콘텐츠의 질을 높였다고 평가하였습니다. 그 중에서도 C-Rank 알고리즘은 출처(저자)뿐 만 아니라 문서 단위까지 신뢰도/선호도 등을 파악하고 있으며 딥러닝 기술을 도입해 시너지를 높이고 있습니다. 이러한 노출 방식을 2017년 2분기 중 '네이버 카페/지식인'에도 적용하여 점차 그 범위를 넓혀가고 있습니다.

 

C-Rank에서의 딥러닝 문서 수집 방법

▶ 문서의 스팸 단어 저품질(성인, 도박, 욕설 등)

▶ 문법 분석

▶ 질문자의 문서 내 중요 단어 추출(정보량에 기초하여 품질지수 부과)

네이버 검색은 '검색 이용자가 만족할 수 있는' 결과 값을 제공하기 위해 'C-Rank'의 도입과 네이버 검색 알고리즘을 지속적으로 개선하고 발전시켜 왔습니다. 기존 콘텐츠에 대한 품질과 사용자의 니즈에 맞춘 검색결과 값 제공으로 스팸문서를 거르고 콘텐츠에 대한 점수 값을 부과하여 순위를 매겨 노출시키는 방식으로 검색 문서에 품질을 높이고 노출 경쟁에서의 공정성을 강조시켰습니다.

 

AD curator! 함께 보면 좋은 콘텐츠, 네이버 C-Rank 편

 

콘텐츠 시대, 네이버가 알려주는 웹 검색 공략

2016년과 2017년에 딥러닝 방식으로 콘텐츠에 대한 품질지수를 부과하여 노출량을 조절하였다면 2018년의 경우 콘텐츠 품질 및 정보량에 기초하여 품질지수를

부과할 계획이라고 합니다. 웹 수집 이미지에 대해서도 확장하여 노출 기회를 확장시키고 다변화에 연계되는 노출 로직을 신설할 예정이라고 하는데요.

​이에 따른 적절한 정책 수립과 고도의 기술 개발이 필요한 상황으로 의미 있는 검색 서비스를 도입한다고 하니 찾는 방법이 달라져도 좋은 검색 결과를 보여주기 위한 노력을 게을리 하지 않겠다는 다짐으로 보여집니다.

 

 네이버 이미지 검색 추가(Smart Lens) ▶ 웹 수집 이미지의 확대 'P 랭크' 도입

 

그렇다면 우리가 흔히 이야기 하는 네이버 상위 노출 로직, 네이버에서는 그 로직을 어떻게 설정해 놓았을까요? 

 

네이버 상위 노출을 위한 가이드 작업 예시 

▼ 네이버가 지향하는 좋은 검색 결과

▼ 검색평가 가이드 라인

▼ 가이드에 따른 평가

▼ 학습용 데이터 집합

▼ 엔지니어들의 시그널 발굴

▶ 실험 데이터 생성 및 기계학습실행 → A/B 테스트 진행

= 서비스 적용 검토

가이드 예시처럼 하나의 가이드가 설정되고 다른 기준의 수 많은 가이드들이 모여 우리가 흔히 말하는 '상위노출 로직'이 만들어 지고 있습니다. 과정에서 세부적으로 다루고 있는 내용들은 질적으로 성장된 콘텐츠에 힘을 실어주고, 콘텐츠가 등록이 되어 있는 사이트의 품질까지도 검토하겠다는 이야기였으며 추가적으로 사이트 품질의 경우 신뢰성이 높은 사이트를 중점으로 양적으로 게재 빈도와 외부에서 노출되는 링크 텍스트를 포함하여 폭넓게 검토한다고 하니 사이트에 대한 외부의 반응 또한 중요하다는 것을 알 수 있었습니다.

 

2017년은 네이버 검색 결과 수집을 위해 개발자들이 노력한 한 해 였다면 2018년에는 검색 결과 품질 개선을 위해 기술 개발 및 향후 방향성 등을 공유할 수 있는 자리를 지속적으로 만들고 나아가 웹 표준에 대한 인식을 개선시켜 대한민국 웹 표준 준수 사이트가 더 많이 생성될 수 있도록 노력할 예정이라고 합니다.

 

 

 

ㅣ작가 소개  NHN AD 이보영 매니저(sea250@nhnent.com)

 

 

  • #웹수집
  • #웹마스터도구
  • #사이트 최적화 점검
  • #네이버
  • #오픈 컬럼