구글, 뉴스검색 다양성 네이버·다음보다 높아... 한국방송학회서 발표

뉴스검색엔진의 소스와 내용다양성

구글 높고 네이버 다음 상대적으로 낮아

💡
· 4월 19일 방송학회 봄철 정기학술대회에서 발표
· 건국대 황용석 교수 연구팀, 뉴스검색엔진 다양성 비교 연구위해 6개월간 78개 검색질의어 입력해 나온 기사를 머신러닝 기법으로 분석
 - 국내 뉴스검색엔진들 좌우편향 문제가 아닌 검색 다양성과 통신사 의존이 문제
 - 이해관계자 갈등 규제압력이 중립적 통신사 기사 노출에 영향 미쳤을 수도
 - 보다 개방적이고 다양한 뉴스 검색환경을 위한 점검 필요

국내 뉴스검색엔진의 다양성 수준이 구글보다 낮은 것으로 나타났다. 건국대 황용석 교수(미디어커뮤니케이션학과) 연구팀이 4월19일 한국한국방송학회(회장, 전범수) 봄철정기학술대회에서 발표한 “뉴스검색엔진을 통한 뉴스 소스 및 내용 다양성 평가” 연구에 따르면, 구글이 가장 많은 수의 언론사와 다양한 기사를 검색결과에 노출했다. 반면, 네이버와 다음은 상대적으로 재현되는 언론사 수가 적었고 통신3사 기사의 비중이 높았으며 기사간 내용 다양성도 낮게 나타났다.

연구팀은 뉴스검색결과의 다양성을 측정하기 위해 6개월에 걸쳐 그 시기 대표적인 사안과관련된 78개의 검색 질의어를 입력한 후, 결과로 나온 상위30개 기사들을 수집해 총 7.020개의 기사를 분석했다. 이 분석을 위해 연구팀은 다양성 지수(매트릭스)와 머신러닝 기법을사용해서 소스(언론사)와 내용(기사 본문)의 다양성을 분석했다.

상위 30개 순위 안에 노출된 언론사 수, 큰 폭으로 차이나

뉴스 검색엔진이 얼마나 많은 언론사를 검색결과 상위 30위에 분포시키는 가를 분석한 결
과, 구글은 358개 언론사를 노출한 반면, 네이버는 223개, 다음은 103개로 큰 폭의 차이를
보였다. 검색질의어를 5개 토픽별로 구분해서 분석할 때도 비슷한 결과가 나타났다. 정치토
픽의 경우 네이버는 86개, 다음은 58개, 구글은 131개 언론사가 검색결과 배열순위 30위 안
에 포함되었다. 검색결과에 많이 노출된 상위 10개 언론사의 누적 점유율(CR10)을 보면, 네
이버가 40.77%로 가장 높았고, 다음은 40.51%, 구글은 34.06%로 가장 낮았다. CR10이 높
다는 의미는, 상위 10개 언론사의 검색 점유율의 집중 수준이 높은 반면, 다양성은 떨어진다
는 것을 의미한다.

<표1> 78개 검색 질의어에 대해 검색결과 배열순위 30위 안에 노출된 언론사 수

네이버와 다음, 3대 통신사 기사 점유율 높아

특징적인 점은 네이버와 다음의 경우 통신사의 비중이 절대적으로 높다는 점이다. 네이버의 상위3개 언론사가 모두 통신사였고 그 점유율은 22.91%였다. 다음은 22.78%였다. 이들 두 뉴스검색엔진의 결과에는 국내 대표적인 보수-진보 신문사들이 10안에 포함되지 않았다. 구글은 통신사 중에는 연합뉴스만 4.66%로 상위 10위안에 포함됐다. 구글의 경우 여러 뉴스소스를 제공하는 네이트뉴스가 3.50%를 나타내 앞의 두 검색엔진과 달리 이를 독립된 뉴스소스로 다루고 있었다.

<표2> 네이버, 다음, 구글 뉴스검색에 노출빈도가 높은 상위 10개 언론사와 이들의 합산 점유율(CR10) (노란색은 통신사)

네이버와 다음의 통신사 기사의 점유율이 높은 것과 관련해, 황용석 교수는 “언론사별로 제작되는 기사량의 차이, 뉴스 검색제휴와 같은 계약기반 서비스 등 공급구조가 1차적으로 영향을 미쳤을 것이다. 그러나 통신3사의 점유율이 높은 것은 이들 두 검색엔진의 알고리즘이 이념적 대립이 큰 언론사보다는 사실중심의 중립적인 통신사에 더 높은 비중을 둔다는 것을 의미한다. 이 같은 결과는 정치권에서 네이버와 다음의 검색배열이 ‘정치적으로 편향’되어 있다고 비판했던 것과는 거리가 있는 것이다. 오히려 중립적인 통신사 의존도가 높아 다양성이 부족한 것이 문제임을 확인해준다”고 밝혔다.

한편, 검색 질의어 토픽별로 구분해서보면 다음과 같다.  상위 10개 언론사의 누적점유율(CR10)은 다음, 네이버, 구글 순으로 높았다. 네이버는 정치 토픽에서 47.78%, 경제에서는 45.34%, 사회에서는 46.30%, 라이프스타일/문화에서는 44.22%, 엔터테인먼트/스포츠에서는 43.58%의 CR10 점유율을 보였다. 다음은 정치 토픽에서 57.41%, 경제에서 55.67%, 사회에서 48.70%, 라이프스타일/문화에서 50.33%, 엔터테인먼트/스포츠에서 51.77%로, 3개 검색엔진 중에 가장 높은 의존도를 보였다.

구글은 정치 토픽에서 상위 10개 뉴스 소스의 점유율은 42.96%로 나타났으며, 경제는 41.11%, 사회는 39.88%, 라이프스타일/문화는 38.77%, 엔터테인먼트/스포츠는 40.92%로 상대적으로 낮아서 앞의 두 검색엔진보다 다양한 뉴스 소스를 제공했다.

<표2> 검색어 주제 영역별 상위 10개 언론사의 합산 점유율(CR10)

다양성 지수(매트릭스) 분석에서도 구글, 네이버, 다음 순으로 보다 다양한 것으로 나타나

한편, 연구진은 다양성을 측정하는 허핀달-허쉬만 지수(Herfindahl-Hirschman Index, HHI), 심슨의 다양성 지수(Simpson's Diversity Index, SDI), 샤논 다양성 지수(Shannon Diversity Index, SHDI), 블라우 지수(Blau's Index)를 이용해서 3개 검색엔진의 다양성 수준을 진단했다.

이들 모든 지수 값에서 3개 검색엔진들은 집중 상태로 판단되지 않았다. 즉, 검색결과에 노출된 언론사들의 분포가 다양한 상태임이 연구결과에서 확인됐다. 그러나 검색엔진간의 비교를 했을 때에는 상위10개 언론사의 분포와 같은 패턴으로 구글, 네이버, 다음의 순서로 다양성이 높은 것으로 나타났다.

<표3> 검색엔진간 다양성 지수 비교

검색결과로 추출된 기사들간의 내용의 다양성도 구글이 높아

연구진은 검색 질의어별로 추출된 30개의 기사들의 내용이 얼마나 유사한가를 머신러닝 기법으로 분석했다. OpenAI Embeddings API를 이용해서 개별 기사들간의 문서 유사성을 계산해서 ‘내용 다양성 지수’를 산출했다.

내용 다양성 지수는 기사가 어느 언론사에서 작성되었는가와 무관하게, 기사의 텍스트 내용이 얼마나 유사한가를 측정한 것이다. 분석결과를 보면, 구글의 검색결과가 모든 토픽에서 내용 다양성, 즉 기사들간의 내용 차이가 더 많아서 내용다양성 지수가 더 높았다. 네이버와 다음은 서로 비슷한 점수를 보였다.

이는 언론사 소스 다양성이 높으면, 내용 다양성도 높다는 것을 의미한다. 검색엔진이 더 다양한 언론사 기사를 검색결과에서 제공하면, 그 기사들의 내용의 차이가 더 넓어져서 이용자들에게 더 다양한 주제, 관점, 내용 등을 제공해 줄 수 있다는 것을 가정할 수 있다.

<표4> 검색어 토픽별 내용다양성 지수 (높을수록 다양성이 높음)

다양한 소스와 품질의 정보에 접근할 수 있어야. 검색엔진에 과도한 규범 압력이 다양성 훼손시켜

연구진은 이번 연구결과를 해석함에 있어 주의가 필요하다고도 말했다. 이 연구는 검색결과로 나타나는 뉴스의 품질이나 공정성을 분석한 것은 아니다. 얼마나 다양한 뉴스가 결과로 재현되는가를 본 것으로 그 자체로 검색엔진의 성능이나 품질을 평가해서는 안된다고 강조했다. 그럼에도 많은 뉴스가 검색엔진을 통해 유통되고 소비된다는 점에서 검색결과의 다양성이 매우 중요하다는 점은 이번 연구 데이터로도 확인된다.

황용석 교수는 구글과 비교해서 네이버와 다음의 다양성이 떨어지는 것은 일차적으로는 뉴스 공급방식에 있을 것으로 추정했다. 네이버와 다음은 뉴스제휴평가위원회를 통해서 계약된 언론사의 뉴스만 제공하기 때문에 공급되는 언론사의 모수가 적다. 통신사 기사 비율이 높은 것은 보수-진보 편향 논쟁에서 멀어지려는 양사의 서비스 정책이 직간접적으로 알고리즘에 반영된 것일 수 있다.

이번 연구결과는 한국의 대표적인 뉴스검색엔진들이 소스와 내용 모든 측면에서 다양성을 확대하기 위해 스스로 서비스를 점검할 필요가 있음을 보여줬다. 황교수는 “검색엔진은 서로 다른 다양한 정보에 접근할 수 있게 해주는 ‘정보 접근성’이 가장 중요한 기능이다. 그럼에도 우리 사회가 지나치게 검색엔진에 정치적 불편부당성을 요구하고 높은 품질의 정보를 재현하도록 규범압력을 가하고 있다. 그로 인해 검색알고리즘의 공정성에 부정적인 결과를 낳을 수도 있음을 이번 연구결과로 추론할 수 있다. 소수 또는 신생 언론사가 노출될 확률이 낮아져 이들 매체들이 공중에 접근하는 경로가 제한되는 부작용이 발생할 수 있다. 공정성의 하위 개념 중 하나인 다양성이 낮아진 것은 이미 연구 데이터에서도 확인되고 있기 때문이다다”고 말했다.

연구진들은 이 연구결과를 반영해서 국내 검색엔진들이 다양성 수준을 점건하는 노력을 당부하는 한편, 과도한 규범압력을 가하는 정치권 및 이해관계자들의 인식전환이 동시에 요구했다.

이하 요약 참조


발표문 요약

[참여 연구진]

☐ 논문명:
뉴스 검색 엔진을 통한 뉴스 소스 및 내용의 다양성 평가: 다양성 지표와 임베딩 기반 콘텐츠 유사성 측정 방법
☐ 참여연구진
황용석(건국대 미디어커뮤니케이션학과 교수), 오장민(성신여대 AI융합학부 부교수), 신민호·김의환·박경서(건국대학교 대학원 미디어커뮤니케이션학과 석사과정)

[발표문 주요 요약]

☐ 검색엔진, 소스 및 내용 다양성이 낮을 때 우려되는 점

  • 다양성이 상대적으로 낮은 네이버와 다음의 경우, 품질을 평가해서 진행하는 계약형 뉴스 검색의 특성과 한계점을 반영
  • 뉴스기사의 품질 관점에서 보다 신뢰성이 높을 수 있으나 다양한 정보에 접근하게 하는 검색의 본원적 기능을 고려할 때, 이 같은 방식은 다음과 같은 문제가 우려됨
    • 마이너 또는 소수 매체의 접근 기회 제한
    • 다양한 갈등 사안에 대해 '외적 다양성’(검색결과에서 여러 관점의 매체를 높은 순서에서 썩어 제공하는 것)을 낮추고 권위가 있거나 덜 논쟁적인 통신사를 높은 빈도로 노출해 이용자의 선택 다양성에 부정적인 영향을 미칠 수 있음
  • 통신사 3사에 대한 과도한 노출 비중은 매체 시장의 종적 다양성을 반영하지 못해 시장 경쟁 관점에서도 부정적인 결과를 낳을 수 있음
    • 네이버의 상위3개 언론사가 모두 통신사였고 그 점유율은 22.91%이었고 다음은 22.78%였다.
    • 구글은 연합뉴스 4.66%만이 상위 10위에 포함 다만, 구글의 경우 여러 뉴스소스를 제공하는 네이트뉴스가 3.50%를 나타내 앞의 두 검색엔진과 달리 독립된 뉴스소스로 이를 다루고 있었다.

☐ 국내 검색엔진, 이념적 편향이 아닌 특정 소스에 대한 과의존 편향이 문제

  • 정치권과 이해관계집단, 그리고 언론사들의 규범 압력이 알고리즘에 영향을 미쳤을 수 있음
    • 네이버와 다음의 뉴스검색이 정치적으로 편향되었다는 비판을 진보와 보수 양 측으로 부터 받아 왔음
    • 네이버의 뉴스 검색 편향과 관련해 방송통신위원회가 조사 중인 상황
  • 높은 규제 및 규범 압력 속에, 네이버와 다음 뉴스 검색의 문제점은 좌우 이념편향이 아니라 이념을 지양하기 위해 3대 통신사에 높은 가중을 부여하는 것으로 추정
    • 개별 특정 신문사 및 방송사의 과점 등은 실험자료에서 3개 검색엔진 모두에서 확인되고 지 않음

☐ 네이버와 구글, 클러스터링 알고리즘 적용해 검색 결과의 관점 편중이 낮음

  • 검색결과에서 클러스터링 알고리즘은 같은 토픽(문서유사도에 기반)의 뉴스 기사를 묶어서 제공함에 따라 보수와 진보 등 다양한 매체가 함께 제공
  • 구글의 경우, 주요 언론사들의 점유율이 상대적으로 균등 배분되고 있으며, 개인화 알고리즘도 접목

☐ 검색 다양성 증진을 위한 제언

  • 검색 다양성(search diversity)은 검색 결과가 얼마나 다양한 주제와 관점을 포괄하는지를 의미
  • 이는 특정 쟁점에 대해 풍부하고 균형 잡힌 정보를 제공함으로써 이용자의 종합적 이해를 돕는 것을 목적으로 함(Draws et al., 2021; Singh & Joachims, 2018)
    • 포용성(Inclusiveness): 모든 출처의 의견과 관점이 검색 결과에 반영되어야 함
  • 검색 다양성은 뉴스의 공급 다양성(supply diversity)과 이용자의 노출 다양성(exposure diversity) 사슬구조
  • 이용자의 선택 기회를 넓히고 보다 다양한 정보가 유통될 수 있도록 해서 다원적 의견형성과 정보의 경쟁적 환경을 조성하는 데 기여
  • 국내 뉴스검색 엔진은 보다 검색 다양성 증진에 노력할 필요가 있음
  • cf) 검색 다양성은 검색 공(비편향과 투명성, 책무)의 한 차원으로 분류되기도 함

관련 기사
포털 뉴스 편향? 네이버 뉴스 통신3社 점유율 22.91%
[서울=뉴시스]최은수 기자 = 정치적 편향성 지적이 꾸준히 제기된 국내 포털 사이트 네이버와 다음의 뉴스 검색 결과, 중립 성향의 통신 3사 기사 비중이 높은 것으로 나타났다
뉴스 검색 언론 노출, 구글 358개·네이버 223개·다음 103개
국내 뉴스검색엔진인 네이버와 다음의 다양성이 구글보다 낮은 것으로 나타났다. 구글과 네이버, 다음에서 각각 6개월간 78개 검색질의어를 입력해 나온 상위 30개 언론사를 분석한 결과 구글은 358개, 네이버는 223개, 다음은 103개의 언론사를 보여줬다.네이버와 다음이 가장 많이 보여주는 상위 3개 언론사는 모두 통신사(연합뉴스·뉴스1·뉴시스)로 드러났다. 상위 10개 노출 언론사에는 국내의 대표적인 진보·보수 언론이 없었다. 이는 네이버와 다음에 지속적으로 제기된 좌우 편향 문제가 실은 심각하지 않으며, 오히려 통신사 의존이 다

이 논문은 2023년 구글의 학술연구 후원을 받아 진행되었습니다. 연구는 독립적으로 진행되었습니다.
This study received sponsorship from Google's academic research program 2023. The research was conducted independently.