국가대표 AI 1차 평가 논란 지속…과기정통부 "종합 평가·사전 합의" 해명

홈 뉴스 모아보기

26.01.20.

읽는시간 0분

(서울=연합인포맥스) 윤영숙 기자 = '국가대표 AI' 사업 1차 단계 평가 결과를 둘러싼 논란이 이어지는 가운데, 정부가 평가 방식의 공정성과 전문성을 강조하며 해명에 나섰다.

앞서 일부 언론은 혈세 약 2천억 원이 투입되는 대형 국가 AI 프로젝트의 평가가 허술하게 진행됐다고 지적하며 '주먹구구식 평가' 논란을 제기했다.

20일 과학기술정보통신부에 따르면 정부는 해당 보도가 사실과 다르다며 조목조목 반박했다.

과기정통부는 "5개 정예팀과 여러 차례 심층 논의를 거쳐 '독자 AI 파운데이션 모델' 프로젝트의 1차 단계 평가 방안과 기준을 세밀하게 마련했다"며, 평가가 즉흥적으로 이뤄졌다는 주장은 사실이 아니라고 밝혔다.

정부에 따르면 1차 단계 평가는 ▲벤치마크 평가 ▲전문가 평가 ▲사용자 평가를 결합해 AI 모델의 성능(AI Frontier Index)과 사용성·파급효과(AI Diffusion Index)를 종합적으로 판단하는 구조로 설계됐다.

블라인드 평가를 적용하지 않은 점에 대해서도, 이는 5개 정예팀과 사전에 합의된 사안이라고 밝혔다.

과기정통부는 "AI 사용 웹사이트 구조상 다양한 프롬프트 입력을 통해 기업명을 유추하는 것이 불가피하다고 판단했고, 안정적인 사용자 평가가 더 중요하다는 데 정예팀들이 동의했다"며, 각 팀이 구축한 평가 사이트에 직접 접속해 평가하는 방식으로 진행했다고 설명했다.

또한 사용자 평가 과정에서 기업 선입견이 아닌 'AI 모델 자체'를 중심으로 평가해 달라고 공식 안내했다고 강조했다. 시각적 디자인이나 편의 기능은 평가 대상에서 제외하고, 외부 검색 기능 등 도구 사용을 배제한 상태에서 AI 모델이 생성하는 콘텐츠의 내용과 품질에 평가를 집중하도록 세부 지침을 제공했다는 것이다.

과기정통부는 평가 방식 역시 상대평가가 아닌 절대평가였다고 밝혔다. 49명의 평가자는 각 팀의 웹사이트를 충분히 사용한 뒤, 팀별로 독립적인 점수를 부여했으며, 복수 팀에 동일한 점수를 주는 것도 가능했다. 이후 점수를 합산해 최종 결과를 산정했을 뿐, 1등부터 5등까지 순위를 매기는 방식은 아니었다는 설명이다.

정부는 "이번 평가는 단순 점수 부여가 아닌 입체적·다층적 평가"라며 "'주먹구구식 평가'라는 표현은 평가의 전문성과 공정성을 훼손하는 과도한 주장"이라고 밝혔다.

다만 1차 평가 결과를 둘러싼 논란이 계속되는 만큼, 향후 평가 과정의 투명성과 설명 책임을 어떻게 강화할지에도 관심이 쏠릴 것으로 보인다.

과기부, 독자AI 파운데이션 모델 프로젝트 1차 단계평가 결과 발표

[출처: 연합뉴스 자료사진]

ysyoon@yna.co.kr

윤영숙

ysyoon@yna.co.kr