본문 바로가기
  • think normal
기획 노트/제품에 대한 소고

ML overfitting에 대한 일상에서의 소고

by 청춘만화 2022. 12. 13.
흄은 로크가 시작한 경험주의적 사고 체계를 경험주의가 논리적으로 귀결되는 결론까지 이끌었고 가장 사소한 지식에서 가장 진보한 지 식까지 모든 지식 위에 아직도 다모클레스의 칼처럼 매달려 있는 질문을 제기했다. '우리가 본 것에서 시작한 일반화를 보지 못한 것까지 적용 하는 일을 어떻게 정당화할 수 있는가?' 모든 머신러닝은 이 질문에 답하려는 시도라 할 수 있다.
- 마스터알고리즘 115p


흄이 제기한 한 곳에서 얻은 일반화를 다른 곳에도 적용될 수 있다는 보장은 없다-라는 질문에 대해 돌이켜 생각해보면, 머신러닝에서 과적합overfitting은 현실에서, 좋게 말하면 '문화, 상식, 가치관', 이를 보다 날카롭게 빗대어 말하면 '사회통념, 선입견이나 편견'이 아닌가- 하는 생각을 해본다

어쩌면 확증편향과 성급한 일반화의 오류는 도처에 널려있다. 단지 그 속성과 구간, 상황과 입장이 다를 뿐이다.
어쩌면 인간의 지능을 모사하는 기술을 개발하는 과정에서 인간의 성향과 닮은 과적합 현상의 발생은 자연스러운 일이 아닌가 생각된다.
그렇다면 인간적인 속성과 비인간적인 속성 그 사이 구간에서 과적합이 대한 답을 찾을 수 있지 않을까?


세상에 공짜는 없다'라는 정리의 실질적인 결론은 '지식이 없는 학습 같은 것은 없다'이다. 데이터만으로는 충분하지 않다. 무에서 출발하면 다만 무에 도달할 뿐이다. 머신러닝은 지식 펌프 knowledge pump 여서 데이 터를 통해 많은 지식을 끄집어낼 수 있지만 그러기 위해서는 먼저 펌프 에 마중물을 부어야 한다.

머신러닝은 수학자가 '불량 조건 문제' ill-posted problem라 부르는 것으로 여러 개의 해답만 존재할 수 있는 문제다.
- 마스터알고리즘 122p
기호주의자의 선두주자 격인 톰 미첼 Tom Mitchell은 이것을 '치우침 없는 학습의 무용함the futility of bias-free learning이라 부른다.
일상생활에서 '치우침'은 경멸적인 단어다. 선입견은 나쁘다. 하지만 머신러닝에서 선입견 은 없어서는 안 된다. 선입견 없이는 학습이 불가능하다. 사실 선입견은 인간의 인식 기능에도 없어서는 안되는데, 인간은 이미 두뇌 회로로 짜여 있고 우리는 선입견을 당연한 사실로 받아들인다. 의심할 만한 편견하고는 차원이 다른 편견이다.

아리스토텔레스는 지적 세계에서 감각으로 먼저 감지되지 않는 부분 은 없다고 주장했다. 라이프니츠는 '여기에서 지성 자체는 제외한다'는 말을 덧붙였다. 인간의 두뇌가 텅 빈 석판이 아닌 까닭은 두뇌가 석판과 똑같지 않기 때문이다.

인간(의 두뇌)에게도 선입견이 중요한 이유는, 그리고 그것이 의심할만한 편견과 다른 편견인 까닭은 판단이 전에 인식하는(할 수 있는) 지표가 필요하기 때문이다. 이를테면 자 ruler에 있는 cm 또는 inch와 같은 역할을 한다고 볼 수 있을 것 같다. 일종의 사고의 프레임이다. 다만 앞서말한 편견과 다른 편견이라 말할 수 있는 까닭은 사고의 프레임이 갖고 있는 길이의 규격이 쉽지는 않겠지만 상당히 가변적인 속성을 포함하기 때문이다.

자신이 보유하고 있는 속성에 맞는 인식의 구간을 확보하는 것이 핵심이 아닐까 하는 생각을 해본다. 사실 이런 속성은 비단 인간과 인공지능만의 이슈가 아니다. 빛, 라이다, 촉감, 파동(장) 등 의 일종의 규격은 저마다의 구간을 전제로 속성이 발현(측정)된다. 이러한 속성을 인식하고 적응하는 생명체들은 자신만의 차원에서 본인이 보유한 속성(센싱능력, 대응능력)에 맞춰 더듬더듬 움직이며 생존할 수 있는 것이 아닐까?
다만, 매 순간 인식하고 판단할 수 없다. 인간만해도 두뇌를 사용할때 가장 큰? 에너지 소비가 일어나기 때문에, 자기 신체적 정신적 조건에 따른 인식( 단위, 프레임)의 구간을 정의하고 그 구간에서의 패턴을 학습( 관찰, 경험,지식)하게 된다. 그리고 그 제한된 구간 안에서 검증된 자신만의 의사결정 패턴을 통해 최소한의 인식과 판단으로 최대의 효과를 보장할 수 있을 것으로 추정하는 루틴(관성)을 구성하게 된다. 그리고 그 구간의 무대가 만약 규범이면 문화, 그 구간이 생활습관이면 취향.. 등으로 각기다른 기호로 명명되고 다시 새로운 단위로 사용되고 있는 것이 아닐까 하는 생각을 해본다.


댓글