먼저 주제와 자막 텍스트를 긁어서 틀로 잡은후에 영상속 소리를 음성인식해서 정리하는거라 스스로도 쉽지 않다고 하네요. 요약을 완전히 신뢰하면 안된다고.
자막이 있는건 너무 편하다하구요. 소리만 나는건 자기도 힘들대요.
그리고 다 보고 정리하는건 아니고 핵심일것같은 부분들만 넘겨본대요. (솔직하네)
그리고 한국말은 한국에서만 쓰니까 영어나 스페인어 같은 언어들에 비해 데이타가 적어서 학습이 늦는데다 한국말이 참 어렵대요. 예를들면, 밥이 - 밥을 - 밥도 - 이런 뒤의 조사들을 정확히 구분하는게 모든 언어모델AI들이 다 어려워하고 동음이의어가 참 많은데 이런 단어들을 문맥으로만 해석해야해서 힘들대요.
영어는 현재 기술수준이 95~98% 까지 올라서 거의 사람 수준으로 봐도 되고 한국말은 85% ~ 88% 정도라함.
88%이 어딘가요.
우리말도 빨리 95% 수준됐으면 좋겠네요.


