본문으로 이동

언어 모델

위키백과, 우리 모두의 백과사전.

언어 모델(language model) 또는 언어 모형자연어를 생성하는 인간 두뇌 능력의 모델이다.[1][2] 언어 모델은 음성 인식,[3] 기계 번역,[4] 자연어 생성(인간과 더 유사한 텍스트 생성), 광학 문자 인식, 경로 최적화,[5] 필기 인식,[6] 문법 추론,[7]정보 검색을 포함한 다양한 작업에 유용하다.[8][9]

현재 가장 발전된 형태인 대형 언어 모델(LLM)은 주로 더 큰 데이터셋(종종 공용 인터넷에서 스크래핑된 단어 사용)에서 훈련된 트랜스포머를 기반으로 한다. 이들은 이전에 워드 n-그램 언어 모델과 같은 순수 통계 모델을 대체했던 순환 신경망 기반 모델들을 능가했다.

언어 모델은 주어진 텍스트 시퀀스의 확률을 추정하거나 다음 토큰을 예측함으로써 자연어를 이해·생성하는 확률 모델이다.[10] 이 정의는 통계적 n‑gram 모델부터 현재의 딥 러닝 기반 모델까지를 포괄한다.[11] 언어 모델은 음성 인식·기계 번역·자연어 생성·광학 문자 인식·필기 인식·문법 추론·정보 검색 등 다양한 자연어 처리 작업에 활용된다.[12] 특히, 대형 언어 모델은 few‑shot·zero‑shot 설정에서 질의응답·요약·번역·코드 생성 등 광범위한 태스크를 별도 미세조정 없이 수행한다는 것이 입증되었다.[13] 현재 가장 발전된 형태인 대형 언어 모델(LLM) 은 수백억 ~ 수천억 개 토큰 규모의 인터넷‑크롤링 데이터(예: Common Crawl, The Pile)와 Transformer 아키텍처를 기반으로 학습된다.[14] Transformer 기반은 *Attention Is All You Need* 논문(2017)에서 제안된 self‑attention 메커니즘을 핵심으로 하며, 이는 순환·합성곱 기반 모델을 병렬 처리와 스케일링 면에서 크게 앞선다.[15] 또한, 스케일링 법칙에 따라 모델 파라미터·데이터·연산량을 동시에 확대하면 성능이 예측 가능하게 향상된다는 결과가 보고되었다.[16] 이러한 특성 덕분에 LLM은 기존의 워드 n‑gram·RNN 기반 모델을 능가하며, 다양한 downstream 작업을 별도 미세조정 없이도 수행할 수 있다.[17]

역사

[편집]

노엄 촘스키는 1950년대에 형식 문법 이론을 개발하여 언어 모델에 대한 선구적인 작업을 수행했다.[18]

1980년에는 통계적 접근 방식이 탐구되어 규칙 기반 형식 문법보다 많은 목적에 더 유용하다는 것이 밝혀졌다. 단어의 이산적 조합에 대한 확률을 가진 워드 n-그램 언어 모델과 같은 이산적 표현은 상당한 발전을 이루었다.

2000년대에는 워드 임베딩과 같은 단어의 연속 표현이 이산 표현을 대체하기 시작했다.[19] 일반적으로 표현은 실수값 벡터이며, 이 벡터는 단어의 의미를 벡터 공간에서 더 가까운 단어들이 의미상 유사할 것으로 예상되는 방식으로, 그리고 복수형이나 성별과 같은 단어 쌍 간의 일반적인 관계를 인코딩한다.

순수 통계 모델

[편집]

1980년에 최초의 중요한 통계적 언어 모델이 제안되었고, 10년 동안 IBM은 '섀넌 스타일' 실험을 수행하여 인간 피험자가 텍스트를 예측하거나 수정하는 성능을 관찰하고 분석하여 언어 모델링 개선의 잠재적 원인을 식별했다.[20]

워드 N-그램 기반 모델

[편집]

지수형

[편집]

최대 엔트로피 언어 모델은 특징 함수를 사용하여 단어와 n-그램 기록 간의 관계를 인코딩한다. 방정식은 다음과 같다.

여기서 분배 함수, 는 매개변수 벡터, 는 특징 함수이다. 가장 간단한 경우, 특징 함수는 특정 n-그램의 존재 여부를 나타내는 지표일 뿐이다. 에 대한 사전 또는 어떤 형태의 정칙화를 사용하는 것이 도움이 된다.

로그-이선형 모델은 지수형 언어 모델의 또 다른 예이다.

스킵-그램 모델

[편집]

신경 모델

[편집]

순환 신경망

[편집]

연속 표현 또는 단어 임베딩순환 신경망 기반 언어 모델(연속 공간 언어 모델로도 알려져 있음)에서 생성된다.[21] 이러한 연속 공간 임베딩은 어휘 크기에 따라 가능한 단어 시퀀스의 수가 기하급수적으로 증가하여 데이터 희소성 문제를 야기하는 차원의 저주를 완화하는 데 도움이 된다. 신경망은 단어를 신경망의 가중치 비선형 조합으로 표현함으로써 이 문제를 피한다.[22]

대형 언어 모델

[편집]

ẋẲ기울인 글씨

대형 언어 모델(영어: large language model, LLM)[23] 또는 거대 언어 모델(巨大言語 - )[24]은 수많은 파라미터(보통 수십억 웨이트 이상)를 보유한 인공 신경망으로 구성되는 언어 모델이다. 자기 지도 학습이나 반자기지도학습을 사용하여 레이블링되지 않은 상당한 양의 텍스트로 훈련된다.[25] LLM은 2018년 즈음에 모습을 드러냈으며 다양한 작업을 위해 수행된다. 이전의 특정 작업의 특수한 지도 학습 모델의 훈련 패러다임에서 벗어나 자연어 처리 연구로 초점이 옮겨졌다.

때로는 인간의 성능과 일치하지만, 이들이 타당한 인지 모델인지 여부는 불분명하다. 적어도 순환 신경망의 경우, 인간은 배우지 못하는 패턴을 때때로 학습하지만, 인간이 일반적으로 학습하는 패턴은 학습하지 못하는 것으로 나타났다.[26]

평가 및 벤치마크

[편집]

언어 모델의 품질 평가는 주로 일반적인 언어 중심 작업에서 인간이 생성한 샘플 벤치마크와의 비교를 통해 이루어진다. 덜 확립된 다른 품질 테스트는 언어 모델의 내재적 특성을 검사하거나 두 모델을 비교한다. 언어 모델은 일반적으로 동적이고 자신이 보는 데이터로부터 학습하도록 의도되므로, 일부 제안된 모델은 학습 곡선 검토 등을 통해 학습 속도를 조사한다.[27]

언어 처리 시스템 평가에 사용하기 위해 다양한 데이터 세트가 개발되었다.[28] 여기에는 다음이 포함된다.

  • 대규모 다중 작업 언어 이해(Massive Multitask Language Understanding, MMLU)[29]
  • 언어 수용성 말뭉치[30]
  • GLUE 벤치마크[31]
  • Microsoft Research Paraphrase Corpus[32]
  • 다중 장르 자연어 추론
  • 질문 자연어 추론
  • 쿼라 퀘스천 페어스(Quora Question Pairs)[33]
  • 텍스트 함의 인식[34]
  • 의미 텍스트 유사성 벤치마크
  • SQuAD 질의응답 테스트[35]
  • 스탠포드 감정 트리뱅크[36]
  • 위노그라드 NLI
  • BoolQ, PIQA, SIQA, HellaSwag, WinoGrande, ARC, OpenBookQA, NaturalQuestions, TriviaQA, RACE, BIG-bench hard, GSM8k, RealToxicityPrompts, WinoGender, CrowS-Pairs[37]

같이 보기

[편집]

각주

[편집]
  1. Blank, Idan A. (November 2023). What are large language models supposed to model?. Trends in Cognitive Sciences 27. 987–989쪽. doi:10.1016/j.tics.2023.08.006. PMID 37659920."LLMs are supposed to model how utterances behave."
  2. Jurafsky, Dan; Martin, James H. (2021). N-gram Language Models 3판. Speech and Language Processing. 2022년 5월 22일에 원본 문서 (PDF)에서 보존된 문서. 2022년 5월 24일에 확인함.
  3. Kuhn, Roland, and Renato De Mori (1990). "A cache-based natural language model for speech recognition". IEEE transactions on pattern analysis and machine intelligence 12.6: 570–583.
  4. Andreas, Jacob, Andreas Vlachos, and Stephen Clark (2013). "Semantic parsing as machine translation" 보관됨 15 8월 2020 - 웨이백 머신. Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers).
  5. Liu, Yang; Wu, Fanyou; Liu, Zhiyuan; Wang, Kai; Wang, Feiyue; Qu, Xiaobo (2023). Can language models be used for real-world urban-delivery route optimization?. The Innovation 4. 100520쪽. Bibcode:2023Innov...400520L. doi:10.1016/j.xinn.2023.100520. PMC 10587631 |pmc= 값 확인 필요 (도움말). PMID 37869471.
  6. Pham, Vu, et al (2014). "Dropout improves recurrent neural networks for handwriting recognition" 보관됨 11 11월 2020 - 웨이백 머신. 14th International Conference on Frontiers in Handwriting Recognition. IEEE.
  7. Htut, Phu Mon, Kyunghyun Cho, and Samuel R. Bowman (2018). "Grammar induction with neural language models: An unusual replication" 보관됨 14 8월 2022 - 웨이백 머신. arXiv:1808.10000.
  8. Ponte, Jay M.; Croft, W. Bruce (1998). A language modeling approach to information retrieval. Proceedings of the 21st ACM SIGIR Conference. Melbourne, Australia: ACM. 275–281쪽. doi:10.1145/290941.291008.
  9. Hiemstra, Djoerd (1998). A linguistically motivated probabilistically model of information retrieval. Proceedings of the 2nd European conference on Research and Advanced Technology for Digital Libraries. LNCS, Springer. 569–584쪽. doi:10.1007/3-540-49653-X_34.
  10. BERT: Pre‑training of Deep Bidirectional Transformers for Language Understanding. 2020. 2026년 4월 10일에 확인함.
  11. Neural Language Modeling: A Survey. 2020. 2026년 4월 10일에 확인함.
  12. Language Models are Few‑Shot Learners. 2021. 2026년 4월 10일에 확인함.
  13. BERT: Pre‑training of Deep Bidirectional Transformers for Language Understanding. 2020. 2026년 4월 10일에 확인함.
  14. Language Models are Few‑Shot Learners (GPT‑3) (PDF). +date=2020|accessdate=2026-04-10}}
  15. Attention Is All You Need. 2017. 2026년 4월 10일에 확인함.
  16. Scaling Laws for Neural Language Models. 2020. 2026년 4월 10일에 확인함.
  17. Language Models are Few‑Shot Learners. 2021. 2026년 4월 10일에 확인함.
  18. Chomsky, N. (September 1956). Three models for the description of language. IRE Transactions on Information Theory 2. 113–124쪽. doi:10.1109/TIT.1956.1056813. ISSN 2168-2712.
  19. The Nature Of Life, The Nature Of Thinking: Looking Back On Eugene Charniak's Work And Life (영어). 2022년 2월 22일. 2024년 11월 3일에 원본 문서에서 보존된 문서. 2025년 2월 5일에 확인함.
  20. Rosenfeld, Ronald (2000). Two decades of statistical language modeling: Where do we go from here?. Proceedings of the IEEE 88. 1270–1278쪽. doi:10.1109/5.880083. S2CID 10959945.
  21. Karpathy, Andrej. The Unreasonable Effectiveness of Recurrent Neural Networks. 2020년 11월 1일에 원본 문서에서 보존된 문서. 2019년 1월 27일에 확인함.
  22. Bengio, Yoshua (2008). Neural net language models. 스콜라피디아 3. 3881쪽. Bibcode:2008SchpJ...3.3881B. doi:10.4249/scholarpedia.3881. 2020년 10월 26일에 원본 문서에서 보존된 문서. 2015년 8월 28일에 확인함.
  23. 대규모 언어모델. ICT 시사용어 2025. 2025. 2025년 4월 15일에 확인함.
  24. 거대 언어 모델. 두산백과. 2025. 2025년 4월 15일에 확인함.
  25. Goled, Shraddha (2021년 5월 7일). Self-Supervised Learning Vs Semi-Supervised Learning: How They Differ. Analytics India Magazine.
  26. Hornstein, Norbert; Lasnik, Howard; Patel-Grosz, Pritty; Yang, Charles (2018년 1월 9일). Syntactic Structures after 60 Years: The Impact of the Chomskyan Revolution in Linguistics (영어). Walter de Gruyter GmbH & Co KG. ISBN 978-1-5015-0692-5. 2023년 4월 16일에 원본 문서에서 보존된 문서. 2021년 12월 11일에 확인함.
  27. Karlgren, Jussi; Schutze, Hinrich (2015), Evaluating Learning Language Representations, International Conference of the Cross-Language Evaluation Forum, Lecture Notes in Computer Science, Springer International Publishing, 254–260쪽, doi:10.1007/978-3-319-64206-2_8, ISBN 9783319642055
  28. Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (2018년 10월 10일). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv:1810.04805 [cs.CL].
  29. Hendrycks, Dan (2023년 3월 14일), Measuring Massive Multitask Language Understanding, 2023년 3월 15일에 원본 문서에서 보존된 문서, 2023년 3월 15일에 확인함
  30. The Corpus of Linguistic Acceptability (CoLA). nyu-mll.github.io. 2020년 12월 7일에 원본 문서에서 보존된 문서. 2019년 2월 25일에 확인함.
  31. GLUE Benchmark (영어). gluebenchmark.com. 2020년 11월 4일에 원본 문서에서 보존된 문서. 2019년 2월 25일에 확인함.
  32. Microsoft Research Paraphrase Corpus (미국 영어). Microsoft Download Center. 2020년 10월 25일에 원본 문서에서 보존된 문서. 2019년 2월 25일에 확인함.
  33. Aghaebrahimian, Ahmad (2017), Quora Question Answer Dataset, Text, Speech, and Dialogue, Lecture Notes in Computer Science, 10415, Springer International Publishing, 66–73쪽, doi:10.1007/978-3-319-64206-2_8, ISBN 9783319642055
  34. Sammons, V.G.Vinod Vydiswaran, Dan Roth, Mark; Vydiswaran, V.G.; Roth, Dan. Recognizing Textual Entailment (PDF). 2017년 8월 9일에 원본 문서 (PDF)에서 보존된 문서. 2019년 2월 24일에 확인함.
  35. The Stanford Question Answering Dataset. rajpurkar.github.io. 2020년 10월 30일에 원본 문서에서 보존된 문서. 2019년 2월 25일에 확인함.
  36. Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank. nlp.stanford.edu. 2020년 10월 27일에 원본 문서에서 보존된 문서. 2019년 2월 25일에 확인함.
  37. llama/MODEL_CARD.md at main · meta-llama/llama (영어). GitHub. 2024년 12월 28일에 확인함.

더 읽어보기

[편집]