본문 바로가기

분류 전체보기72

Tokenization(토큰화)란 무엇일까? NLP에서의 Tokenization NLP에서의 Tokenization은, 두 개 이상의 다른 token의 결합으로 이루어진 단어를 쪼개어, 단어의 숫자를 줄이고 희소성(sparseness)를 낮추기 위해 실행된다. 단어의 숫자를 줄이고 희소성을 낮춘다는 것은 과연 무슨 뜻일까? 다음 예제를 같이 살펴보자 희소성을 줄여주는 Tokenization "배가 너무 고프다 저녁밥 뭐 먹어야하지" "배는 별로 고프지 않아" 위와같은 두 개의 문장이 있다. 직관적으로 봤을 때, 여기서의 "배" 부분과 "고프다" 부분은 같은 의미이다. 하지만, 컴퓨터는 "배가"와 "배는" , "고픈데" 와 "고프지"를 다른 단어로 인식한다. 따라서, 같은 의미이지만 각각의 단어로 인식되는 것이다. 그만큼 희소성도 올라가게 된다. 그.. 2022. 8. 20.
[자료구조] 트리(Tree)와 이진 트리(Binary tree)란? 트리(Tree)란? 트리(Tree)란, 계층적인 구조를 나타내는 자료구조이다. 조직도, 파일 디렉터리 구조에서 이러한 트리 구조가 많이 사용된다. 트리의 구성 요소 트리는 노드(node)와 간선(edge, link)로 이루어진다. 노드(node)는, 트리의 데이터를 저장하는 단위이며, 위 사진에서의 숫자가 저장되어 있는 부분이 노드라고 볼 수 있다. 간선(edge, link)는, 노드와 노드를 연결하는 선이며, 트리에서의 간선은 부모-자식 계층 관계만을 나타낸다. 위 사진에서 볼 수 있듯이, 간선이 상하관계로만 연결되어 있고, 좌우로는 연결되어있지 않은 모습을 확인할 수 있다. 이 부분에 대해서는 뒤에서 추가적으로 설명하도록 하겠다. 또한 노드의 개수가 N개일 때, 간선의 개수는 항상 N-1개이다. 트리.. 2022. 7. 24.
[궁금증] 키오스크에는 왜 윈도우가 들어가있을까? 평소 커피를 매우 좋아하여 하루에 최소 1잔 이상은 마시는 나는 7월의 어느 토요일에도 어김없이 카페를 찾았다. 원래 자주 가는 카페는 사장님이 직접 핸드드립으로 내려주시는 곳이기에 키오스크가 없지만, 그날은 노원역에 일이 있기에 모 프랜차이즈 카페를 방문하게 되었다. 목이 많이 타서 빠르게 커피를 시키는 와중, 결제창에서 흥미로운 점을 목격하게 되었다. 결제 시에 작업표시줄이 뜨면서, 이 키오스크는 윈도우 운영체제를 기반으로 동작된다는 점을 발견하게 된 것이다. 처음으로 든 생각은, "굳이 키오스크에 유료인 윈도우를 써야 하는 이유가 있나?"였다. 내 짧은 생각으로는, 키오스크를 리눅스 기반으로 만들면 단가가 낮아지는 장점이 있을 것 같았는데, 다른 이유로 인해 리눅스 기반 키오스크가 단가가 높아지는지.. 2022. 7. 23.
KL-Divergence와 Entropy, Cross-Entropy란? KLD(Kullback-Leibler Divergence) 쿨백-라이블러 발산(Kullback–Leibler divergence, KLD)은 두 확률분포의 차이를 계산하는 데에 사용하는 함수로, 어떤 이상적인 분포에 대해, 그 분포를 근사하는 다른 분포를 사용해 샘플링을 한다면 발생할 수 있는 정보 엔트로피 차이를 계산한다. -Wikipedia- KLD는 두 확률분포 사이의 다름을 측정한다. 주의해야 할 점은, KLD는 두 분포 사이의 거리가 아니라는 것이다. KLD의 수식과, 예시를 보면서 같이 개념을 이해해보자. 두 확률분포 p와 q가 있다고 할 때, p 관점에서 측정한($x$를 sampling 할 때 p에서 sampling) KLD의 수식은 다음과 같다. $$KL(p||q) = -\mathbb{E}.. 2022. 7. 22.
Likelihood(가능도)와 MLE(Maximum Likelihood Estimation)란? 통계학에서, 가능도(可能度, 영어: likelihood) 또는 우도(尤度)는 확률 분포의 모수가, 어떤 확률변수의 표집값과 일관되는 정도를 나타내는 값이다. 구체적으로, 주어진 표집값에 대한 모수의 가능도는 이 모수를 따르는 분포가 주어진 관측값에 대하여 부여하는 확률이다. 가능도 함수는 확률 분포가 아니며, 합하여 1이 되지 않을 수 있다. -Wikipedia- 위키피디아에서 Likelihood를 검색하면 위의 정의가 나온다. 그러나, 도통 무슨 말인지 알 수가 없다. 누구나 likelihood를 잘 이해할 수 있게 풀어서 이야기해보려고 한다. Likelihood란? Likelihood(가능도)란, 주어진 확률 분포$\theta$가 데이터를 얼마나 잘 설명하는지 나타내는 정도이다. 가능도를 더 잘 이해.. 2022. 7. 22.