- 질문 게시판입니다.
Date 20/06/03 17:21:51
Name   타키투스
Subject   딥러닝 이론에 관한 질문
딥러닝에 대한 공부 겸 연구를 하고있는 컴공과 학부생인데요.
인공지능쪽으로 교류가 아예 없다보니 전문용어도 모르고 그래서 인터넷에서 이론을 찾기가 힘듭니다.

1. 단어를 의미로 분류(Word2Vec)하는게 아닌 발음 내지는 음소로 분류하는 방법에 대한 이론이 있는지 궁금합니다.
예를들면 아메리카노와 어메뤼카노는 기존 의미 분류에서 후자쪽은 인식이 불가능하지만 의미가 아니라 단어 자체의 유사성으로 분류하면 거의 비슷한 벡터로 나오겠죠.
알파벳 한글자씩 숫자로 변환해서 1차원 컨볼루션, 앙상블, 어텐션 등등 여러가지 조합해서 오토인코더 방식으로 훈련해봤는데 정확도가 상당히 낮았습니다.
이 이론이 있다면 인터넷 커뮤니티에서 난무하는 온갖 오타나 슬랭을 번역할수 있을거라 생각됩니다.

2. 이미지나 영상, 사운드, 텍스트 등의 자료나 개념을 일정한 N 크기의 벡터 또는 벡터 시퀸스로 변환한다고 했을때 이러한 벡터들의 유사성에 따라 쿼리가 가능한 매핑 이론이 있는지 궁금합니다.
예를들어 개(Va), 개의 꼬리(Vb), 개의 귀(Vc) 등등의 개념이 이미 벡터화된 상태라고 가정하고 이때 개의 사진을 오토인코더 등으로 벡터화(Vt) 했을때 Vt로 쿼리하면 매핑에 따라 Va, Vb, Vc가 임의로 순서대로 반환되는겁니다.
전문용어를 몰라서 전 이걸 개념매핑이라고 부르고 있기는 한데 이 이론과 Memory Aumented Neural Network를 잘 조합하면 사고가 가능한 신경망을 만들수 있을것 같아서 찾아보거나 고안해보고는 있습니다만 영 마땅히 아이디어가 떠오르지도 않고, 이 단계에서 이미 1~2년은 지난거 같아서 혹시 이론이 나온게 없나 싶어서 여쭤봅니다.



0


1. 알파벳 한 글자씩 하는 것은 character-level embedding이라 하고, 더 가서는 byte 단위 embedding 시도도 있습니다. 그 외에 다른 단위는 subword embedding으로 찾아보면 나올 것이라 보입니다.
이런 시도의 단점 중 큰 것은 문장을 generation할 때 정확한 단어를 generation하기 어렵다는 것입니다. word 단위는 문장이 이상할 지라도 단어들이 나오는데, 이건 단어가 아닌 것들이 막 튀어나오죠

2. 이건 무슨 뜻인지 정확히 이해를 못하였는데, 사진의 class를 분류해서 "개"로 분류되면 답을 "개", "개 꼬리", "개 귀"로 주는... 더 보기
1. 알파벳 한 글자씩 하는 것은 character-level embedding이라 하고, 더 가서는 byte 단위 embedding 시도도 있습니다. 그 외에 다른 단위는 subword embedding으로 찾아보면 나올 것이라 보입니다.
이런 시도의 단점 중 큰 것은 문장을 generation할 때 정확한 단어를 generation하기 어렵다는 것입니다. word 단위는 문장이 이상할 지라도 단어들이 나오는데, 이건 단어가 아닌 것들이 막 튀어나오죠

2. 이건 무슨 뜻인지 정확히 이해를 못하였는데, 사진의 class를 분류해서 "개"로 분류되면 답을 "개", "개 꼬리", "개 귀"로 주는 프로그램으로 이해했는데 맞나요? 맞다면 앞의 문제는 image classification 문제고 뒤는 word-embedding에서 유사 word를 찾는 문제같네요. 아니면 같은 label의 사진들의 embedding값을 묶어 label마다 대표 embedding값을 만들고 유사한 embedding값을 가지는 label을 찾아 반환해 줄 수도 있겠네요.
https://arxiv.org/pdf/1809.09924.pdf
이런게 참고 논문이 될 수도요..?
타키투스
2번의 사진은 예로 든겁니다. 사진이 아니라 영상, 텍스트, 아니면 개념일수도 있죠. 요컨데 Multimodal 한겁니다. 필요한건 그러한 Raw Data들이 일정한 크기로 벡터화 됐다는 전제하에 그것들을 모종의 방식으로 매핑하고 임의의 벡터로 쿼리하면 매핑된 벡터들이 반환되는 그런 이론이나 수단입니다. 제가 생각하는 느낌은 그래프 데이터베이스랑 비슷합니다. 다만 두 벡터 사이의 관계를 표현하는 key를 딥러닝으로 어떻게 생성해내고 쿼리하느냐는 마땅히 방법이 안떠올라서요.
두 벡터 사이의 관계가 있다! 매핑이 되었다!를 뭐로 정의하신건지가 잘 개념이 안잡힙니다. 아니면 그 관계가 있다고 정의하는 방법을 찾으시려는건가요..?

두 벡터 혹은 공간 사이의 관계가 있다 없다를 찾으려면 similarity를 measure해서 높은 것들을 찾아야할 것 같습니다. 가장 단순한 것은 대표 벡터 둘 잡고 euclidean이나 cosine similarity겠네요. 아니면 WGAN같은 데서는 Wasserstein distance도 있겠고요.
아니면 embedding된 벡터들을 clustering해서 같은 cluster에 해당하는 것들을 찾는 방법..?

similarity/distance 측정할 것 아니면 사전에 연결관계를 나타낼 다른 데이터가 있어야하는데, 그걸 쓰시려는 것은 아닌 것 같은데 맞나요.
타키투스
관계가 있다고 정의하는 방법 그리고 나중에 그 관계에 따라 불러오는 방법이죠.
사람으로 치자면, 공은 원처럼 생겼다고 생각한다면 공과 원은 비슷하게 생겼다는 관계(key)가 생기는겁니다. 나중에 원과 비슷하게 생긴것을 생각해본다면(query) 그중 하나에 공이 떠오르겠죠.
두 벡터 사이의 관계를 평가하는 방법은 과거 입력을 큐에 쌓아놓고 현재 입력까지 합쳐서 딥러닝으로 유사성을 추론하는 방식이면 얼추 될것 같습니다만 수많은 벡터 간의 관계를 딥러닝을 사용해 쿼리하는 방법이 문제입니다.
회색사과
1. 음절 음소 형태소 글자 등 더 작은 레벨로 임베딩 할 수 있습니다. 그걸 그대로 위로 올릴 수도 있고 워드 단위로 한 번 representation 하고 나서 올릴 수도 있습니다. 그치만 원하시는게 아메리카노와 어메뤼카노가 비슷한 벡터를 갖는 거라면 워드단위로도 충분히 할 수 있습니다. 데이터 내에서 비슷한 위치에서 비슷한 의미로 충분히 많이 쓰였다면요. 그리고 일단 word2vec 의 목적은 표현이지 분류가 아닙니다.

2. 쿼리한다- 가 무엇을 의미하는지 잘 모르겠습니다만... 이미지를 입력했을 때, 이미지의 각 부분... 더 보기
1. 음절 음소 형태소 글자 등 더 작은 레벨로 임베딩 할 수 있습니다. 그걸 그대로 위로 올릴 수도 있고 워드 단위로 한 번 representation 하고 나서 올릴 수도 있습니다. 그치만 원하시는게 아메리카노와 어메뤼카노가 비슷한 벡터를 갖는 거라면 워드단위로도 충분히 할 수 있습니다. 데이터 내에서 비슷한 위치에서 비슷한 의미로 충분히 많이 쓰였다면요. 그리고 일단 word2vec 의 목적은 표현이지 분류가 아닙니다.

2. 쿼리한다- 가 무엇을 의미하는지 잘 모르겠습니다만... 이미지를 입력했을 때, 이미지의 각 부분이 갖는 의미를 추출하여 자연어로 이미지를 설명하는 모델이 16년인가 17년에 이미 나왔습니다. (모델 이름이 기억이 안나네요) 말씀하신 것 처럼 인풋의 각 부분에 대해 어떤 것(의미) 인지 추출/인식하여 “나열이 아니라 문장으로 연결시키는” 게 cnn 유행하던 시절에 이미 나왔어요
회색사과
https://storage.googleapis.com/pub-tools-public-publication-data/pdf/43274.pdf

이거였네요 15년

사람들이 야외 시장에서 쇼핑하고 있고 야채들이 늘어져 있다고 사진의 각 부분의 의미를 인식해서 연결할 수 있네요
타키투스
사진을 단어로 설명하는 모델이면 그 과정에서 제가 찾는 방법이 있을것 같습니다. 감사합니다.
듣보잡
1. 일단 생각나는 건 fasttext입니다.
https://lovit.github.io/nlp/representation/2018/10/22/fasttext_subword/
오타나 oov 대응에 강점이 있습니다.
비슷한 컨셉을 한국어에 적용한 것도 있습니다.
htt... 더 보기
1. 일단 생각나는 건 fasttext입니다.
https://lovit.github.io/nlp/representation/2018/10/22/fasttext_subword/
오타나 oov 대응에 강점이 있습니다.
비슷한 컨셉을 한국어에 적용한 것도 있습니다.
https://arxiv.org/abs/1708.01766

하지만 이것들은 단어 표현을 좀 더 잘 한다는 것이지, 오타나 슬랭을 번역한다는 목표를 달성하기 위해서는 문제를 해결할 수 있는 전체 네트워크 구조를 설계하셔야 합니다. 위에 제가 올려드린 것들이 그 과정에서 도움을 줄 수는 있겠지만 저것들이 문제를 직접 해결해 주는 건 아닙니다.

2. multimodal object들을 vector화한 후에 vector 간 유사도,상관도 등을 계산하는 건 neural network의 일반적 특성이라고 봐도 됩니다. 제가 알고 있는 거의 모든 딥러닝 기반 네트워크에서 말씀하신 철학에 근거해서 문제들을 해결합니다. 굳이 생각나는 것 하나만 말씀드리면 siamese network가 있습니다만 이게 딱히 특별한 구조라고 생각하지는 않습니다.
https://www.researchgate.net/figure/Siamese-network-for-embedding-the-feature-maps-into-a-constant-vector_fig2_328376369
위 링크 그림이 생각하시는 모양과 비슷한건지 모르겠네요.

어떤 방식으로든 사고가 가능한 신경망을 만드시는데 성공하셨다면 꼭 공유해 주시면 감사하겠습니다. 제 일생 숙원이거든요ㅋ
목록
번호 제목 이름 날짜 조회 추천
공지 질문 게시판 이용 규정 11 토비 15/06/19 24419 4
16651 게임보드게임을 좋아하는 지인에게 줄 선물 추천 받읍니다. 4 + 니르바나 25/04/05 102 0
16650 법률건축 법률 질문 4 whenyouinRome... 25/04/04 235 0
16649 의료/건강개별 포장된 약이 유통기한이 지난경우 (홍차넷 약사 스앵님들!!) 22 Mandarin 25/04/03 514 0
16648 교육어린이 신문, 신문, 잡지 추천 부탁드립니다. 17 아재 25/04/02 371 0
16647 IT/컴퓨터AI 모델 추천 부탁드립니다. 11 퍼그 25/04/02 376 0
16646 가정/육아콧물 나는 아이에게 약을 먹이시나요? 12 the 25/04/01 482 0
16645 교육초등학생 학폭위 관련해서 문의 10 얼그레이 25/04/01 705 0
16644 IT/컴퓨터Hongkong/MACAU에서 ChatGPT 쓰는 방법? 3 mathematicgirl 25/04/01 370 0
16643 법률법무법인의 전문성을 비전문가가 알아보려면 어떻게 해야하나요? 16 [익명] 25/04/01 702 0
16642 의료/건강영양제 추천해주십시오 15 쉬군 25/03/31 441 0
16641 기타40대 초중반의 이직 고민, 다른 분들의 생각을 여쭤보고 싶습니다 23 쉬군 25/03/31 759 0
16640 기타빠른년생인 분들 나이 얘기할 때 빠른인 걸 말하시나요? 16 시간아달려라 25/03/30 717 0
16639 IT/컴퓨터KT 와이파이 개수 제한? 2 바쿠 25/03/27 526 0
16638 문화/예술기차역 구조도 그리기 9 OshiN 25/03/27 621 0
16637 댓글잠금 기타세탁기 2번 딸깍이 너무 귀찮아요. 5 [익명] 25/03/25 1034 0
16636 기타쿠팡플레이 질문입니다 4 김치찌개 25/03/25 500 0
16635 가정/육아제사 벌초같은 가족모임 부담스러운거 어떻게 하세요? 4 [익명] 25/03/25 625 0
16634 진로이직할 때 그 회사 이사 자신이 안다고 겁주는데 8 [익명] 25/03/25 930 0
16633 의료/건강면역항암제 주사 or 복용약 고민입니다. 3 미카엘 25/03/25 371 0
16632 기타자영업자분들 뭐하시나요? 14 게이득 25/03/24 851 0
16631 기타시키지 않은 일을 하는 사람이 되고 싶습니다. 10 [익명] 25/03/24 769 0
16630 IT/컴퓨터스마트워치로 사진 보기 2 OshiN 25/03/24 356 0
16628 의료/건강아동 ADHD 약 처방 궁금한점이 있습니다. 2 쉬군 25/03/22 491 0
16627 여행5월에 서울에 박물관 여행을 다녀볼까 합니당 7 Broccoli 25/03/22 387 0
목록

+ : 최근 2시간내에 달린 댓글
+ : 최근 4시간내에 달린 댓글

댓글
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기