본문 바로가기

전체 글

(326)
[ AI/LLM ]NoteBookLM 어떻게 작동하는가?(Basic) NoteBookLM이 앱을 출시 됐다.많은 사람들이 이목을 집중시켰다. 개인적으로 그 이유는 아마도 텍스트 형식의 LLM시대에서 오디오 시대의 전환을 말했기 때문이라 생각한다.다시 말해, Modality가 변화한것이다. 어떻게 작동하는 것일까?텍스트 생성 → RVQ 기반 오디오 모듈 호출 → 최종 오디오 출력 텍스트 생성현재 Google은 이미지 Gemini가 존재한다.Gemini는 다른OpenAi, Antropic처럼 decode-only transformer이다.현재 기준 Gemini flash 2.5를 사용할 것이다.출처 :https://9to5google.com/2025/05/02/notebooklm-gemini-2-5-flash/ RVQ 기반 오디오 모듈(?)RVQ핵심 아이디어는 여러 코..
[ AI/anthropic-1 ] LLM은 다중 추론을 진짜 할까?(feat. Claude 3.5 Haiku) 이 글은 antropic에서 시도했던 모델에 블랙박스를 확인하기 위한 전략 중 다중 추론에 대한 검증글입니다. Introductory Example: Multi-step Reasoning On the Biology of a Large Language ModelWe investigate the internal mechanisms used by Claude 3.5 Haiku — Anthropic's lightweight production model — in a variety of contexts, using our circuit tracing methodology.transformer-circuits.pub 모델은 실제로 추론을 할까? 암기한 데이터를 갖져올까?선행 연구에서 모델이 추론을 직접..
[ AI/MCP ] web 방식 figma로 MCP 시도해 보기 너무 핫해서 안 해볼 수 없었던, 그러나 시간이 없었던 figma MCP를 시도해 보기. 나름 많은 삽질을 했다. 하여 APP으로 하는 방식 말고 web을 통해서 하는 방식으로 설명해 보려고 한다.사전에 알아둬야 할 내용figma MCP는 크게(?) 2가지 방식있는 것으로 확인했다.1) web figma를 통해서2) figma Application을 다운 받아서(youtube에 많이 있으니 검색해 보길 바란다.) 여기서는 web figma를 통해서 진행한다. MCP에 대한 간단한 설명claude MCP는 하나의 application 에 하나의 서버가 연결된다.다만 claude Protocol을 만들어 통신 방식으로 획일화 시키고 있다. 현재 완전한 http같은 protocol은 아니지만 아마도 claud..
[ LLM/RAG ] Graph RAG와 Basic RAG의 차이점 업계가 변경되고 나서 LLM or sLLM에 대해서 공부를 더 하게 된다.내가 있는 곳은 현재 RAG를 통한 콘텐츠의 생산성의 정확도를 높이기 위한 전략을 취한다.물론 환각 최소화 방안이기도 하다. 아래의 내용은 2개의 논문을 바탕으로 나름대로 내용을 각색해봤다.GRAG: Graph Retrieval-Augmented GenerationRetrieval-Augmented Generation for Knowledge-Intensive NLP Tasks※ 이 글에서 Basic RAG는 작성자가 임의로 작성한 글임을 알린다. 이번 2025 코엑스 Generative LLM/sLLM에서도 모두가 RAG를 언급한다.한국에서는 아쉽게도 하나의 창만 있다.나는 개발자는 아니다. 그냥 Dream or Viewer or..
[ UI ] 화면을 넘어선 UIUX (Feat.토스단말기) 내가 알고 있는 UI는 물리적인 한계가 있다.바로 스크린이다.그 UI는 화면에 한계를 갖고 있기 때문에 경험에도 한계가 있다.하지만 기계의 사이즈가 변화하고 주체가 변경되면 또다른 세계가 열리는 거 같다. 이 글은 아래의 블로그를 바탕으로 작성된 글입니다.https://think-note.com/toss-pay/ 키오스크린의 한계를 넘다.우리가 통상 생각하는 키오스크린은 150~170CM 미터에 큰 화면과고정된 장소에서 주문을 받는다. 반면, 토스 키오스크린은 다르다.모양도 작고 화면도 작다.대신 기능이 다양하다.1. 평소에는 가게 홍보 이미지를 노출해 브랜딩하기 2. 잠시 주문 받기 어려울 때는 키오스크로 변신해 고객 주문 받기3. 결제와 동시에 포인트 적립이나 스탬프 적립 기능 제공하기4. 쿠폰 등을..
[ 책 ] 센스의 철학 센스에 대한 작가의 사유와 탐구가 들어있는 글이다.우리가 생각하는 센스가 맞기도 하지만 그 센스가 개념이 상당히 넓은 의미로도 적용해 볼 수 있는 부분이 인상적이다.이 글은 일정부분의 내용이 노출될 수 있음으로 알려드립니다. 내가 이해하는 선에서 간략하게 비유하면센스는 지구의 자전축 같다.지구의 자전축이 살짝 비툴어져 우리에게 4계절이 생긴 것처럼 말이다.센스를 얻기 위해선 시선을 비틀어서 세상을 봐라봐야 한다.그래야 창조적이고 센스있는 사람이 될 수 있다는 뜻이다. 사전적 의미 : 센스 1) 말이나 글의 '의미'. 거기에서 더 나아가 '네가 하는 일은 의미를 잘 모르겠어'와 같은 용법이 있는데, 이때 sense는 합리성이나 가치가 없음을 말한다. 그 반대말은 '난센스'다. 이 말은 '무엇을 의미하는지..
[ LLMs ] 나는 누구인가? 곧 자기에 장점이 나다.(feat. Grok, Chat GPT, Claude, Perplexity, Gemini) 이번엔 회사별(?) 자기가 잘한다고 생각되는 것을 추려 보려고 한다.이 정보는 2025년 4월 1일 결과값을 갖고 작성한 글이다.이 글은 '자신이 무엇을 검색할 것인가'에 따라 어떤 LLM을 사용하는게 좋을지에 대한 글이다. 한계- 5개의 회사에게 동일한 질문을 하고 LLM에게 얻는 정보이다.- 몇 개의 회사는 무료버전을 사용했다. ex) Chat GPT-o4- 5개의 회사 기준은 개인의 취향으로 선택됐다.   인트로세상엔 점점 많은 LLM회사들이 나오고 있다.선택의 역설처럼 선택지가 많아지면 사람들은 선택이 힘들다.하여, 메이저 회사의 LLM의 특징을 알아보고 비교해 보려고 한다. 본론아래의 표는 6개의 기준점으로 언어별 장점을 추출해여 특징들을 그래프화 한 것이다.결국, 자신이 가진 특징(자원의 장점..
[ 글또/반상회 ] PM & PO 빌리지 반상회 인트로보통 플랫폼 서비스를 만들기 위해서는 개발을 할 수 있는 지식이 필요하다.발표자 허유정님은 기획자로써 사람들에게 좋은 습관을 만들어 주고 싶어 했다.허나 그녀는 개발 기술이 없다. 그렇지만 요즘시대엔 기획과 개발자의 관계는 점점 느슨해져가고 있다.그녀는 사람들에게 글쓰기/회고라는 습관을 만들어주고 싶어했으며 테스트해보고 싶었다.그래서 그녀는 개발자 없이 Excel과 AI의 도움을 받아 혼자서 MVP 만들었다.어떤 요소가 사람들의 행동을 변화시키는 데 기여하는지,나아가 사이드프로젝트로 시작한 자신만의 MVP모델이 점점 더 많은 사람들이 모여드는 프로젝트로 변모하는 모습을 소개한다.  본론여기서는 사람들이 어떻게 글을 쓰게 만드는 지를 확인하고 나아가 그 결과와 검증이 어떻게 더 큰 사이드프로젝트로 커..
[ AI/애착 ] 우리는 AI와 친구가 될 수 있을까? (Feat.Open AI) MIT Media Lab과 OpenAI는 ChatGPT와 같은 AI 챗봇과의 상호작용 실험.사용자의 사회적, 정서적 웰빙(정신 건강)에 미치는 영향을 파악하기 조사 진행했다.관찰 연구 (Study 1): 실제 ChatGPT 사용 패턴 분석 (약 4천만 건의 대화)통제된 개입 연구 (Study 2): 1,000명의 참가자를 대상으로 4주 동안 ChatGPT 사용 실험 (랜덤화 대조군 연구) 한계점:- 결과는 아직 과학계의 동료평가를 받지 않았음- ChatGPT 사용자를 대상으로 했기 때문에 다른 챗봇 사용자와는 경험이 다를 수 있음.- 일부 결과는 인과관계를 명확히 보여주지 못함.- 자가 보고 데이터는 사용자의 실제 감정을 정확히 반영하지 못할 수 있음.- 장기적인 연구가 필요함.- 영어, 미국 참여자로 ..
[ AI/LLM ]Post-training에 대해서 앞에서 Pre-training에 대해서 간략하게 알아 봤다.이제 사람처럼 말하는 말투와 더 완전한(?) 결과를 내기 위한 작업을 수행한다. Post-training은 실생활에 실용성을 높이는 작업 Post-training은 무엇일까?개인적인 생각으로는 사람 최적화이다.  카카오 tech blogPre-training 단계에서는 다음 단어를 예측하는 방식으로 다양한 “문서”들에 대해서 학습하기 때문에 사용자가 제시하는 명령을 “이해하고 수행”하는 데 필요한 능력은 부족한 경우가 많습니다. 따라서 모델이 사용자의 명령을 인식하고 적절히 반응할 수 있는 LLM을 만들기 위해서는 적절한 Post-training 과정을 거쳐야 합니다.https://tech.kakao.com/posts/662 LLM Post-Tr..
[ AI/LLM ] PRE-TRAINING을 간단히 알아보자 LLM은 기본적으로 2가지 방식으로 구성된다.PRE-TRANING 그리고 POST-TRAINING.먼저 PRE-TRANINING에 대해서 이해해보자. 요약하면 빅데이터를 활요해 확률에 기반 언어 예측률 높이는 것이 PRE-TRAINING이다.  순서1. 데이터 수집 및 전처리 (Data Collection and Preprocessing)2. 토큰화 (Tokenization)3. 신경망 학습 (Neural Network Training)4-1. 추론 (Inference)4-2. 결과물 : 베이스 모델 추론 (Base Model Inference) 1. 데이터 수집 및 전처리보통은 데이터 수집은 이미 된 정보를 가지고 다음에 진행을 한다.간단히 말해서 인터넷에 돌아다니는 "텍스트" 정보를 스크롤해 정보를 ..
[ AI /Chat ] Chat GPT의 다양한 기능을 사용해 보자 Chat GPT의 출현과 함께 너무나 빠르게 Chat GPT 서비스도 다양해지고 있다.하여 Deepseek 이후 변화된 간단하게 이해한 내용을 정리해 봤다. 뭔가 새롭게 시작한다면 '새로운 창'을 여세요!한 곳에서 계속 대화를 하면 안 된다. 왜냐하면 정보가 계속 누적되기 때문이다.과거의 데이터를 기반으로 계속 질문에 대한 답을 할 것이고 그것이 내가 원하는 답변의 질을 낮출것이다.이유는 간단하다.현재 이야기하고 있는 창에 정보가 누적되기 때문이다. 아래의 색상들은 토큰(token)이라고 볼수 있다.이렇게 대화를 할 수록 토큰들이 쌓이기 된다. 토큰은 뭘까?인터넷에서 긁어 모은 테스트 정보를 bit를 이용해서 byte로 변환시킨다.그리고 다시 8bit를 활용해서 256으로 정보를 변화시킨다.그것을 토큰..