분류 전체보기(23)
-
랜덤 포레스트(Random Forest)에서 다중공선성(Multi-collinearity) 탐색하기
랜덤 포레스트에서 다중공선성 탐색하기 랜덤 포레스트에서 상관 관계가 높은 변수는 정확도(Accuracy)와 피처 선택(Feature Selection)에 안 좋은 영향을 줄까요? 간단히 말해, 대답은 "아니요, 그렇지 않습니다."입니다. Introduction 강력한 앙상블 모델인 랜덤 포레스트(RF)는 분류 및 회귀 작업에 자주 사용됩니다. RF가 다중공선성을 처리하는 방법을 자세히 알아보기 전에 이 모델의 복잡성에 대해 간략히 살펴보겠습니다. Understanding Multicollinearity 다중공선성은 회귀 모델에서 두 개 이상의 설명 변수가 높은 상관관계를 가질 때 발생합니다. 이 문제는 독립 변수 간의 독립성 가정이 손상되어 왜곡된 결과를 초래하므로 회귀 모델에 중대한 문제를 제기합니다...
2024.02.26 -
생각을 갈고 닦는 방법
생각이 멈추면 죽은 것과 다름없다. 결국 나의 존재는 내 생각에서 나온다. 이 공간은 나의 '자기다움'을 갈고 닦는 '생각의 용광로'이다. 어떤 정보를 접하더라도, 나만의 사고를 통해 갈고 닦아 순도 높은 글로 뽑아내는 게 이 공간의 목적이다. 생각을 갈고 닦는 방법은 다음의 3단계로 정리된다. 첫째, 나에게 맞는 책을 찾는 것이 먼저다. 한 페이지도 넘기기 힘들다면 내려놓자. 둘째, 딱 한 챕터만 읽자. 나에게 맞는 책을 골랐다면 한 챕터만 읽자. 책을 첫 장부터 끝장까지 하나도 빠짐없이 읽어야 한다는 고정관념을 버리자. 셋째, 읽은 한 챕터만 가지고 글을 쓰자. 한 챕터만 가지고 글을 쓰는건 부담없이 얼마든지 할 수 있다. 한번 글로 남긴 내용은 평생 내 것이 된다. 내 것으로 만든 내용은 확실하게 ..
2024.01.07 -
버블 시리즈 ① - 부동산 팔이피플의 배신: 성공 신화와 버블
버블 시리즈 ① - 부동산 팔이피플의 배신: 성공 신화와 버블 팬데믹으로 인해 자산 가치가 급변하는 롤러코스터를 경험한 이들을 위한 버블 시리즈! 부동산 시장과 주식 시장의 버블 현상에 대해 데이터 분석가의 독특한 시각으로 다룬 5편의 글을 만나보세요. 목차 부동산 하락장일까, 반등장일까? 버블과 대중의 광기 성공 신화에 열광하는 사람들 부동산 버블을 찾는 지표 부동산 하락장일까, 반등장일까? 지금 부동산 시장에 대해 물으면, 하락장과 반등장에 대한 각자의 의견이 첨예하게 대립합니다. 최근 한 시사 프로그램에서는 반대되는 두 입장에 선 사람들을 차례로 보여주는 영상을 만들었더군요. 해당 영상에서는 먼저 작년에 집을 샀지만 금리가 오르고 집 값이 하락하면서 이중고를 겪고 있는 사람들이 나오고, 이어서 이 ..
2023.10.09 -
AI, 이것만 알면 됩니다 ⑤ - 한국어 GPT
AI, 이것만 알면 됩니다 ⑤ - 한국어 GPT 무서운 속도로 발전해가는 AI를 이해하기 위해 필요한 지식을 쉽게 풀어 썼습니다. 챗GPT로 인해 본격적으로 시작된 AI 시대, 이것만은 꼭 알아가세요! 목차 만만치 않은 한국어 GPT 한국어 GPT가 마주한 과제 만만치 않은 한국어 GPT 국내 기업은 한국어 특화 AI 모델에 주력 중입니다. Open AI에서 제공하는 GPT-4 모델의 한국어 성능(77.0%)이 영어 성능(85.5%)보다 떨어지기 때문에 ‘한국어 특화’를 돌파구로 삼고 있는 모습으로 보입니다. 하지만 한국어 특화 AI 모델이 그리 쉬워 보이진 않습니다. ‘한국어’라는 특수성에 기인한 한국어 GPT가 어려운 세 가지 이유를 알아보겠습니다. 첫 번째 이유: 절대적으로 적은 양질의 학습 데이터..
2023.04.26 -
AI, 이것만 알면 됩니다 ④ - 효율성
AI, 이것만 알면 됩니다 ④ - 효율성 무서운 속도로 발전해가는 AI를 이해하기 위해 필요한 지식을 쉽게 풀어 썼습니다. 챗GPT로 인해 본격적으로 시작된 AI 시대, 이것만은 꼭 알아가세요! 목차 챗GPT의 가장 큰 약점 Meta의 반격 AI 전쟁의 접전지: 계산 효율성(Computational Efficiency) 누가 생성형 AI 생태계의 주도권을 잡게 될까요? 챗GPT의 가장 큰 약점 챗GPT의 가장 큰 약점으로 지적되는 것은 바로 ‘비효율성’입니다. GPT-4 모델의 파라미터 수는 공개되지 않았지만, GPT-3의 파라미터는 1,750억 개라고 합니다. 파라미터의 수가 많으면 성능이 좋다고 확신할 수 있을까요? 챗GPT로 반복되는 업무를 효율적으로 처리할 수 있다고 반기는 입장도 있지만, 한편에..
2023.04.15 -
AI, 이것만 알면 됩니다 ③ - 오픈소스 AI
AI, 이것만 알면 됩니다 ③ - 오픈소스 AI 무서운 속도로 발전해가는 AI를 이해하기 위해 필요한 지식을 쉽게 풀어 썼습니다. 챗GPT로 인해 본격적으로 시작된 AI 시대, 이것만은 꼭 알아가세요! 목차 일론 머스크가 쏘아 올린 작은 공: TwitterOSS 폐쇄형 LLM이 가져 올 최악의 시나리오 폐쇄형 LLM의 대체재 일론 머스크가 쏘아 올린 작은 공: TwitterOSS 3월의 마지막 날, 트위터 공식 블로그에는 트윗 추천 알고리즘에 대한 자세한 내용과 함께 소스 코드를 깃허브(Git Hub)에 공개한다는 글이 올라왔습니다. 이는 ‘투명한 플랫폼’이라는 기업적 책임과 가치를 위한 선택이었다⁽¹⁾고 합니다. 같은 날 샌프란시스코에서는 오픈소스 AI를 주제로 한 커뮤니티 모임인 ‘Woodstock ..
2023.04.08