본문 바로가기

➕ Data Science/▹ ML14

4. 가사데이터 활용 유사도 기반 추천 시스템 실습 가사데이터 활용 유사도 기반 추천 시스템 실습🔶 데이터 불러오기df = pd.read_csv(base_path + 'lyrics_by_year_1964_2023.csv', encoding='utf-8-sig')df.head()![[Screenshot_490.png]]🔶전처리◻결측치 제거# 결측치 제거df = df.dropna().reset_index(drop=True)◻ 정규식처리# 한글, 영문, 숫자, 빈공백, ?, ! 를 제외한 특수문자 제거pattern = r"[^a-zA-Z0-9가-힣\s\!\.]"# \n까지 지우는 패턴을 적용하려면 # pattern = r'[^가-힣a-zA-Z0-9 \?\.]'clean_lyric = [re.sub(pattern,"",lyric)for lyric in df[.. 2025. 6. 4.
3. 추천시스템 기초 추천시스템 기초🔶 추천시스템🔶 콘텐츠기반 필터링을 활용한 음악추천 시스템구현◻ 데이터전처리◽ 결측치제거,특수문자 제거◽ 형태소분석, 어간추출,정규화,불용화처리◻ 임베딩◽ 문서태깅◽ Doc2vec 학습◻ 유사도계산◽ 가사기반 유사도 계산◽ 년도기반 유사도 계산◽ 가수 기반 유사도 계산◽ 가산,년도,가수에 가중치 적용한 최종 유사도 계산![[Screenshot_487.png]]🔶추천시스템 사례◻ e-commerce: 쿠팡과 같은 온라인 쇼핑몰에서 고객의 구매 이력과 검색 이력을 바탕으로 제품을 추천◻ 스트리밍 서비스: 넷플릭스, 유튜브, 스포티파이 등에서 사용자의 시청/청취 이력을 바탕으로 영화, 동영상, 음악을 추천◻ 뉴스 포털: 사용자가 관심을 가질 만한 뉴스 기사를 추천🔶추천시스템 종류![[Sc.. 2025. 6. 4.
2. IMDB 영화리뷰 데이터 분류 IMDB 영화리뷰 데이터 분류데이터셋🔶 영문 영화 리뷰 데이터셋🔶 라벨 : neg(부정), pos(긍정), unsup(라벨없음 - 비지도학습용)🔶 100,000개 데이터로 구성1. 데이터 셋 불러오기코드df = pd.read_csv(base_path + 'imdb_master.csv', encoding='latin-1')df.head(5)결과![[Screenshot_426.png]]2. 전처리🔶사용할 컬럼만 선택 (review, label)코드df_2 = df[['review','label']]결과![[Screenshot_427.png]]3. EDA🔶EDA : 데이터를 수정하지 않고 눈으로 확인하는 작업 ◻ 오류, 결측치 , 이상치 유무 확인 ◻ 편향유무 ◻ 분산,평균확인 ◻ 시각화🔶 피쳐엔지.. 2025. 6. 2.
1. 텍스트 분석 기초 텍스트 분석 기초🔶 텍스트 마이닝(=자연어처리) (Natural language processing)◻ 개념 :사람이 사용하는 일상의 말이나 언어의 의미르 분석해서 컴퓨터가 처리할수록 하는 작업\텍스트에서 컴퓨터가 이해 할 수 있는 특성으로 추출하는 작업🔶자연어 처리과정![[Screenshot_407.png]]◻ 0. 전처리오류수정, 결측치처리 등등 (자세한건 아래에서 확인)◻ 1. 토큰화큰 문장을 작은 문장 또는 단어로 분리하는 작업문장 분할 및 형태소 분류◻ 2. 인코딩AI모델이 숫자를 기반으로 하기때문에 문자 데이터를 수치형으로 변환하는 작업모델이 이해할수있게 문자를 숫자로 변환◻ 3. 임베딩단어간의 관계(상관성)를 분석해서 컴퓨터가 중요도를 판단하여 이해할수 있게 단어사전으로 만드는작업의미를 .. 2025. 5. 23.
9. 보스턴 주택가격 예측 보스턴주택가격예측1. 문제정의🔶보스턴주택가격 데이터를 사용하여 집값을 예측하는 실습진행🔶회귀모델 사용하기🔶 LinearRegression , SGDRegression2. 데이터수집boston_housing.csv 파일 사용📌fetch_openml : 사이킷런에서 제공하는 데이터셋 관련도구, DataFrame으로 변환하여 가져오는방법컬럼설명CRIM : 지역별 범죄 발생률ZN :25,000평방피트를 초과하는 거주지역 비율INDUS : 비상업지역 넓이 비율CHAS : 찰스강에 대한 더미변수 (1: 강의경계 , 0 그외)NOX : 일산화 질소 농도RM : 거주할수 있는 방의 갯수AGE : 1940년 이전에 건축된 소유 주택의 비율DIS : 5개 주요 고용 센터까지의 가중거리RAD고속도로 접근 용이도TAX.. 2025. 5. 19.