[Spring Intro] Section 06. 스프링 DB 접근 기술 강의: 김영한의 스프링 입문 https://www.inflearn.com/course/%EC%8A%A4%ED%94%84%EB%A7%81-%EC%9E%85%EB%AC%B8-%EC%8A%A4%ED%94%84%EB%A7%81%EB%B6%80%ED%8A%B8/ # 들어가기 전 이전 포스팅까지는 회원 정보를 메모리에 저장했기 때문에 서버를 껐다 켜면 데이터가 메모리에서 모두 사라졌다 실무에서는 이런 일이 발생하면 안 되기 때문에 데이터베이스를 통해 저장하고 관리해야 한다 이를 위해 H2 데이터베이스를 설치하고, 데이터베이스의 SQL을 통해 애플리케이션 서버와 DB를 연결해 볼 것이다 연결할 때 필요한 것이 바로 Jdbc 기술이며, 오랜 전의 ..
Ch10. Representing and Mining Text - 숙명여자대학교 소프트웨어학부 데이터사이언스개론 - 박동철 교수님 # Dealing with Text - 우리 입맛대로 feature vector에 맞게 data가 주어지지 않음 - tool에 맞게 데이터를 가공하거나 (representation engineering = preprocessing) 데이터에 맞는 tool을 새로 설계함 // 전자의 방법이 효율적이기 때문에 일반적으로 사용 - text data: 여러 분야에서 text data를 다루고 mining하며 분석하기 때문에 큰 부분을 차지 # Why Text is Important - text는 어디에나 있음 > 많은 기존의 적용에서 text를 만들어내거나 기록함 ex) 진료 기록 ..
Ch9. Evidence and Probabilites - 숙명여자대학교 소프트웨어학부 데이터사이언스개론 - 박동철 교수님 # Evidence-Based Classification - evidence: 각 feature에 대해 각 instance들이 가지는 값 - instance를 분류하는데 연관성이 많을수록 강력한 evidence가 됨 # Online Targeted Advertising - 온라인 광고를 target하는 것을 고려해 봄 > 그 중에서도 노출 광고를 생각해 볼 것임 - display advertising 노출 광고의 특징 > search advertising과는 다름 ex) 자동차를 검색한 사람에게는 검색 결과에 자동차 광고를 함께 띄우는 것이 검색 광고 > 고객 어느 단어도 검색한 적..
Ch8. Visualizing Model Performance - 숙명여자대학교 소프트웨어학부 데이터사이언스개론 - 박동철 교수님 # Visualizing Model Performance - 모든 사람들이 model performance를 이해하는 데 있어 동일한 background를 가지고 있는 것은 아니므로 시각화 필요 - model performance에 대해 더 직관적인 이해를 가능하게 해 줌 > 위의 그래프는 많이 휘어질수록 좋은 성능을 보임 # Ranking Instead of Classifying - 이전에서 배운 modeling은 어떻게 classfy 할 것인가? 에 초점 - chapter 8에서는 성능을 시각화하는 방법에 대해 배울 것 - classifier가 직접 return 하는 하나..
Ch7. Decision Analytic Thinking 1: What is a Good Model? - 숙명여자대학교 소프트웨어학부 데이터사이언스개론 - 박동철 교수님 # How Would You Measure A Model? - data를 mining함으로써 무엇을 성취하고자 하는지(=goal)를 고려하는 것은 매우 중요 - 의미있는 방식으로 성능을 측정해야 함 > problem에 대한 "올바른" 평가 metric은 무엇인가? > (ex) cellular-churn problem → 무엇을 기준으로 성능을 측정할 것인지는 회사나 도메인에 따라 다름. 즉 얻고자하는 정보에 따라 달라질 수 있는 것 → 이탈하는 고객의 비율, 예측 정확도 등등.. # Evaluating Classifiers - class..
Ch6. Similarity, Neighbors, and Clusters - 숙명여자대학교 소프트웨어학부 데이터사이언스개론 - 박동철 교수님 # Similarity - data science 방법과 해결에 기반이 됨 > 유사한 것들은 공통된 특징(common characteristics)을 가짐 - 예시 > 유사한 항목을 검사(retrieving): 회사 입장에서 최근에 좋다고 생각하는 고객과 유사한 고객을 찾음 > 유사한 item끼리 묶음 = clustering : 그룹의 특징을 보기 위해 비슷한 고객끼리 묶음 > 상품 추천: 추천을 제공하기 위해 비슷한 상품이나 고객을 찾음 > 비슷한 case로부터 추론: 비슷한 case를 제공함으로써 의사나 법률인을 도움 # Similarity and Distanc..
Ch5. Overfitting and Its Avoidance - 숙명여자대학교 소프트웨어학부 데이터사이언스개론 - 박동철 교수님 # Overfitting - data science의 가장 중요하고 근본적인 개념 중 하나 - model을 만드는 것에 있어 flexibility를 너무 허용하면 만들어진 model이 내가 가지고 있는 특정한 dataset에만 상응될 수도 있음 - Overfitting > model이 training dataset을 넘어 일반화하지 못할 때 > 새로운(that we have not yet seen) instances에 대해 예측하지 못할 때 # A Hypothetical Example - 고객 이탈을 줄여야하는 manager가 있음 - data scientist는 아래 내용을..
Ch4. Fitting a Model to Data - 숙명여자대학교 소프트웨어학부 데이터사이언스개론 - 박동철 교수님 # Predictive Modeling - 다른 attribute의 측면에서 target 변수의 model 찾기를 포함 - predictive modeling의 두 가지 유형 ① Nonparametric modeling > model의 구조가 고정되지 않음 > model의 구조는 data로부터 결정됨 > ex) tree → data에서 ig, 엔트로피를 통해서 정해짐 ② Parametric modeling > model의 구조가 고정됨 > model의 구조는 data 분석에 의해 명시됨 > ex) y = ax + b (a, b는 상수) # 1. Nonparametric Modeling ..
Ch3. Introduction to Predictive Modeling: From Correlation to Supervised Segmentation - 숙명여자대학교 소프트웨어학부 데이터사이언스개론 - 박동철 교수님 * Modeling: 새로운 데이터가 들어왔을 때 결과를 예측하기 위함 # Predictive Modeling - 일반적인 과정 > data를 잘 묘사하는 model을 구축 → Bulid a model > 새로운 data의 결과를 예측하기 위해 model을 적용시킴 → Apply the model - 첫 번째로 classification을 고려할 수 있음 > training data를 기반으로 새로운 data가 속할 class를 식별 # Model - 목적에 맞는 현실의 단순화 표현 →..
Ch2. Business Problems and Data Science Solution - 숙명여자대학교 소프트웨어학부 데이터사이언스개론 - 박동철 교수님 # Data Science Process - data science의 원리 > data mining은 상당히 이해되는 단계임 → fairly well-understood = systematic - Data science의 과정 > data scientist들은 현실세계의 문제를 substask로 나눔 > subtask들에 대한 해결은 전반적인 문제를 해결하기 위해 구성됨 - 문제의 밑바탕이 되는 공통된 data mining task가 있음 > ex) classification, regression, clustering, association, rule..