Ch1. Data-Analytic Thinking
- 숙명여자대학교 소프트웨어학부 데이터사이언스개론 - 박동철 교수님
# What is data science?
- 다양한 형태 안에 데이터로부터 지식과 견해를 추출하고 발견하기 위한 융합적인 학문(interdisciplinary) 분야
- Software Development: Domain/business knowledge를 통해 요구사항을 파악 → C/S로 개발
- Domains/Business Knowledge: 어떤 지식과 insight가 필요한지에 대한 정보 알 수 있음
- Traditional Research: 분석이 대다수
# The Realm of Data Science
- 최근 사업(or 다른 분야..)을 진행하는데 있어 데이터를 모으는 능력(the ability to collect data)이 중요
- 현재 모든 사업적 측면에서 데이터의 모음(data collection)을 끌어옴
- 이러한 광범위한 데이터 유용성으로 인해 데이터 사이언스(data science)에 대한 관심이 높아지고 있음
→ 데이터로부터 유용한 정보와 지식을 추출하는 방법
# The Rising of Data Science
- 현재 엄청난 양의 데이터를 사용할 수 있음에 따라, 거의 모든 기업이 경쟁 우위를 확보하기 위해 데이터 활용에 주력하고 있음 → focusing on exploiting data for competitive advantage
- 과거: 수작업으로 dataset을 분석하기위해 통계학자들이나 분석가들를 고용
- 현재
> 많고 다양한 데이터(volume and variety of data)가 수작업으로 할 수 있는 분석의 영역을 벗어남
> 컴퓨터와 네트워크가 더욱 발전함 → computers and networks have become more powerful
# Data Mining (part of Data Science
- Data mining: 데이터 사이언스의 일부분
> 큰 data set에서 패턴을 찾는 과정(the process of discovering patterns in large data sets)
> 일반적으로 소비자의 행동을 분석하는데 사용됨 → 주어진 domain에서 패턴을 찾거나 모델링을 하는 것
- 적용: Targeted marketing, Online advertising, Recommdendations for cross-selling, Credit scoring, Fraud detection
# Data Science VS. Data Mining
- 두 가지 분야는 서로 주고 받는데 사용됨 → 우리는 두 분야의 차이점을 크게 신경쓰지 않을 것임
- Data science
> data로부터 지식을 추출하는 것에 대해 설명하는 근본적인 원칙들의 집합 → fundamental principles that guide the extraction of knowledge from data
> 전통적인 data mining의 사용보다 더 넓게 사용됨 → be used more broadly than the tranditional use of "data mining"
- Data mining
> 주로 data science의 첫 번째 과정 혹은 부분으로서 data로 부터 숨은 패턴을 추출함 → extraction of hidden patterns from data, part of data science
* 이때 첫 번째 과정(first step)이란 데이터 수집과 가공(실질적인 첫 번째 과정) 이후를 의미함
> 즉, data mining 기술은 data science의 원칙을 실체화한다 > embody the principles of data science
# Example of data-driven predictions
★ 쉽게 찾아낼 수 없는 패턴이 더 가치 있음 → more valuable to discover unobvious patterns
(1) Hurricane Frances
- 상황: 허리케인이 지나갈 것을 미리 알았던 walmart 사장이 미리 예측해서 물건을 들여놓으려고 함
Q. 이 상황에서 어떤 예측을 할 수 있을것인가?
- "허리케인이 지나가는 길목에 사는 사람들은 물병을 좀 더 살 것이다"
>> Not useful → 자명한 사실(obvious)
- "물병의 판매율이 20% 증가한다"
>> Useful → 지역 WalMart가 재고를 적절히 갖추고 있을 수 있음
- "허리케인이 지날 때 특정 DVD가 매진되었다"
>> Might not be useful → 전역에서 매진된 것 일 수 있음
ex) 겨울왕국2가 개봉한 시기가 허리케인이 지나간 시기랑 겹칠 수도 있는 것 따라서 이 데이터는 유용할 수도 있고 아닐수도 있음
- "특정 과자(Strawberry Pop-Tarts)의 판매량이 평소보다 7배 증가했다"
>> Very useful → 기대하기에 어려운 일반적이지 않은 일 / 예측하기 힘든 것
(2) Predicting Customer Churn
- 통신회사 MegaTelCo의 문제
> 일반적으로 고객의 20%가 계약이 종료되면 다른 회사로 이탈함
> 고객들을 유지하도록 노력해야함
- 주어진 마케팅 예산에서 우리는 어떻게 고객 이탈을 막을 수 있는가?
> 회사는 일부 고객에게 계약 만료 전에 특별 보존 서비스를 제공할 계획임 → offer a special retention offer
> 특정 인센티브 예산 내에서 고객 이탈을 최대한 줄이기 위해서는 위와 같은 서비스를 제공할 고객을 어떻게
선택해야 하는가?
→ How should we choose a set of customers to receive their offer in order to best reduce churn for a particular incentive buget?
# Data-Driven Decision Making
- 데이터를 기반으로해서 어떤 분석을 하고 그 분석으로 의사결정을 하는 것
ex) 광고 선택시 누군가의 경험에 의해 선택하기 보다는 고객들이 다른 광고에 대해 어떻게 반응했는지에 대한 데이터 분석을 기반으로 선택해야 한다
- Data science
> DDD를 뒷받침함 → support DDD
> 데이터 분석을 통한 현상 파악을 위한 원칙, 과정 및 기술 포함
# The Benefit of DDD
- 통계적으로 DDD를 사용한 회사가 더 생산적임
ex) Target, a Walmart's competitor
- 고객들은 바꾸기 어려운 그들의 쇼핑 습관을 가지고 있음 → shopping habit that are difficult to change
- 고객의 임신은 특별한 기점이 될 수 있음 >> 귀저기와 같은 아기용품을 사는 매장에서 다른 것도 살 것임
- 대부분의 판매자들은 이것을 알고있음 >> 해당 고객들에게 special offers를 보냄
- 이것을 넘어, Target은 고객이 아기를 가지기 원하는지를 예측 → predict that people are expecting a baby
>> 과거의 임신을 하기 전의 고객 데이터를 분석함 → ~한 구매 이력을 가지는 고객은 임신을 한다라는 식으로
By analyzing historical data 분석을 함
- 따라서 그들은 위와 같은 offer를 그들의 경쟁사들이 만들기 전에 만듬으로써 이점을 얻을 수 있음
# Automated DDD
- 증가적으로, 비지니스 결정이 컴퓨터 시스템에 의해 자동화되고 있음 → automatically by computer system
ex)
- 은행과 통신 회사: 부정행위 통상품제 의사결정 시스템 → fraud control decision systems
- 소매 : 판매 결정 시스템 → merchandising decision system
- 아마존과 넷플릭스 : 추천 시스템 → recommendation systems
- 광고회사 : 실시간 광고 결정 시스템 → real-time advertising decision system
# Data Engineering VS. Data Science
- Data engineering (or Data processing) ≠ Data science
- Data engineering
>> Supports data science
>> 소프트웨어나 데이터 시스템 처리 과정을 '설계, 개발, 유지'하는 것
→ Designs, develops, and maintains data processing
system or SW
→ ex) databases systems, big data platforms
- Data science
>> 데이터를 수집, 탐색, 분석
>> 데이터에 접근하기 위해 data engineering 기술을 사용
# Data Science and Big Data
- Big data
> 기존 데이터 처리 시스템에 비해 너무 커서 새로운 처리 기술이 필요한 데이터 집합 → require new processing technology
> 4 Vs of big data: volume, variety, velocity, and veracity
- Big data technologies
> 데이터를 정제(관련된 데이터를 추출)해서 넘기는 기술
> 4 Vs of big data를 다루는 기술
> big data에 대한 data science 혹은 data mining을 support
# Data and Data Scence Capability
- One of the fundametal principles of data science
① Data, 데이터 그 자체
② the capability to extract useful knowledge from data,
①, ② should be regarded as key strategic assets → 핵심적이고 전력적인 자산
- 즉, 우리는 최고의 결과를 얻기 위해 두 개의 원칙(①, ②)에 대한 자산에 투자를 해야함
→ invest in both assets to get the best results
- 최고의 data science 팀과 적절한 data에 대한 투자는 의사 결정의 큰 차이를 만들어 냄
→ Investments for the best data science team and appropertiate data can make huge difference for decision-making
# Example Data As a Stragegic Asset
- 1990년, Fairbank와 Morries는 이전에 없던 예측 모델에 따른 다른 조항을 제공하자는 의견을 제시
>> 1980년의 신용카드는 모두 같은 형태를 가지고 있었음
- 모든 은행은 이 제안을 거절했지만, Signet 은행에서 이를 수용해 줌
- Big problem: 그들은 적절한 데이터를 가지고 있지 않았음 → They didin't have appropriate data
- 그들은 다른 고객들에게 데이터를 얻기 위해 랜덤으로 다른 조항을 제공하기 시작함 →
- result: 손실은 계속되었지만 data scientist들은 계속해서 데이터를 바탕으로 예측 모델을 설계하고 평가하고 배치했음. 그들은 손실을 데이터에 대한 투자로 여김
- Signet 신용카드 영업은 회복되었고 은행으로부터 분리될 정도로 수익성이 좋아짐 → 미래에 Capital One으로 성장함 (영향력있는 큰 신용 카드 회사 중 하나)
# Other Examples: Data As a Strategic Asset
- Amazon: 상항단 전환 비용으로 온라인 고객 데이터를 수집하여 추천을 제공함으로써 고객을 더 쉽게 유지할 수 있음
- Harrah's casinos: 명성 있는 도박꾼에 대한 데이터를 모으고 마이닝하는 것에 투자하여 세계적인 도박 회사가가 됨
- Facebook: 개인, 그들의 좋아요 그리고 사회망의 구조에 대한 방대하고 독특한 정보를 모음
# Data-Analytic Thinking
- 실제 문제 상황을 직면했을 때, "데이터 분석적"으로 문제에 접근해야함 → "data-analytically"
> 어떻게 데이터가 수행을 향상할 수 있는지와 방법을 정량적으로(수치적으로) 평가해야 함
→ assess quantitatively
- Data-analytic thinking
> 근본적인 개념과 원칙의 집합에 의해 용이하게 됨 → set of fundamental concepts and principles
> 체계가 갖추어진 단계에 의해 구조화됨 → systematic framework
- Advantage
> 다른 사람(ex. data scientist)과 쉽게 상호작용 할 수 있게 도움 → interact competently with others
> ddd(data-driven decision making)를 항샹하는 것을 도움 → improve data-driven decision making
> 데이터 중심의 경쟁 위협을 확인하는 것을 도움 → competitive threats
- Current industries and companis
> 수입은 증가시키고 비용은 감소시키기 위해서 data science team들을 고용함
> 주요 전략적인 요소로써 data mining을 사용함 → a key strategic component
- Even when you are not a data scientist ...
> Managers: data science 팀들과 프로젝트를 감독할 수 있어야 함 → oversee data science teams and
projects
> Marketers: 데이터 중심 캠페인을 이해할 수 있어야 함 → understand data-driven campaigns
> Business strategists: data를 이용하는 계획을 고안할 수 있어야 함 → devise plans that exploit data
- 당신의 분야에 대해 이해하기 위해 data science의 근본적인 개념을 알아야 함
→ know the fundamental concepts of data science to understand your business(domain)
> 그렇지 않으면 잘못된 결정을 만들 수 있음
# Example of Fundamental Concepts
① data로 부터 유용한 정보를 추출하기 위해 체계적인 과정을 따르라
"Follow a systematic process to extract useful knowledge from data"
> systematic process: well-defined stages
ex) analysis of the problem → modeling → careful evaluation
> 그러한 과정들은 data에 대한 우리의 생각을 구조화하는 틀구조를 제공함
→ framework to structure our thingking about data
② 크고 정리되지 않은 데이터로부터 유익하면서 관심 있어하는 독립적 속성을 찾아라
"Find informative attributes of entities of interest from a large mass of data"
> 필요한 정보를 우리에게 주는 변수를 찾아라
> 다음 중 고객 이탈과 상응하는 속성은?
→ 이름은 도움이 안되지만 오래 사용한 이력이 있는 고객은 이탈율이 낮으므로 도움이 되는 속성임
③ Overfitting을 피하라
"Avoid overfitting"
> Overfitting: 모델이 특정한 데이터 집합에 너무 잘 맞아 그 데이터를 넘어서는 일반화될 수 없는 것
④ mining의 결과를 신중하고 객관적으로 평가해라
"Evaluate the results of mining carefully and objectively"
> 결과가 얼마나 나아질지 공식화 해야한다
ex) ①이 ②보다 낫다는 것을 어떻게 보여줄 것인가?
# The Engineering Side of Data Science
- Data scientist들은 두 가지 유형의 능력을 가져야 함
① Science
> 이론적인 개념을 적용하고 실제 상황에 원리를 적용하는 능력
→ apply theoretical concept and principles to practical situations
② Technology
> 인기 있는 프로그래밍 언어와 too들을 사용하는 능력
- 현재로써 특정 종류의 소프트웨어 툴에 능숙하지 않은 data scientist를 상상하기 힘듬
- 하지만 우리는 기술보다 science에 집중할 것
→ 교재가 business를 다루기 때문에 이런 멘트가 있는 것 공대생인 우리에게 중요한 것은 technology임 !
# Summary
- Data science: To extract useful information and knowledge from large volume of data, in order to support data-driven decision making
- Data-analytic thinking
> You should be able to apply the fundamental concepts to real
> Important not only for data scientists, but for anyone workig with them
> Aided by a systemic process or framework with well-defined stages
- Data science depends on(밀접한 관련이 있음) big data technologies and engineering
> However, its principles are separate from them
'Study > Data Science' 카테고리의 다른 글
[DataScience] Ch6. Similarity, Neighbors, and Clusters (0) | 2021.08.24 |
---|---|
[DataScience] Ch5. Overfitting and Its Avoidance (0) | 2021.08.24 |
[DataScience] Ch4. Fitting a Model to Data (0) | 2021.08.23 |
[DataScience] Ch.3 Introduction to Predictive Modeling: From Correlation to Supervised Segmentation (0) | 2021.08.23 |
[DataScience] Ch.2 Business Problems and Data Science Solutions (0) | 2021.08.23 |