Fascination
article thumbnail

Ch1. Data-Analytic Thinking

- 숙명여자대학교 소프트웨어학부 데이터사이언스개론 - 박동철 교수님


# What is data science?

- 다양한 형태 안에 데이터로부터 지식과 견해를 추출하고 발견하기 위한 융합적인 학문(interdisciplinary) 분야
- Software Development: Domain/business knowledge를 통해 요구사항을 파악 → C/S로 개발
Domains/Business Knowledge: 어떤 지식과 insight가 필요한지에 대한 정보 알 수 있음
Traditional Research: 분석이 대다수

 

 

 

# The Realm of Data Science

- 최근 사업(or 다른 분야..)을 진행하는데 있어 데이터를 모으는 능력(the ability to collect data)이 중요

- 현재 모든 사업적 측면에서 데이터의 모음(data collection)을 끌어옴

이러한 광범위한 데이터 유용성으로 인해 데이터 사이언스(data science)에 대한 관심이 높아지고 있음

→ 데이터로부터 유용한 정보와 지식을 추출하는 방법

 

 

# The Rising of Data Science

현재 엄청난 양의 데이터를 사용할 수 있음에 따라, 거의 모든 기업이 경쟁 우위를 확보하기 위해 데이터 활용에 주력하고 있음 → focusing on exploiting data for competitive advantage

- 과거: 수작업으로 dataset을 분석하기위해 통계학자들이나 분석가들를 고용

- 현재

> 많고 다양한 데이터(volume and variety of data)가 수작업으로 할 수 있는 분석의 영역을 벗어남

> 컴퓨터와 네트워크가 더욱 발전함 → computers and networks have become more powerful

 

 

# Data Mining (part of Data Science

Data mining: 데이터 사이언스의 일부분

> 큰 data set에서 패턴을 찾는 과정(the process of discovering patterns in large data sets)

> 일반적으로 소비자의 행동을 분석하는데 사용됨 → 주어진 domain에서 패턴을 찾거나 모델링을 하는 것

- 적용: Targeted marketing, Online advertising, Recommdendations for cross-selling, Credit scoring, Fraud detection

 

 

# Data Science VS. Data Mining

두 가지 분야는 서로 주고 받는데 사용됨 → 우리는 두 분야의 차이점을 크게 신경쓰지 않을 것임

Data science

> data로부터 지식을 추출하는 것에 대해 설명하는 근본적인 원칙들의 집합 → fundamental principles that guide the extraction of knowledge from data

> 전통적인 data mining의 사용보다 더 넓게 사용됨 → be used more broadly than the tranditional use of "data mining"

Data mining

> 주로 data science의 첫 번째 과정 혹은 부분으로서 data로 부터 숨은 패턴을 추출함 → extraction of hidden patterns from data, part of data science

* 이때 첫 번째 과정(first step)이란 데이터 수집과 가공(실질적인 첫 번째 과정) 이후를 의미

> 즉, data mining 기술은 data science의 원칙을 실체화한다 > embody the principles of data science

 

 


# Example of data-driven predictions

★ 쉽게 찾아낼 수 없는 패턴이 더 가치 있음 → more valuable to discover unobvious patterns

(1) Hurricane Frances

- 상황: 허리케인이 지나갈 것을 미리 알았던 walmart 사장이 미리 예측해서 물건을 들여놓으려고 함

Q. 이 상황에서 어떤 예측을 할 수 있을것인가?

- "허리케인이 지나가는 길목에 사는 사람들은 물병을 좀 더 살 것이다"

>> Not useful → 자명한 사실(obvious)

- "물병의 판매율이 20% 증가한다"

>> Useful → 지역 WalMart가 재고를 적절히 갖추고 있을 수 있음

- "허리케인이 지날 때 특정 DVD가 매진되었다"

>> Might not be useful → 전역에서 매진된 것 일 수 있음

ex) 겨울왕국2가 개봉한 시기가 허리케인이 지나간 시기랑 겹칠 수도 있는 것 따라서 이 데이터는 유용할 수도 있고 아닐수도 있음

- "특정 과자(Strawberry Pop-Tarts)의 판매량이 평소보다 7배 증가했다"

>> Very useful → 기대하기에 어려운 일반적이지 않은 일 / 예측하기 힘든 것

 

(2) Predicting Customer Churn

- 통신회사 MegaTelCo의 문제

> 일반적으로 고객의 20%가 계약이 종료되면 다른 회사로 이탈함

> 고객들을 유지하도록 노력해야함

- 주어진 마케팅 예산에서 우리는 어떻게 고객 이탈을 막을 수 있는가?

회사는 일부 고객에게 계약 만료 전에 특별 보존 서비스를 제공할 계획임 → offer a special retention offer

> 특정 인센티브 예산 내에서 고객 이탈을 최대한 줄이기 위해서는 위와 같은 서비스를 제공할 고객을 어떻게

선택해야 하는가?

  → How should we choose a set of customers to receive their offer in order to best reduce churn for a particular incentive buget?

 

 

# Data-Driven Decision Making

- 데이터를 기반으로해서 어떤 분석을 하고 그 분석으로 의사결정을 하는 것

ex) 광고 선택시 누군가의 경험에 의해 선택하기 보다는 고객들이 다른 광고에 대해 어떻게 반응했는지에 대한 데이터 분석을 기반으로 선택해야 한다

Data science

> DDD를 뒷받침함 → support DDD

> 데이터 분석을 통한 현상 파악을 위한 원칙, 과정 및 기술 포함

 

 

 

 

 

# The Benefit of DDD

- 통계적으로 DDD를 사용한 회사가 더 생산적임

ex) Target, a Walmart's competitor

- 고객들은 바꾸기 어려운 그들의 쇼핑 습관을 가지고 있음 → shopping habit that are difficult to change

- 고객의 임신은 특별한 기점이 될 수 있음 >> 귀저기와 같은 아기용품을 사는 매장에서 다른 것도 살 것임

- 대부분의 판매자들은 이것을 알고있음 >> 해당 고객들에게 special offers를 보냄

- 이것을 넘어, Target은 고객이 아기를 가지기 원하는지를 예측 → predict that people are expecting a baby

>> 과거의 임신을 하기 전의 고객 데이터를 분석함 → ~한 구매 이력을 가지는 고객은 임신을 한다라는 식으로

By analyzing historical data 분석을 함

- 따라서 그들은 위와 같은 offer를 그들의 경쟁사들이 만들기 전에 만듬으로써 이점을 얻을 수 있음

 

 

# Automated DDD

- 증가적으로, 비지니스 결정이 컴퓨터 시스템에 의해 자동화되고 있음 → automatically by computer system

ex)

- 은행과 통신 회사: 부정행위 통상품제 의사결정 시스템 → fraud control decision systems

- 소매 : 판매 결정 시스템 → merchandising decision system

- 아마존과 넷플릭스 : 추천 시스템 → recommendation systems

- 광고회사 : 실시간 광고 결정 시스템 → real-time advertising decision system

 


# Data Engineering VS. Data Science

Data engineering (or Data processing) ≠ Data science

Data engineering

>> Supports data science

>> 소프트웨어나 데이터 시스템 처리 과정을 '설계, 개발, 유지'하는 것

→ Designs, develops, and maintains data processing

system or SW

→ ex) databases systems, big data platforms

Data science

>> 데이터를 수집, 탐색, 분석

>> 데이터에 접근하기 위해 data engineering 기술을 사용

 

 

# Data Science and Big Data

Big data

기존 데이터 처리 시스템에 비해 너무 커서 새로운 처리 기술이 필요한 데이터 집합 → require new processing technology

> 4 Vs of big data: volume, variety, velocity, and veracity

 

Big data technologies

데이터를 정제(관련된 데이터를 추출)해서 넘기는 기술

4 Vs of big data를 다루는 기술

> big data에 대한 data science 혹은 data mining을 support

 


# Data and Data Scence Capability

- One of the fundametal principles of data science

① Data, 데이터 그 자체

② the capability to extract useful knowledge from data,

①, ② should be regarded as key strategic assets → 핵심적이고 전력적인 자산

- 즉, 우리는 최고의 결과를 얻기 위해 두 개의 원칙(①, ②)에 대한 자산에 투자를 해야함

→ invest in both assets to get the best results

- 최고의 data science 팀과 적절한 data에 대한 투자는 의사 결정의 큰 차이를 만들어 냄

→ Investments for the best data science team and appropertiate data can make huge difference for decision-making

 

 

# Example Data As a Stragegic Asset

- 1990년, Fairbank와 Morries는 이전에 없던 예측 모델에 따른 다른 조항을 제공하자는 의견을 제시

>> 1980년의 신용카드는 모두 같은 형태를 가지고 있었음

- 모든 은행은 이 제안을 거절했지만, Signet 은행에서 이를 수용해 줌

- Big problem: 그들은 적절한 데이터를 가지고 있지 않았음 → They didin't have appropriate data

- 그들은 다른 고객들에게 데이터를 얻기 위해 랜덤으로 다른 조항을 제공하기 시작함 →

- result: 손실은 계속되었지만 data scientist들은 계속해서 데이터를 바탕으로 예측 모델을 설계하고 평가하고 배치했음. 그들은 손실을 데이터에 대한 투자로 여김

Signet 신용카드 영업은 회복되었고 은행으로부터 분리될 정도로 수익성이 좋아짐 → 미래에 Capital One으로 성장함 (영향력있는 큰 신용 카드 회사 중 하나)

 

 

# Other Examples: Data As a Strategic Asset

- Amazon: 상항단 전환 비용으로 온라인 고객 데이터를 수집하여 추천을 제공함으로써 고객을 더 쉽게 유지할 수 있음

- Harrah's casinos: 명성 있는 도박꾼에 대한 데이터를 모으고 마이닝하는 것에 투자하여 세계적인 도박 회사가가 됨

- Facebook: 개인, 그들의 좋아요 그리고 사회망의 구조에 대한 방대하고 독특한 정보를 모음

 


# Data-Analytic Thinking

- 실제 문제 상황을 직면했을 때, "데이터 분석적"으로 문제에 접근해야함 → "data-analytically"

> 어떻게 데이터가 수행을 향상할 수 있는지와 방법을 정량적으로(수치적으로) 평가해야 함

→ assess quantitatively

Data-analytic thinking

> 근본적인 개념과 원칙의 집합에 의해 용이하게 됨 → set of fundamental concepts and principles

> 체계가 갖추어진 단계에 의해 구조화됨 → systematic framework

Advantage

> 다른 사람(ex. data scientist)과 쉽게 상호작용 할 수 있게 도움 → interact competently with others

ddd(data-driven decision making)를 항샹하는 것을 도움 → improve data-driven decision making

> 데이터 중심의 경쟁 위협을 확인하는 것을 도움 → competitive threats

Current industries and companis

> 수입은 증가시키고 비용은 감소시키기 위해서 data science team들을 고용함

> 주요 전략적인 요소로써 data mining을 사용함 → a key strategic component

Even when you are not a data scientist ...

> Managers: data science 팀들과 프로젝트를 감독할 수 있어야 함 → oversee data science teams and

projects

> Marketers: 데이터 중심 캠페인을 이해할 수 있어야 함 → understand data-driven campaigns

> Business strategists: data를 이용하는 계획을 고안할 수 있어야 함 → devise plans that exploit data

- 당신의 분야에 대해 이해하기 위해 data science의 근본적인 개념을 알아야 함

→ know the fundamental concepts of data science to understand your business(domain)

> 그렇지 않으면 잘못된 결정을 만들 수 있음

 

 

# Example of Fundamental Concepts

① data로 부터 유용한 정보를 추출하기 위해 체계적인 과정을 따르라

"Follow a systematic process to extract useful knowledge from data"

systematic process: well-defined stages

ex) analysis of the problem → modeling → careful evaluation

> 그러한 과정들은 data에 대한 우리의 생각을 구조화하는 틀구조를 제공함

→ framework to structure our thingking about data

② 크고 정리되지 않은 데이터로부터 유익하면서 관심 있어하는 독립적 속성을 찾아라

"Find informative attributes of entities of interest from a large mass of data"

> 필요한 정보를 우리에게 주는 변수를 찾아라

> 다음 중 고객 이탈과 상응하는 속성은?

→ 이름은 도움이 안되지만 오래 사용한 이력이 있는 고객은 이탈율이 낮으므로 도움이 되는 속성임

③ Overfitting을 피하라

"Avoid overfitting"

> Overfitting: 모델이 특정한 데이터 집합에 너무 잘 맞아 그 데이터를 넘어서는 일반화될 수 없는 것

④ mining의 결과를 신중하고 객관적으로 평가해라

"Evaluate the results of mining carefully and objectively"

> 결과가 얼마나 나아질지 공식화 해야한다

ex) ①이 ②보다 낫다는 것을 어떻게 보여줄 것인가?

 


# The Engineering Side of Data Science

- Data scientist들은 두 가지 유형의 능력을 가져야 함

① Science

이론적인 개념을 적용하고 실제 상황에 원리를 적용하는 능력

→ apply theoretical concept and principles to practical situations

② Technology

> 인기 있는 프로그래밍 언어와 too들을 사용하는 능력

- 현재로써 특정 종류의 소프트웨어 툴에 능숙하지 않은 data scientist를 상상하기 힘듬

- 하지만 우리는 기술보다 science에 집중할 것

→ 교재가 business를 다루기 때문에 이런 멘트가 있는 것 공대생인 우리에게 중요한 것은 technology임 !

 


# Summary

Data science: To extract useful information and knowledge from large volume of data, in order to support data-driven decision making

Data-analytic thinking

> You should be able to apply the fundamental concepts to real

> Important not only for data scientists, but for anyone workig with them

> Aided by a systemic process or framework with well-defined stages

Data science depends on(밀접한 관련이 있음) big data technologies and engineering

> However, its principles are separate from them

profile

Fascination

@euna-319

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!