데이터 분석에서 시계열 데이터를 분석하기 위해서는 특별한 방법론이 필요하다. 시계열 데이터는 말 그대로 시간의 흐름에 따라 수집된 데이터를 의미한다. 단순히 시간에 따라 수집된 데이터라고 생각하면, 우리가 분석하는 모든 데이터가 시계열 데이터처럼 보일 수 있다. 왜냐하면 우리는 빅뱅 이후 시간이 존재하는 공간에서 살아가고 있기 때문에 모든 데이터가 시간의 영향을 받을 수 밖에 없기 때문이다. 그러나 시계열 데이터인지 판단하는 핵심 기준은 데이터의 순서가 분석에 영향을 미치는지 여부이다. 시간에 따라 수집된 데이터라도, 그 순서가 분석 결과에 영향을 미치지 않으면 굳이 시계열 분석 방법론을 적용할 필요가 없다. 시계열 데이터 분석 방법론의 특징은 과거 데이터의 정보를 누적하여 현재를 판단하는 것이다. 이는 현재 정보가 과거 정보의 누적된 결과라는 사실에 기반한다. 예를 들어, 인공지능에서 널리 사용되는 시계열 방법론인 순환신경망(recurrent neural network; RNN)는 과거 데이터를 누적한 정보를 특징벡터로 사용한다. 기본 RNN에서 발전된 LSTM(long short-term memory)이나 GRU(gated recurrent unit) 역시 과거 데이터를 누적하여 얻어진 정보를 사용한다. 이처럼 순서를 기준으로 보면 텍스트 데이터나 유전체 데이터 (뉴클리오타이드, 아미노산)도 모두 시계열 데이터로 간주할 수 있다. 시계열 여부를 판단하는 가장 간단한 방법은, 분석하려는 데이터의 순서를 뒤바꿨을 때 분석 결과에 영향을 미치는지 확인하는 것이다. 우리 삶에서도 올바른 의사결정을 위해서는 과거의 경험이 매우 중요하다. 지금의 나를 돌아보면, 내가 어떤 선택을 했고, 어떤 길을 걸어왔는지 알 수 있다. 내가 한 행동들, 내가 내린 결정들이 지금의 나를 만든 것이다. 그렇다면, 미래의 나는 어떻게 될까? 그것은 지금 이 순간, 내가 어떤 결정을 내리고, 어떤 행동을 하느냐에 달려 있다. 삶은 반복되는 과거의 연속이자, 새로운 미래를 만들어가는 과정이다. 결국, 과거와 현재, 그리고 미래는 서로 깊이 연결되어 있다는 점을 잊지 말아야겠다


Analyzing time series data in data analytics requires a special methodology. Time series data are collected over time. If we think of it simply as data collected over time, all of the data we analyze can look like time series data. This is because we live in a space where time has existed since the Big Bang, so all data is subject to the effects of time. However, a key criterion for determining whether data is time series is whether the order of the data affects the analysis. Even if the data is obtained over time, there is no need to apply time series analysis methodology if the order of the data does not affect the results of the analysis. Time series data analysis methodology is characterized by accumulating information from past data to determine the present. This is because current information is based on the cumulative result of past information. For example, the recurrent neural network (RNN), a representative time series methodology in artificial intelligence, uses the accumulated information of past data as a feature vector. LSTM (long short-term memory) and GRU (gated recurrent unit), which evolved from the basic RNN, also use information obtained by accumulating past data. In this order, text data or genomic data (nucleotides, amino acids) can also be considered time series data. The simplest way to determine if something is a time series is to see if reversing the order of the data you want to analyze affects the results of your analysis. In our lives, our past experiences are very important for making the right decisions. When I look back at who I am today, I can see the choices I've made and the path I've traveled. The actions I took, the decisions I made, made me who I am today. So, what will your future be like? It depends on the decisions you make and the actions you take in the here and now. Life is a continuation of the past and a process of creating a new future. In the end, the past, present, and future are deeply interconnected.


Seoung Bum Kim. All Rights Reserved. No part of this document may be cited or reproduced without permission.