SyntaxHighlighter.all();

빅데이터 시대가 오면서 방대한 양의 데이터를 처리하는 빅데이터 처리 플랫폼의 활용이 점점 중요해지고 있다.
본 논문에서는 하둡을 기반으로 비정형 데이터를 수집한 후,
수집된 비정형 데이터를 하둡 분산 파일 시스템과 HBase에 적재하고,
적재된 비정형 데이터를 기반으로 형태소 분석기를 이용하여
정형화된 빅데이터를 관계형 데이터베이스에 저장할 수 있게 설계하고 구현하였다.

기존의 실무사례 중심으로 풀어나가는 논문과는 다르게
하둡 설계를 중심으로 기술적으로 풀어나가는 논문이였다.

평소 해양쓰레기에 대한 관심이 없어서
해양쓰레기 데이터도 저장하고 관리한다는 사실에 놀랬으며
분석결과가 어떻게 나올지 궁금하여 이 논문을 보게 되었다.

처음 논문을 보고 코로나때문에 집콕생활을 많이 하였고 당연히 해양쓰레기도 줄었을 것이라고 생각했다.
하지만 일회용품 사용의 급증으로 인한 플라스틱 사용량 증가,
그리고 꽉 막힌 실내활동 보다는 야외활동을 선호하면서 해양쓰레기가 증가하였다.

또한 연구결과 코로나19와 상관없이 공통적으로 플라스틱, 폐어구, 음식물쓰레기, 생활쓰레기 등의 해양쓰레기 유형의 출현 빈도가 높은 것으로 나타났지만
코로나19 발생 이전 시기에는 낚싯줄, 건축폐기물, 폐그물, 일회용품 등의 해양쓰레기 유형이
코로나19 발생 이후 시기에만 폐기물방치와 폐스티로폼 등의 해양쓰레기 유형이 나왔다.
이러한 분석 결과를 봤을 때 코로나19가 해양쓰레기에도 영향을 끼쳤다는 생각이 들었다.

농산물 소비예측은 농산물 가격 폭등을 방지할 수 있다.
 따라서 정확도 높은 농산물 소비예측 모델은 매우 중요하다고 생각한다.

본 논문에서는 정형 데이터와 비정형 데이터를 결합하여 모델을 만들었으며
분석 모델 정확도도 향상되었음을 보여준다.

기존의 생산량이나 판매/유통량 등 정형 데이터만을 사용한 분석모델에서
방송 뉴스, TV 프로그램/쇼, 블로그 및 비디오 데이터와 소셜 미디어(SNS)등
비정형 데이터도 분석에 사용한다는 것이 기발하다고 생각하였다.  

 

일상생활 대부분의 것들이 데이터로 저장될 수 있는 현대 사회에서
데이터의 추출, 변화, 로드를 나타내는 ETL은 정말 중요하다고 생각한다.

데이터의 추출, 정제, 저장 중 하나라도 잘못되면 데이터 분석이 큰 타격을  입는다.

본 논문에서는 스마트시티에서 생성되는 다양한 데이터들을
데이터 레이크에 안전하게 저장하고
서비스에서 활용할 수 있게 ETL 하는 도구와
이를 효과적으로 사용하는데 필요한 웹기반 도구를 설계하고 구현한다.

ETL로는 웹 인터페이스를 통해 ETL 서비스를 이용 가능한 아파치 나이파이를 사용하였다.

나이파이의 여러 장점을 스마트시티 ETL 서비스에 활용한 논문이였다.

평소 IoT 데이터의 저장이나 관리시 시계열 데이터베이스 혹은 IoT에 특화된 데이터베이스만 사용하면 될 것이라고만 생각했었다.
본 논문에서는 IoT데이터 가 서로 다른 이기종의 장치에서 수집되는 점과 대부분 클라우드 환경에서 사용되고 있다는 점을 통해 수집되는 IoT 정보를 효율적으로 분류하여 처리할 수 있도록 IoT 클라우드 환경을 n-계층 다단계 구조로 확장할 수 있는 IoT 데이터 관리기법을 제안하였다.

제안 기법의 목적
1) 이기종의 IoT 장치로부터 IoT 정보를 동적으로 송·수신할 수 있도록 함으로써 자원 손실을 최소화
2) IoT 데이터 사용 빈도 수에 따라 IoT 데이터를 서로 동기화함으로써 IoT 데이터 처리 비용을 최소화

제안 기법의 순서
1) 이기종의 IoT 장치로부터 수집되는 정보를 수집
2) 무선 데이터 링크를 통해 클라우드에 위치한 처리센터에 전달
3) 2단계에서 데이터 분석
4) 계층적 구조로 구성 된 로컬 클라우드를 통해 로컬에서 다른 IoT 장치에 대한 쿼리의 비용을 유지

논문을 보면서 iot하면 이상치 제거와 같은 전처리 작업만 생각하였는데
알고리즘 성능 초점보다는 데이터의 저장과 데이터 세트 분석이 중요하다는 점을 깨닫게 되었다.

 

본 연구에서는 IoT 데이터를 머신러닝 기반으로 임베디드 벡터를 생성한 후 IoT 데이터를 최적화 할 수 있는 처리 기법을 제안한다.

IoT 데이터는 결측값을 최소화하는 연구가 중요한데 최근 딥러닝 관련 기술을 중심으로 실시간으로 IoT 데이터를 검증할 수 있는 기술이 주목받고 있다.

머신러닝 딥러닝 기술들은 Iot데이터를 사전 처리 단계에서 추출하기 때문에 IoT데이터의 차원을 줄여 정확도와 처리 효율을 향상시킨다.

본 연구에서 차원 축소 전후, 데이터량 등 여러 조건에서 분석을 하였고 연구 결과 차원 축소 전에는 MLP, 차원 축소 후에는 RF가 좋은 성능이였으며 데이터량이 적으면 LR, SVM 알고리즘, IoT 데이터 수집량이 증가할수록 KNN 알고리즘 성능이 좋게 평가되었다. 

본 연구와 같이 IoT에 결측치 최소화시 데이터 처리기법을 여러 조건에서 실험한 후에 분석하면
현재 내 연구의 데이터 조건에 맞게 적절한 알고리즘을 사용할 수 있기 때문에 분석 퀄리티가 높아질 것으로 예상된다.

 

본 연구는 소방안전, 소방 산업 분야에서 생산되는 데이터들을 소방안전 빅데이터 센터에서 수집 및 정제 한 후 빅데이터 플랫폼을 이용하여 저장, 처리, 분석 및 시각화하여 양질의 특화된 소방안전 데이터를 제공하는 것을 목표로 하고 있다.

본 연구를 통해 소방산업 분야 신기술, 신제품 개발에 도움을 줄 것이며, 빅데이터 기반의 소방산업 및 경제 생태계 활성화에 기여 및 향후 안전분야를 대표하는 플랫폼으로써 4차 산업혁명 혁신의 가속화 선도 및 지능정보시대 도래에 따른 국가적 안전대응체계의 기반을 마련할 것으로 기대된다. 하지만 논문에는 빅데이터 플랫폼에 대한 자세한 구조나 결과가 나와있지 않아서 아쉬웠으며 국가에서 소방안전 + 빅데이터 사업도 시도하고 있다는 점을 알게되었다.

 

2016년 한국정보보호학회 - 모바일 결제 환경에서의 데이터마이닝을 이용한이상거래 탐지 시스템

 

IT의 발전으로 모바일 환경에서도 금융서비스를 편리하게 이용할 수 있게 되었다.
하지만 장점만 있는 것이 아니다.
스미싱을 통해 소액 결제로 여러 금융피해 사례가 증가하였으며 피해 금액도 상당히 크다.
금융권에서는 이러한 피해를 방지하기 위해 이상거래 탐지 시스템 구축이 활발하게 이루어졌다. 

논문에서 가장 흥미롭게 본 부분에서는 모바일 결제와 기존의 결제와는 패턴이 다르다는 점이다.
Seung Hyun Kim 등[10]은 기존에 사용하던 이상 거래 탐지 시스템(오프라이 결제 내역 기반)에
온라인 거래 정보를 추가로 분석한 결과 오프라인 기반 방식의 한계를 극복하고
기존에는 탐지하지 못 했던 온라인 부정거래를 탐지할 수 있었다고 한다.

이상 거래 탐지에서 가장 연관이 있는 필드는 대표적으로 인증 일자와 거래 금액이 있다고 한다.
이상 거래에서의 평균 거래 금액은 5만원대였으며 최대 결제 금액은 30만원이였다.
이것은 모바일 결제시 30만원 이상 결제 시에 추가적인 인증을 요구하기 때문으로 유추된다고 한다.

본 논문은 2016년 데이터를 기준으로 분석한 결과이기 때문에 2022년인 현재와는 많이 달라졌을 것으로 예상된다.
하지만 온라인, 오프라인 결제 데이터의 특성이 다른 것은 변함없다고 생각이 든다.
추후 이상 거래 탐지 시스템 개발시에 이러한 점을 고려하면 좋을 것 같다.

+ Recent posts