빅데이터 개요
빅데이터(big data)란 기존 데이터베이스 관리도구의 능력을 넘어서는 대량(수십 테라바이트)의 정형 또는 심지어 데이터베이스 형태가 아닌 비정형의 데이터 집합조차 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술입니다.
빅데이터 수집 S/W
비정형 데이터 수집 도구
- Nutch : 오픈소스 웹 검색 소프트웨어로 웹크롤러의 기능을 제공
- Flume : 대량의 로그 데이터를 효과적으로 수집하거나 트위터 API를 호출
- 검색API : 포털(네이버/다음/구글)의 검색 API를 이용 특정 주제의 데이터 수집
정형 데이터 수집 도구
- Scoop: RDBMS와 HDFS 파일시스템에서 데이터를 주고 받는 기능 제공
- DB Connector : 대상 DB의 연결 모듈을 개발하여 DB의 데이터를 수집
빅데이터 구축 S/W
빅데이터 처리 플랫폼
- Hadoop : 대량의 데이터를 처리할 수 있는 클러스터 환경에서 동작하는 분산응용 프로그램을 지원하는 프레임워크 기능을 제공
빅데이터 저장소
- HDFS : 수십 테라 또는 페타바이트 이상의 대용량 파일을 분산된 서버에 저장하고 수많은 클라이언트가 저장된 데이터를 빠르게 처리할 수 있게 설계된 파일 시스템
- NoSQL : 빅데이터의 효과적 저장 및 관리에 필요한 기술, 카산드라(Cassandra DB), 몽고DB 등이 있음
- Mysql : 효율적인 빅데이터 분석을 위하여 정규화된 데이터를 저장하는 RDBMS
빅데이터 분석 및 활용 S/W
빅데이터 분석 도구
- Pro-SINDI : 대량의 데이터에서 단일 핵심어 뿐만 아니라 5개의 복합명사 까지 추출, 연관관계 추출도 가능한 분석 프로젝트에 최적화된 상용 소프트웨어 워드 클라우드, 파이/바/라인 차트 제공 및 온톨로지 연계 가능
- Mahout : 대량의 데이터에서 용어(핵심어) 및 관계 추출과 분류 및 필터링에 사용되어지는 기계학습 기반의 알고리즘 및 데이터 분석용 도구
- R : 빅데이터의 통계적 의미를 찾고 그 패턴을 분석하기 위해서 강력한 통계 기능 제공
민원분석 시스템 : Pro-CAS™
Pro-CAS™(Complaints Analysis System)는 중앙정부, 지방자치단체, 공공기관 또는 일반 기업의 고객만족 경영을 위한 시스템입니다. 다양한 고객의 다양한 요구 사항 및 민원을 분석하여 향후 고객만족 경영을 위한 정책 수립에 활용할 수 있도록 해 줍니다.
- 게시판 텍스트 수집
- 민원 대상 분석 및 워드 클라우드 인터페이스
- 민원 유형 분석 및 파이, 바 차트 인터페이스
- 민원 원인별 기간별 통계 및 라인차트 인터페이스
- 민원 키워드 연관어 그래픽 인터페이스
- 민원 긍정-부정 감성 표현 인터페이스
- 분석 대상 글 보기 링크 및 검색 인터페이스
- 각종 통계 커스터마이징 및 관리
인터넷 정보분석 시스템 : Pro-IAS™
Pro-IAS™(Information Analysis System)는 인터넷 상의 뉴스, 블로그, 트위터 등으로부터 특정 정보를 수집 및 분석하여 정책에 활용할 수 있도록 해 줍니다.
- 인터넷 뉴스, 블로그, 트위터 등 수집
- 대상 정보 분석 및 워드 클라우드 인터페이스
- 대상 정보 유형 분석 및 파이, 바 차트 인터페이스
- 정보 소스별 기간별 통계 및 라인차트 인터페이스
- 분석 대상 글 보기 링크 및 검색 인터페이스
- 각종 통계 커스터마이징 및 관리
트렌드 동향분석 시스템 : Pro- TAS™
Pro-TAS™(Trend Analysis System)는 정부의 경제, 사회, 문화, 교육 등 제반 정책 과제 또는 기업의 마케팅 등 주요 현안 이슈에 대한 온라인 상의 여론을 분석하여 실무에 반영함으로써 수요자의 만족도를 증대할 수 있도록 해 줍니다.
- 언론 기사, 댓글, 블로그, 트위터 등 온라인 상의 문서 수집
- 수집 문서의 정제를 통한 키워드 추출 및 키워드의 중요도 및 키워드간 연관성 분석
- 대상 정보 분석 및 워드 클라우드 인터페이스
- 이슈 연관어 분석, 댓글 감정 분석, 댓글 상위 기사, 토픽모델링 등 각종 통계 커스터마이징 및 관리