Trends

[Trends-1] (2024) Data Engineering Trends

Lio Grande 2024. 7. 17. 15:34

올해의 기술 트렌드를 조사하다가 geeksforgeeks에서 2024년 기준 데이터 엔지니어링 Top 10 trends를 언급하여 한글로 기록해두려고 한다. (의역 및 오역이 있을 수 있습니다.)

 

1. 실시간 데이터 처리에 대한 큰 관심

  최근 조직에서 빠른 결정에 대한 관심과 함께 실시간 데이터 처리가 매우 중요해졌다. 이러한 요구조건에 맞추어 데이터 엔지니어들은 다양한 곳에서 수집되는 스트리밍 데이터를 다루는 능력과 실시간 분석에 대한 능력이 필요할 것이다.

  - Keywords

     - 스트리밍 데이터 수집에 있어 Apache KafkaApache Flink가 중요한 도구로 사용될 것이다.

     - 실시간 데이터 처리는 어떻게 수집하는가어떻게 데이터를 분석할 것인가가 주요한 변화일 것이다.

     - 기존 batch processing 대신, 실시간 분석은 insight를 빠르게 안겨줄 수 있을 것이다.

 

2. LLMS 또는 Large Language Models

  LLMs는 데이터 의존성이 커질 것이고, 효과적인 데이터 보관과 처리 방법이 요구될 것이다.

회사들은 다양한 일상생활의 문제를 해결하기 위해 GenAI와 같은 방식의 해결책을 시도할 것이다.

    - Keywords

      - LLMs와 관련하여 데이터 저장과 획득을 위한 Vector database가 알려질 것이다.

      - LLMs는 우리가 데이터와 어떻게 상호작용할지에 대한 방식을 바꾸어, 사용자 중심의

        데이터 조작 및 활용을 강조할 것이다.

       - LLMs 다른 단계로 관리되는 상품과 데이터들에서도 데이터 분석을 원활하게 할 수 있을 것이다.

 

3. 클라우드 기반의 데이터 엔지니어링

  세계 많은 기업들이 데이터를 비롯한 IT 인프라를 클라우드 서버로 옮기게 될 것이다.

(일부 기업들은 클라우드 환경에서 새로운 데이터 파이프라인을 구축하였으나 여전히 기존의 환경을 유지하는 곳도 있다.)

    - Keywords

      - 클라우드 환경에서 데이터 엔지니어링의 역할은 급성장할것이다. (AWS, Azure, RedHat)

      - 클라우드 시스템은 확장성과 비용 절감을 제공하게 될 것이다.

        데이터 엔지니어링 작업으로 관리되는 서비스 과정을 간편하게 만들 것이다.

      - 클라우드 시스템은 데이터 엔지니어링 작업의 핵심 부분을 자동화하여 데이터 기반의 의사결정을 향상시킬 것이다.

 

4. DataOps와 Data용 DevOps

  DataOps, DevOps 기술들은 클라우드 기반의 시스템과 실시간 데이터 요구상황에서 중요한 사항이 될 것이다.

    - Keywords

      - DevOps 기반의 자동화와 CI/CD데이터 파이프라인을 가속화할 것이다.

        이는 심층 분석에 사용되는 시간을 줄일 것이다.

 

5. Big Data & IoT

  IoT 센서와 장치들의 사용량이 늘면서 데이터 볼륨이 잠재적으로 증가하는 추세에 있다. 

데이터 엔지니어들은 효과적인 데이터 저장과 처리 방식에 대한 새로운 이론이 필요하게 될 것이다.

데이터 엔제니어들은 제한된 자원과 환경속에서 데이터 파이프라인을 최적화해야만 할 것이다.

    - Keywords

      - IoT 데이터를 즉각적으로 분석하기 위해서 실시간 데이터 처리를 적용해야 한다.

        Apache KafkaFlink가 데이터 엔지니어링에서 중요한 역할을 할 것이다.

      - 데이터 엔지니어링 분야에서 다양한 장치들의 데이터 보안을 제공하는 것이 중요한 도전과제가 될 것이다.

      - Edge computing이 부상함에 따라, 데이터 엔지니어들은 edge 기반의 데이터를 처리하고 해석할 수 있는

        솔루션을 만들어야 할 것이다.

 

6. AI와 머신러닝의 통합

  IoT 장치에서 얻어지는 비정형 데이터들은 새로운 빅데이터 처리와 저장방식을 요구한다.

거대한 IoT 데이터를 분석하고 가치있는 요인을 획득하기 위해 AI, ML 기법들이 사용될 것이다.

      - Keywords

        - 데이터 엔지니어들은 ML 파이프라인을 구축하고 관리하는 경우가 엄청 늘어날 것이고, TensorFlow와

          MLflow 같은 도구들의 사용 숙달이 요구될 것이다.

        - IoT 데이터에서 얻은 통찰들은 자동화를 강화하고 저원 활용을 최적화하는데 도움을 줄 것이다.

        - 빅데이터 엔지니어링 같은 기술들은 IoT 데이터를 실시간으로 처리하고 분석할 수 있게 해 줄 것이다.

 

7. Graph 데이터베이스와 지식 그래프

  복잡한 데이터를 다루기 위해 데이터 엔지니어링 분야에서는 graph 데이터베이스를 사용한다. 전통적인 관계형

데이터베이스들은 복잡한 상호 연결로 인한 어려움이 발생하기에 나온 대안이다.

      - Keywords

        - Graph 데이터베이스들은 상호 연결된 데이터의 모델링과 쿼리에 강점이 있고,

          fraud detection, 소셜 네트워크 분석, 추천 시스템과 같은 경우에 적합하다.

        - 기존 시스템들과 graph 데이터베이스들을 원활하게 통합할 수 있도록 데이터 파이프라인이 향상되고 있다.

          (관계형 데이터와 graph의 상황별 정보의 장점들을 모두 활용하여 작업을 수행할 수 있다)

       - Graph 데이터베이스의 지식 그래프들은 실세계와 항목들의 관계를 표현한다. 이러한 것들은 문장을 이해하거나

         복잡한 문제들을 답변하는 시스템 개발에 활용된다.

 

8. 데이터 거버넌스

  데이터 거버넌스는 데이터의 보안, 개인화, 가용성, 정확성을 보장하는 절차이다.

      - Keywords

        - 데이터 엔지니어들은 데이터의 정확성, 품질 기준, 규정들을 보장하는 파이프라인을 구축해야 한다.

        - 데이터 파이프라인을 구축하여 자동화하는 기술에 대해 데이터 거버넌스의 개념들이 점점 더 많이 사용될 것이다.

        - 메타데이터 관리 시스템들에서 데이터 거버넌스 정책 준수와 데이터 추적이 중요해질 것이다.

 

9. 데이터 레이크의 진화

  데이터 레이크는 원천 데이터, 비정형 데이터, 미정형 데이터들의 저장소이다.

다양한 데이터의 저장소는 사후 조사와 변화 요인 분석, 거대한 데이터 연구, 특정 플랫폼에서 숨겨진 통찰찾기 등을 가능하게 한다.

      - Keywords

        - 데이터 레이크는 고정된 스키마 구조를 가지지 않는다. 그러므로 데이터 엔지니어들은 데이터 접근과 분석 중에

          스키마를 추론하고 적용하는 기술들을 개발해야 한다.

        -  이미지, 로그, 텍스트 같은 다양한 데이터를 처리하기 위해서 데이터 엔지니어들은 Apache Spark 같은 도구들을

          잘 사용하여야 하고, 데이터 전처리에 능숙해야 한다.

        - 실시간 데이터 스트림을 통합하려면 새로은 데이터 파이프라인을 구축해야 한다.

 

10. 데이터 메쉬

  데이터 메쉬는 분산형 데이터 관리 이론이다. 특정 도메인에 특화된 팀이 그들의 데이터를 소유하고 관리하며 통찰 결과를 빠르게 나타낼 수 있게 해준다.

      - Keywords

        - 데이터 엔지니어들은 거대하고 중앙 집중형의 데이터 시스템에서 도메인에 특화된 데이터를 제공하는

          솔루션으로의 개발을 지향해야 한다.

       - APIs, 마이크로 서비스 아키텍처, 데이터 분석 도구들에 숙달되어야 한다.

       - 데이터 엔지니어들에게 특정 도메인에 특화된 데이터와 사업적 요소에 대한 이해 요구가 증가할 것이고, 이는

         도메인 전문가와의 협업에서 필요성이 생길 것이다.

 


결론 및 요약, 추가 내용에 관한 것들은 아래 링크를 클릭하여 원문을 참고하면 된다.

https://www.geeksforgeeks.org/top-data-engineering-trends/

 

Top 10 Data Engineering Trends in 2024 - GeeksforGeeks

A Computer Science portal for geeks. It contains well written, well thought and well explained computer science and programming articles, quizzes and practice/competitive programming/company interview Questions.

www.geeksforgeeks.org