European Union

Процедура BG05M2OP001-1.002 „Изграждане и развитие на центрове за компетентност“

Оперативна програма „Наука и образование за интелигентен растеж“ 2014 – 2020

Проект BG05M2OP001-1.002-0002

„Дигитализация на икономиката в среда на Големи данни (ДИГД)“

Начало на проекта: 30.03.2018 / Край на проекта: 11.2023

ЦК-ДИГД

Център за компетентност по „Дигитализация на икономиката в среда на Големи данни“ (ЦК-ДИГД)


Центърът за компетентност по „Дигитализация на икономиката в среда на Големи данни“ (ЦК-ДИГД) е ИКТ комплексна инфраструктура с интегрирани научноизследователски организационни структури и със специален фокус върху прилагане на научните резултати в различни бизнес области. Научноизследователският комплекс е базиран върху съвременни научни и технологични световни достижения, международни и индустриални стандарти, и най-добри бизнес практики, чрез използване на интегрираните технологии.




Инфраструктурата на ЦК-ДИГД се базира на интегрирано преливане между цифровизирани бизнес процеси и обработка на Големи данни – процес, изграден върху ИКТ ресурси на самия Център. Изграждането на функционалности за обработка на големи данни при дигитализиране на бизнес процеси се основава на възможностите за вграждане и предлагане на изследване и анализ на добри световни практики. 


Концептуална ИКТ архитектура на ЦК-ДИГД





От гледна точка на работа с големи данни, ЦК-ДИГД изгражда Хранилище за данни (Data Lake), базирано на  Система за големи данни Hadoop в централизиран и разпределен вид, както и на  система за управление на съдържанието (CMS), управляваща също неструктурирани данни.

Изгражда се централизирана Hadoop система с обем над 4,5 Petabytes, като в партньорите-университети на ЦК-ДИГД са инсталирани множество сървъри, служещи както за изграждане на децентрализирани Hadoop системи, така и за разпределена Hadoop система, увеличаваща обема на централизираната система, а също и предоставяща възможност за регионално-департаментно функциониране и защита на данни.

Предвидени са специални средства за защита, които да осигурят надеждност на различни потребителски и изследователски данни и процеси, като е обърнато внимание на 8 нива на информационна сигурност:

  • Идентифициране на потребители чрез име и парола
  • Централизирано автентикиране на потребителите чрез използване на LDAP сървър (например MS Active Directory)
  • Централизирано автентикиране на потребителите чрез използване на Kerberos server на Hadoop системата
  • Създаване на права на достъп до процеси и сегментиране на данните за отделен потребител
  • Създаване на контрол на достъпа на потребители до HDFS файлове и директории
  • Създаване на централизиран лист за управление на достъпа до Hadoop клъстера
  • Създаване на механизъм за пълен одит – данните от къде са дошли и за какво са били използвани, кой потребител прави опити за достъп до данни и задачи и от кой IP адрес
  • Защитна стена с IPS

От гледна точка на предоставяне на възможност за създаване на процеси с Изкуствен интелект върху данни от Hadoop, се предвиждат средства за Machine learning, съществуващи в екосистемата на Hadoop (Spark) и средства за Deep learning посредством включване на MS SQL Server, обработващ данни от Hadoop посредством функцията си PolyBase.

Предвижда се специален фокус върху работа с NoSQL бази данни.

Дигитализацията на икономическите процеси се предвижда да се извършва чрез 2 групи системи – ERP системи и Системи за управление на бизнес процеси и тяхното дигитализиране (Business process management – BPM):

  • Изграждат се два вида ERP системи – ERP базирана на Oracle EBS, предназначена за големи и средни предприятия, и ERP базирана на Windows-базирани продукти, предназначени за микро и малки предприятия.
  • Изграждате се две Системи за ВРМ – едната е със сложни и комплексни функции и  е предназначена за големи и средни предприятия, а другата е предназначена за микро и малки предприятия.

ERP системата и ВРМ системата могат да се представят като Системи за иновативна дигитализация за микро и малки предприятия.

Предвидена е интеграция на Hadoop системата с различни бази данни - Бази данни на основата на Oracle БД и Бази данни на основа на Microsoft SQL Server. По този начин се получава интеграция на структурирани данни, разположени в Релационни бази данни, и на неструктурирани данни, разположени в Hadoop, осигурявайки интеграция на всяка от двата типа ERP системи с Hadoop системата за големи данни. От друга страна, интеграцията на Hadoop системата с MS SQL server (работещ в Windows и Linux среди) дава възможност за изграждане на системи с произволна форма на дигитализация, даже стартиращи от начално ниво и изпълнима както в Windows, така и в Linux среди. За провеждане на самостоятелни анализи на големи данни могат да се използват: средствата на екосистемата на Hadoop системата; на Oracle системите за анализ (данните от Hadoop стават видими за Oracle ERP системата); и на специално предвиденият за инсталиране статистически продукт, който работи с директни данни от Hadoop система. 

Инфраструктурата на ЦК-ДИГД ще бъде достъпна както на принципите на хостинг услугите, така и чрез облачни услуги (ЦК-ДИГД се изгражда като частен облак).

ЦК-ДИГД ще предлага следните възможности за национално и интернационално използване:

  • Опериране на Системи за дигитализация на бизнес процеси с данни, разположени в многопрофилно Хранилище за данни (Data Lake) със структурирани и неструктурирани данни, чрез облачна и/или хостинг инфраструктура с достъп както от страната на високоскоростни мрежи, така и от Интернет, от точки както в България, така в чужбина
  • Провеждане на изследвания за дигитализация на икономически бизнес процеси в среда на Големи данни
  • Предлагане на научноизследователски и системни научно-приложни услуги
  • Възможност за външни потребители на облачна / хостинг инфраструктура да присъединяват свои изчислителни ресурси като временни виртуални ресурси на ЦК-ДИГД инфраструктурата, за да използват централизирани и свои данни за изследване (структурирани, полу-структурирани и неструктурирани данни, данни от Internet of Things устройства и др.)
  • Използване на Облачната инфраструктура за съхранение на свои Големи данни от външни потребители
  • Разработване на иновативни методи за събиране и обработка на Големи данни
  • Развитие на технологии за дигитализация на бизнес процеси в основни икономически области


Централна част на изградената инфраструктура (разположена в УНСС)