Dátové sady

Zoznam vytvorených dátových sád

Dátové sady

Zoznam vytvorených dátových sád

Honeynet data 1

4.11.2024 – 3.4.2025

Tento dataset predstavuje ucelený súbor časových záznamov o sieťovej aktivite a kybernetických útokoch zachytených pomocou distribuovaného systému honeypotov v období od novembra 2024 do apríla 2025. Hlavným cieľom zberu dát bolo monitorovanie reálnych hrozieb v nekontrolovanom sieťovom prostredí a analýza správania botnetov alebo individuálnych útočníkov.
Dataset je štruktúrovaný do štyroch hlavných oblastí:

  • Analýza senzorov: Údaje zo šiestich špecializovaných honeypotov (Cowrie, Dionaea, Heralding, Honeytrap, Tanner, Mailoney) emulujúcich rôzne zraniteľné služby.
  • Cielené porty: Sledovanie intenzity útokov na najčastejšie zneužívané sieťové porty (22, 23, 445, 1433, 5900).
  • Intenzita a unikátnosť: Porovnanie celkového objemu útokov s počtom unikátnych zdrojových IP adries, čo umožňuje rozlíšiť medzi cielenými útokmi a distribuovanými kampaňami.
  •  Geografická distribúcia: Mapovanie útokov na krajiny pôvodu pre identifikáciu regionálnych trendov v kybernetickej kriminalite.
    Dáta sú predspracované do 30-minútových intervalov, čo umožňuje efektívnu časovú analýzu, detekciu anomálií a trénovanie modelov strojového učenia pre oblasť detekcie prienikov (IDS).

Útoky na Honeypoty

Informácie o datasete

Charakteristika datasetu: Viacrozmerný

Oblasť: Kybernetická bezpečnosť

Typ príznakov: Dátum a čas, Celé číslo

Počet inštancií: 7248

Počet príznakov: 7

Chýbajúce hodnoty: Nie

Časový rozsah: 4.11.2024 – 3.4.2025

Zdroj dát: Honeypoty

Popis datasetu

Tento dataset predstavuje počet pokusov o útok zachytených rôznymi systémami honeypot v rôznych časových intervaloch. Každý riadok zodpovedá konkrétnemu časovému obdobiu a každý príznak zaznamenáva počet útokov detegovaných konkrétnym systémom honeypot.

Tabuľka premenných

Názov premennej Typ premennej Chýbajúce údaje Opis
Timestamp
Dátum a čas
Nie
Dátum a čas záznamu
Attack_counts_Cowrie
Celé číslo
Nie
Počet útokov zaznamenaných honeypotom Cowrie
Attack_counts_Dionaea
Celé číslo
Nie
Počet útokov zaznamenaných honeypotom Dionaea
Attack_counts_Heralding
Celé číslo
Nie
Počet útokov zaznamenaných honeypotom Heralding
Attack_counts_Honeytrap
Celé číslo
Nie
Počet útokov zaznamenaných honeypotom Honeytrap
Attack_counts_Tanner
Celé číslo
Nie
Počet útokov zaznamenaných honeypotom Tanner
Attack_counts_Mailoney
Celé číslo
Nie
Počet útokov zaznamenaných honeypotom Mailoney

Štatistika

Attack_ counts_ Cowrie Attack_ counts_ Dionaea Attack_ counts_Heralding Attack_ counts_ Honeytrap Attack_ counts_ Tanner Attack_ counts_ Mailoney
Počet
7248
7248
7248
7248
7248
7248
Priemer
1514
306,8
144,01
3,9
29,11
27,52
Štandardná odchýlka
2580
872,83
493,57
13,19
207,77
30,31
Minimálna hodnota
9
O
O
O
O
O
Maximálna hodnota
158130
5617
3102
627
7130
593

Grafy

Cowrie

Dionaea

Tanner

Honeytrap

Heralding

Mailoney

Útoky na porty

Informácie o datasete

Charakteristika datasetu: Viacrozmerný

Oblasť: Kybernetická bezpečnosť

Typ príznakov: Dátum a čas, Celé číslo

Počet inštancií: 7248

Počet príznakov: 6

Chýbajúce hodnoty: Nie

Časový rozsah: 4.11.2024 – 3.4.2025

Zdroj dát: Honeypoty

Popis datasetu

Tento dataset obsahuje časové záznamy pokusov o útok zachytených monitorovacím systémom honeypot. Každý riadok zodpovedá konkrétnemu časovému obdobiu a každý príznak predstavuje počet detegovaných útokov na špecifické porty, ktoré sú bežnými cieľmi útočníkov.

Tabuľka premenných

Názov premennej Typ premennej Chýbajúce údaje Opis
Timestamp
Dátum a čas
Nie
Dátum a čas záznamu
Attack_counts_22
Celé číslo
Nie
Počet útokov na port 22
Attack_counts_23
Celé číslo
Nie
Počet útokov na port 23
Attack_counts_445
Celé číslo
Nie
Počet útokov na port 445
Attack_counts_1433
Celé číslo
Nie
Počet útokov na port 1433
Attack_counts_5900
Celé číslo
Nie
Počet útokov na port 5900

Štatistika

Attack_ counts_22 Attack_ counts_23 Attack_ counts_445 Attack_ counts_1433 Attack_ counts_5900
Počet
7248
7248
7248
7248
7248
Priemer
116.59
34.86
175.21
126.08
142.64
Štandardná odchýlka
151.33
38.62
524.6
13,19
694.42
Minimálna hodnota
1
O
O
O
O
Maximálna hodnota
1670
868
5613
5579
3102

Grafy

Cieľový port 22

port22_1

Cieľový port 23

74da8d11-b2d7-497e-9627-f01b776bbded

Cieľový port 445

9ea82f6a-7089-4137-ad6e-ba0b7797be2a

Cieľový port 1433

018fe8fc-7bec-4775-85c6-d55f48941121

Cieľový port 5900

a9bb0060-c81f-4392-ba92-85c85c5f139e

Počet všetkých útokov a unikátnych zdrojových IP adries

Informácie o datasete

Charakteristika datasetu: Viacrozmerný

Oblasť: Kybernetická bezpečnosť

Typ príznakov: Dátum a čas, Celé číslo

Počet inštancií: 7248

Počet príznakov: 3

Chýbajúce hodnoty: Nie

Časový rozsah: 4.11.2024 – 3.4.2025

Zdroj dát: Honeypoty

Popis datasetu

Tento dataset predstavuje časové dáta o počte útokov a počte unikátnych IP adries zapojených do pokusov o útok v rámci konkrétnych časových intervalov.

Tabuľka premenných

Názov premennej Typ premennej Chýbajúce údaje Opis
Timestamp
Dátum a čas
Nie
Dátum a čas záznamu
Attack_counts
Celé číslo
Nie
Počet pokusov o útok zachytený za daný časový intervál
Unique_ips
Celé číslo
Nie
Počet unikátnych IP adries zapojených do pokusov o útok

Štatistika

Attack_counts Unique_ips
Počet
7248
7248
Priemer
2037,65
40,37
Štandardná odchýlka
2732,53
14.,6
Minimálna hodnota
35
8
Maximálna hodnota
158217
214

Grafy

Počty útokov podľa krajiny pôvodu

Informácie o datasete

Charakteristika datasetu: Viacrozmerný

Oblasť: Kybernetická bezpečnosť

Typ príznakov: Dátum a čas, Celé číslo, Kategorický

Počet inštancií: 45577

Počet príznakov: 3

Chýbajúce hodnoty: Nie

Časový rozsah: 4.11.2024 – 3.4.2025

Zdroj dát: Honeypoty

Popis datasetu

Tento dataset predstavuje časové dáta o počte útokov a počte unikátnych IP adries zapojených do pokusov o útok v rámci konkrétnych časových intervalov.

Variables Table

Názov premennej Typ premennej Chýbajúce údaje Opis
Timestamp
Dátum a čas
Nie
Dátum a čas záznamu
Attacks
Celé číslo
Nie
Počet pokusov o útok zachytený za daný časový intervál
Country
Kategorický
Nie
Zdrojová krajina útoku

Štatistika

Krajina Počet Priemer Štandardná odchýlka Minimálna hodnota Maximálna hodnota Počet útokov podľa krajiny
Čína
7213
162,83
303,2
1
4338
1174484
Estónsko
415
911,1
992,83
1
3102
378106
Francúzsko
3663
344,162
1002,54
1
7114
1260667
Nemecko
4475
113,73
2734,02
1
155349
508930
India
6285
108,55
304,95
1
4575
682237
Indonézia
2850
125,46
213,01
1
3031
357563
Rusko
5191
91,77
286,69
1
4417
476393
Južná Kórea
4046
99,6
219,45
1
2726
402975
Taiwan
4240
826,52
816,9
1
6289
3504450
Spojené štáty
7198
161,58
434,56
1
5190
1163085

Grafy

Taiwan

Francúzsko

Čína

Spojené štáty

India

Nemecko

Rusko

Južná Kórea

Estónsko

Indonézia

Honeynet data 2

1.7.2025 – 1.1.2026

Tento dataset predstavuje ucelený súbor časových záznamov o sieťovej aktivite a kybernetických útokoch zachytených pomocou distribuovaného systému honeypotov v období od júla 2025 do januára 2026. Hlavným cieľom zberu dát bolo monitorovanie reálnych hrozieb v nekontrolovanom sieťovom prostredí a analýza správania botnetov alebo individuálnych útočníkov.
Dataset je štruktúrovaný do štyroch hlavných oblastí:

  • Analýza senzorov: Údaje zo šiestich špecializovaných honeypotov (Cowrie, Dionaea, Heralding, Honeytrap, Tanner, Mailoney) emulujúcich rôzne zraniteľné služby.
  • Cielené porty: Sledovanie intenzity útokov na najčastejšie zneužívané sieťové porty (22, 23, 445, 1433, 5900).
  • Intenzita a unikátnosť: Porovnanie celkového objemu útokov s počtom unikátnych zdrojových IP adries, čo umožňuje rozlíšiť medzi cielenými útokmi a distribuovanými kampaňami.
  •  Geografická distribúcia: Mapovanie útokov na krajiny pôvodu pre identifikáciu regionálnych trendov v kybernetickej kriminalite.
    Dáta sú predspracované do 30-minútových intervalov, čo umožňuje efektívnu časovú analýzu, detekciu anomálií a trénovanie modelov strojového učenia pre oblasť detekcie prienikov (IDS).

Útoky na Honeypoty

Informácie o datasete

Charakteristika datasetu: Viacrozmerný

Oblasť: Kybernetická bezpečnosť

Typ príznakov: Dátum a čas, Celé číslo

Počet inštancií: 7248

Počet príznakov: 7

Chýbajúce hodnoty: Nie

Časový rozsah: 1.7.2025 – 1.1.2026

Zdroj dát: Honeypoty

Popis datasetu

Tento dataset predstavuje počet pokusov o útok zachytených rôznymi systémami honeypot v rôznych časových intervaloch. Každý riadok zodpovedá konkrétnemu časovému obdobiu a každý príznak zaznamenáva počet útokov detegovaných konkrétnym systémom honeypot.

Tabuľka premenných

Názov premennej Typ premennej Chýbajúce údaje Opis
Timestamp
Dátum a čas
Nie
Dátum a čas záznamu
Attack_counts_Cowrie
Celé číslo
Nie
Počet útokov zaznamenaných honeypotom Cowrie
Attack_counts_Dionaea
Celé číslo
Nie
Počet útokov zaznamenaných honeypotom Dionaea
Attack_counts_Heralding
Celé číslo
Nie
Počet útokov zaznamenaných honeypotom Heralding
Attack_counts_Honeytrap
Celé číslo
Nie
Počet útokov zaznamenaných honeypotom Honeytrap
Attack_counts_Tanner
Celé číslo
Nie
Počet útokov zaznamenaných honeypotom Tanner
Attack_counts_Mailoney
Celé číslo
Nie
Počet útokov zaznamenaných honeypotom Mailoney

Štatistika

Attack_ counts_ Cowrie Attack_ counts_ Dionaea Attack_ counts_Heralding Attack_ counts_ Honeytrap Attack_ counts_ Tanner Attack_ counts_ Mailoney
Počet
8544
8511
8540
8544
8544
8544
Priemer
868,14
298,11
163,30
8,04
13,23
10,46
Štandardná odchýlka
1052,86
974,82
503,52
142,98
245,35
29,25
Minimálna hodnota
O
O
O
O
O
O
Maximálna hodnota
21265
13186
2970
10306
18608
1213

Grafy

Cowrie

Dionaea

Tanner

Honeytrap

Heralding

Mailoney

Útoky na porty

Informácie o datasete

Charakteristika datasetu: Viacrozmerný

Oblasť: Kybernetická bezpečnosť

Typ príznakov: Dátum a čas, Celé číslo

Počet inštancií: 7248

Počet príznakov: 6

Chýbajúce hodnoty: Nie

Časový rozsah: 1.7.2025 – 1.1.2026

Zdroj dát: Honeypoty

Popis datasetu

Tento dataset obsahuje časové záznamy pokusov o útok zachytených monitorovacím systémom honeypot. Každý riadok zodpovedá konkrétnemu časovému obdobiu a každý príznak predstavuje počet detegovaných útokov na špecifické porty, ktoré sú bežnými cieľmi útočníkov.

Tabuľka premenných

Názov premennej Typ premennej Chýbajúce údaje Opis
Timestamp
Dátum a čas
Nie
Dátum a čas záznamu
Attack_counts_22
Celé číslo
Nie
Počet útokov na port 22
Attack_counts_23
Celé číslo
Nie
Počet útokov na port 23
Attack_counts_445
Celé číslo
Nie
Počet útokov na port 445
Attack_counts_1433
Celé číslo
Nie
Počet útokov na port 1433
Attack_counts_5900
Celé číslo
Nie
Počet útokov na port 5900

Štatistika

Attack_ counts_22 Attack_ counts_23 Attack_ counts_445 Attack_ counts_1433 Attack_ counts_5900
Počet
8544
8544
8511
8511
8538
Priemer
128,37
7,63
138,38
152,05
161,06
Štandardná odchýlka
156,24
12,41
458,15
877,51
503,35
Minimálna hodnota
O
O
O
O
O
Maximálna hodnota
2191
385
5854
13178
2965

Grafy

Cieľový port 22

Cieľový port 23

Cieľový port 445

Cieľový port 1433

Cieľový port 5900

Počet všetkých útokov a unikátnych zdrojových IP adries

Informácie o datasete

Charakteristika datasetu: Viacrozmerný

Oblasť: Kybernetická bezpečnosť

Typ príznakov: Dátum a čas, Celé číslo

Počet inštancií: 7248

Počet príznakov: 3

Chýbajúce hodnoty: Nie

Časový rozsah: 1.7.2025 – 1.1.2026

Zdroj dát: Honeypoty

Popis datasetu

Tento dataset predstavuje časové dáta o počte útokov a počte unikátnych IP adries zapojených do pokusov o útok v rámci konkrétnych časových intervalov.

Tabuľka premenných

Názov premennej Typ premennej Chýbajúce údaje Opis
Timestamp
Dátum a čas
Nie
Dátum a čas záznamu
Attack_counts
Celé číslo
Nie
Počet pokusov o útok zachytený za daný časový intervál
Unique_ips
Celé číslo
Nie
Počet unikátnych IP adries zapojených do pokusov o útok

Štatistika

Attack_counts Unique_ips
Počet
8436
8436
Priemer
1391,58
37,93
Štandardná odchýlka
1586,18
14,23
Minimálna hodnota
6
1
Maximálna hodnota
22309
196

Grafy

Počty útokov podľa krajiny pôvodu

Informácie o datasete

Charakteristika datasetu: Viacrozmerný

Oblasť: Kybernetická bezpečnosť

Typ príznakov: Dátum a čas, Celé číslo, Kategorický

Počet inštancií: 45577

Počet príznakov: 3

Chýbajúce hodnoty: Nie

Časový rozsah: 1.7.2025 – 1.1.2026

Zdroj dát: Honeypoty

Popis datasetu

Tento dataset predstavuje časové dáta o počte útokov a počte unikátnych IP adries zapojených do pokusov o útok v rámci konkrétnych časových intervalov.

Variables Table

Názov premennej Typ premennej Chýbajúce údaje Opis
Timestamp
Dátum a čas
Nie
Dátum a čas záznamu
Attacks
Celé číslo
Nie
Počet pokusov o útok zachytený za daný časový intervál
Country
Kategorický
Nie
Zdrojová krajina útoku

Štatistika

Krajina Počet Priemer Štandardná odchýlka Minimálna hodnota Maximálna hodnota Počet útokov podľa krajiny
Čína
7494
101,15
231,51
1
3815
758055
Francúzsko
2930
396,01
1553.62
1
13370
1160298
Nemecko
6378
61,39
298,09
1
8102
391570
India
4588
90.97
249,00
1
3492
472175
Indonézia
3809
123,96
223,39
1
2853
472175
Rusko
7996
72,42
213,02
1
3170
579038
Singapur
3555
120,79
384,38
1
14970
429419
Holandsko
7771
169,06
425.26
1
14437
1313752
Spojené štáty
8396
182,52
367,48
1
3781
1532402
Vietnam
2880
146,88
495,56
1
5690
423002

Plots

Spojené štáty

Holandsko

Francúzsko

Čína

Rusko

Indonézia

Singapur

Vietnam

India

Time series dataset for network security situational awareness

2017-2018, 2022-2024

Tento dataset predstavuje rozsiahly súbor časových radov z oblasti sieťovej bezpečnosti určený na výskum a predikciu situačného povedomia (Network Security Situational Awareness – NSSA). Obsahuje agregované počty bezpečnostných udalostí v 1-minútových intervaloch (a odvodené 30-minútové periódy) pre definované kritériá, pričom dáta sú dostupné vo formáte CSV a ako serializované Pandas DataFrame objekty.

Zdrojom dát je systém Warden systém, ktorý slúži na zdieľanie informácií o detegovaných kybernetických incidentoch. Dataset pokrýva dve dlhodobé časové obdobia (2017–2018 a 2022–2024) a vychádza z dát zozbieraných z reálnych senzorov prevažne v Českej republike, prevádzkovaných organizáciou CESNET.

Hlavnou pridanou hodnotou datasetu je jeho realistickosť a dĺžka sledovaného obdobia, čo umožňuje zachytiť dynamiku kybernetických hrozieb, vzory útokov a správanie útočníkov v reálnom prostredí. Na rozdiel od bežne používaných datasetov, ako UNSW-NB15, CSE-CIC-IDS2018 alebo CIC-IDS2017, ktoré sú často syntetické alebo časovo obmedzené, tento dataset poskytuje dlhodobé a autentické dáta vhodné pre pokročilé analytické úlohy.

Dataset časových radov pre situačné povedomie v oblasti sieťovej bezpečnosti

Informácie o datasete

Oblasť: Informatika

Špecifická oblasť: Predikcia situačného povedomia v oblasti sieťovej bezpečnosti využitím časových radov.

Typ dát: Tabuľkové dáta časových radov (CSV súbory a serializované súbory Pandas DataFrame) obsahujúce počty bezpečnostných udalostí v 1-minútových intervaloch pre vybrané kritériá.

Zber dát: Zdrojom dát bol systém Warden [1,2]. Ide o systém určený na efektívne zdieľanie informácií o detegovaných kybernetických incidentoch. Dáta boli získané z dvoch časových období: od 11. decembra 2017 do 9. decembra 2018 a od 31. decembra 2022 do 31. decembra 2024. Na základe 21 špecifikovaných kritérií a vybraných senzorov v systéme Warden bolo vytvorených viacero časových radov s periódami 30 minút a 1 minúta.

Lokalita zdroja dát: Systém Warden je prevádzkovaný organizáciou CESNET v Českej republike. Väčšina detekčných systémov, ktoré prispievajú dátami do systému Warden, sa taktiež nachádza v Českej republike.

Dostupnosť dát: Názov repozitára: Mendeley Data – Time series dataset for network security situational awareness
Identifikačné číslo dát.
Priamy odkaz na dáta.

Súvisiaci vedecký článok: P. Sokol, R. Staňa, A. Gajdoš, a P. Pekarčík, „Network security situation awareness forecasting based on statistical approach and neural networks,“ Logic Journal of the IGPL, roč. 31, č. 2, s. 352–374, 2023, Link [3].

Hodnota dát

Dataset predstavuje realistický pohľad na situačné povedomie v oblasti bezpečnosti organizačných sietí (Network Security Situational Awareness – NSSA), keďže obsahuje upozornenia (alerty) zozbierané z reálnych a prevádzkovaných sieťových senzorov. Mnohé existujúce datasety, ako napríklad UNSW-NB15 [4], CSE-CIC-IDS2018 [5], CIC-IDS2017 [6] a ďalšie, ktoré sú primárne vytvorené pre klasifikačné úlohy v oblasti detekcie prienikov, sú zastarané, obsahujú dáta generované v simulovaných prostrediach a pokrývajú len krátke časové obdobia (hodiny alebo dni), čo ich robí nevhodnými pre NSSA. Tento dataset bol vytvorený zo senzorov umiestnených v reálnom sieťovom prostredí počas dlhšieho časového obdobia (jeden až dva roky). Vďaka tomu lepšie zachytáva vzory útokov, správanie útočníkov a vývoj bezpečnostných hrozieb, čím poskytuje hodnotný zdroj pre pochopenie výziev v oblasti kybernetickej bezpečnosti.

Dataset je verejne dostupný a pozostáva z reálnych dát. Väčšina predchádzajúceho výskumu v oblasti situačného povedomia organizačných sietí bola založená na súkromných dátach alebo datasetoch vytvorených simulovanými útokmi v infraštruktúre (syntetické datasety) [4]. Tieto datasety často nie sú verejne dostupné z dôvodu ochrany súkromia alebo prítomnosti citlivých informácií. Publikovaním rozsiahleho otvoreného datasetu sa umožňuje reprodukovateľný výskum a objektívne porovnávanie metód v rôznych oblastiach situačného povedomia (napr. detekcia hrozieb alebo ich predikcia).

Dataset kombinuje upozornenia z rôznorodých a geograficky distribuovaných senzorov (naprieč Českou republikou), ktoré boli cieľom útokov z celého sveta. To umožňuje skúmať rozsiahle koordinované útoky, analyzovať časové a priestorové vzťahy medzi upozorneniami a hodnotiť kolaboratívne techniky detekcie prienikov v prostrediach s viacerými doménami.

Dataset je vhodný pre rôzne analytické prístupy, vrátane predikcie, detekcie anomálií, strojového učenia a štatistickej analýzy. Výskumníci môžu testovať a zdokonaľovať svoje prediktívne modely, korelačné metódy a detekčné algoritmy na reálnych dátach, čo podporuje základný výskum aj praktický vývoj.

Pozadie

Dôležitým aspektom výskumu v oblasti situačného povedomia v bezpečnosti sietí (Network Security Situational Awareness – NSSA) je schopnosť vytvoriť vhodný dataset na porovnávanie metód analýzy dát a metód strojového učenia pre NSSA, najmä v oblastiach porozumenia a predikcie. Vo všeobecnosti existuje len veľmi málo datasetov vhodných pre tento typ výskumu. Datasety určené pre detekciu prienikov sa často používajú namiesto nich. Hoci ide o príbuznú oblasť, takéto dáta nemusia plne zodpovedať špecifickým výzvam NSSA. Tieto datasety sú zvyčajne umelo generované a neodrážajú reálny situačný kontext v organizáciách.

Z tohto pohľadu je nevyhnutné pracovať s datasetom, ktorý zachytáva reálne útoky. Okrem toho je výhodné disponovať dátami z rôznorodých zdrojov, ktoré sú geograficky distribuované a zbierané pomocou viacerých typov zberných mechanizmov. Práve takýto typ dát bol použitý v práci [3].

V našej štúdii sme sa zamerali na predikciu NSSA na základe prístupov využívajúcich neurónové siete a štatistické metódy. Väčšina existujúceho výskumu sa sústreďuje na celkový počet útokov [7] alebo udalostí [8] v rámci NSSA. Tieto dáta nám umožňujú skúmať aj jednotlivé komponenty NSSA, ako sú kategórie útokov, služby a protokoly.

Popis dát

Dataset pozostáva zo spracovaných alertov zozbieraných z platformy Warden počas niekoľkých mesiacov (2017–2018 a 2023–2024). Celkovo bolo zozbieraných viac ako tri miliardy alertov zo systémov detekcie prienikov, honeypotov a ďalších zdrojov dát nasadených v organizáciách naprieč Českou republikou.

Keďže dáta sú získané z detekčných mechanizmov (silver-standard labels), mali by byť považované za označené (labelované), avšak nie manuálne overené (napr. expertom). Tento fakt je potrebné zohľadniť pri interpretácii výsledkov odvodených z tohto datasetu. Podobný dataset bol vytvorený v roku 2020. Tento dataset obsahoval nespracované alerty pokrývajúce obdobie jedného týždňa [9].

Vzhľadom na odlišné obdobia zberu dát, ako aj špecifické podmienky súvisiace so zberom reálnych dát, je dataset rozdelený do štyroch častí:

• Časť 1 – časové rady IDEA alertov zozbieraných zo systému WARDEN medzi rokmi 2017 a 2018,
• Časť 2 – modifikované časové rady IDEA alertov z časti 1,
• Časť 3 – vyčistené časové rady IDEA alertov z časti 2,
• Časť 4 – časové rady IDEA alertov zozbieraných zo systému WARDEN medzi rokmi 2023 a 2024.

Pre prvú časť datasetu bolo zvolených 21 kritérií na vytvorenie časových radov. Prvé dva časové rady obsahujú pre každý časový interval:

  • počet všetkých alertov,
  •  počet unikátnych zdrojových IP adries.

Ostatné časové rady obsahujú počty alertov pre špecifickú kategóriu a pre tie, ktoré majú špecifický cieľový port alebo protokol, konkrétne:

  • kategória Recon.Scanning – útoky, ktoré posielajú požiadavky na systém s cieľom odhaliť zraniteľnosti. Zahŕňa to aj rôzne testovacie procesy na získanie informácií o zariadeniach, bežiacich procesoch, používateľoch a pod.,
  • kategória Availability.DDoS – systém je zahltený veľkým množstvom požiadaviek (paketov, spojení) z viacerých zdrojov, čo spôsobuje oneskorenia v prevádzke alebo zlyhanie systému,
  • kategória Attempt.Login – viacnásobné pokusy o prihlásenie (napr. brute force),
  • kategória Attempt.Exploit – pokus o kompromitáciu systému alebo narušenie služby zneužitím zraniteľností so štandardizovaným identifikátorom, ako je CVE (napr. buffer overflow, cross-site scripting a pod.),
  • kategória Malware.Ransomware – softvér úmyselne vložený alebo spustený v systéme so škodlivým cieľom zašifrovať súbory a požadovať výkupné,
  • kategória Intrusion.Botnet – detekcia komunikácie typu command-and-control (C&C) s riadiacim serverom,
  • port 21,
  • port 22,
  • port 23,
  • port 25,
  • port 80,
  • port 443,
  • port 445,
  • protokol TCP,
  • protokol SSH,
  • protokol UDP,
  • protokol ICMP,
  • protokol MS WBT Server,
  • protokol telnet.

Táto časť datasetu sa nachádza v priečinku s názvom „part1“. Nachádza sa tu jeden komprimovaný CSV súbor – part1.csv.xz. Tento súbor obsahuje 22 stĺpcov. Prvý stĺpec predstavuje časovú značku (timestamp) a ostatné stĺpce sú hodnoty zodpovedajúce špecifikovaným kritériám. Každá hodnota vyjadruje, koľko udalostí nastalo pre zvolené kritérium v danom časovom intervale (30 minút).

Dataset obsahuje 17 473 riadkov (hodnôt) v časovom rozsahu od 11. decembra 2017 00:00 do 10. decembra 2018 00:00. V datasete sa nachádzajú dve miesta s chýbajúcimi hodnotami (hodnota je NaN – not a number). Prvé sa nachádza medzi 31. októbrom 2018 00:00 (riadok 15 552) a 31. októbrom 2018 23:30 (riadok 15 599) a druhé na konci datasetu od 9. decembra 2018 20:00 (riadok 17 464). Celkovo chýba 57 hodnôt. Obr. 1 zobrazuje časť datasetu pre kritériá „Count of all alerts“, „Category attempt login“ a „Port 445“.

Okrem toho poskytujeme Jupyter Notebook (read_part_1.ipynb) v priečinku part1, ktorý demonštruje načítanie dát, zobrazenie grafov, poskytuje ďalšie štatistické informácie a rozdelenie dát na trénovaciu a testovaciu množinu podľa prác [3,22] a podobne.

Pre prvú časť datasetu poskytujeme aj Jupyter Notebook (prediction_example_part_1.ipynb), ktorý ukazuje príklad použitia jednej časovej rady (Port 445) z tejto časti datasetu na predikciu pomocou LSTM siete a prístupu ARIMA. Tento príklad je možné jednoducho upraviť tak, aby bol použiteľný aj pre iné časové rady a ďalšie časti datasetu.

Druhá časť datasetu má rovnakú štruktúru ako prvá časť. Táto časť datasetu sa nachádza v priečinku s názvom „part2“. Nachádza sa tu jeden komprimovaný CSV súbor – part2.csv.xz. Táto časť datasetu pozostáva z 520 889 riadkov (hodnôt). Perióda pre túto časť datasetu je jedna minúta. Problematické a chýbajúce dáta zo začiatku a konca časového radu boli odstránené a prvá hodnota je z 13. decembra 2017 o 00:00. Posledná hodnota je z 9. decembra 2018 o 17:28.

Rovnako sa tu nachádzajú chýbajúce dáta (NaN) medzi 31. októbrom 2018 o 00:00 a 31. októbrom 2018 o 23:30 (1 411 riadkov). Poskytujeme tiež ukážkový Jupyter Notebook (read_part_2.ipynb) v priečinku „part2“, ktorý demonštruje načítanie dát, zmenu periód, zobrazovanie grafov a poskytovanie dodatočných štatistických informácií, ako aj rozdelenie dát na trénovaciu a testovaciu množinu podľa prác [3,22] a ďalšie funkcionality.

Tretia časť datasetu pozostáva z troch výstupov spracovania (priečinky „only_events“, „source_destination“ a „tables_csv“ v priečinku „part3“).

Každý z prvých dvoch výstupov spracovania (priečinky „only_events“ a „source_destination“) pozostáva z 20 komprimovaných CSV súborov. Názov každého súboru zodpovedá jednému z 20 kritérií opísaných v prvej časti (pričom jedno kritérium nemá časový rad). Každý súbor obsahuje stĺpce, ktoré zodpovedajú senzorom, ktoré odosielali alerty do systému Warden.

Celkovo sa v každom z prvých dvoch výstupov spracovania nachádza 271 časových radov (271 je súčet počtu stĺpcov vo všetkých súboroch jednotlivých kritérií). Perióda je opäť jedna minúta, takže každý riadok vyjadruje, koľko alertov bolo odoslaných daným senzorom za jednu minútu. Počet stĺpcov sa môže líšiť, pretože nie každý senzor odosiela alerty pre každé kritérium.

Súbory vo výstupoch spracovania sa líšia spôsobom, akým boli vytvorené. Viac informácií je možné nájsť v sekcii „Experimental design, materials and methods“. Časový rozsah časových radov je rovnaký ako v druhej časti datasetu, vrátane rovnakých chýbajúcich hodnôt.

Obr. 1. Ukážkový graf datasetu pre kritériá počet všetkých alertov, kategória attempt login a port 445 v období od 1. 1. 2018 00:00 do 31. 1. 2018 00:00.

V treťom výstupe spracovania (priečinok „tables_csv“) poskytujeme jeden komprimovaný CSV súbor pre každý deň (celkovo 364). Každý súbor obsahuje spracované alerty, ktoré nastali v daný deň. Každý riadok obsahuje informácie o čase udalosti, senzore, počte spojení, počte zdrojových IP adries a všetkých kategóriách, portoch a protokoloch, ktoré boli opísané na začiatku výstupu spracovania.

Poskytujeme tiež Jupyter Notebook (read_part_3.ipynb) v priečinku „part3“, podobne ako v predchádzajúcich častiach, ktorý demonštruje načítanie dát a tiež kombinovanie časových radov z rôznych senzorov.

Na poskytnutie podrobnejších informácií o použitých senzoroch sme pridali súbory sensors_statistics.csv.xz a sensors_statistics.ipynb, ktoré detailnejšie popisujú použité senzory. CSV súbor obsahuje informácie o celkovom počte alertov v každej minúte daného časového intervalu pre každý použitý senzor. Jupyter Notebook zobrazuje obsah CSV súboru a poskytuje základné informácie. Hodnota NaN znamená, že v danom čase neboli zo senzora zaznamenané žiadne alerty.

Štvrtá časť datasetu reaguje na potrebu dát v tejto oblasti. Štruktúra datasetu je rovnaká ako v tretej časti datasetu, s tromi výstupmi spracovania a s Jupyter Notebookom poskytnutým v priečinku „part4“. Prvá hodnota je z 31. decembra 2022 o 23:00 a posledná z 31. decembra 2024 o 22:59.

V oboch prvých výstupoch spracovania (priečinky „only_events“ a „source_destination“) sa nachádza 20 komprimovaných CSV súborov s 253 časovými radmi. V tejto časti datasetu sa nachádza viac chýbajúcich dát na rôznych miestach (celkovo 13), ktoré ovplyvňujú spolu 20 116 riadkov s hodnotami NaN z celkového počtu 1 052 640 riadkov.

V treťom výstupe spracovania sa nachádza 731 komprimovaných CSV súborov s rovnakou štruktúrou ako v tretej časti datasetu.

V tejto časti tiež poskytujeme Jupyter Notebook (read_part_4.ipynb) v priečinku part4, ktorý demonštruje načítanie dát, zobrazenie grafov, poskytuje ďalšie štatistické informácie, kombinovanie časových radov z rôznych senzorov a rozdelenie dát na trénovaciu (80 %) a testovaciu (20 %) množinu, s odporúčaním použiť metódu walk-forward validation na trénovacej časti. Pre túto časť sú tiež dostupné súbory sensors_statistics.csv.xz a sensors_statistics.ipynb.

Kľúčové aspekty (základné informácie) všetkých častí a spracovania navrhovaného datasetu sú zhrnuté v tabuľke 1. Integritu všetkých poskytnutých súborov je možné overiť pomocou hashovacích súborov MD5 a SHA256.

Tabuľka 1
Porovnanie všetkých častí a spracovaní datasetu.

Časť Časové obdobie Spracovanie Počet časových radov / súborov Počet hodnôt v časových radoch Minimálna časová jednotka Chýbajúce dáta
1
11. december 2017 – 10. december 2018
pôvodné dáta použité vo výskume [3,22]
21 – jeden časový rad pre každé kritérium
17 473
30 min
31. október 2018 00:00 – 31. október 2018 23:30 a 9. december 2018 20:00 – koniec (57 riadkov)
2
11. december 2017 – 10. december 2018
pôvodné dáta s opravenou časovou značkou
21 – jeden časový rad pre každé kritérium
520 889
1 min
31. október 2018 00:00 – 31. október 2018 23:30 (1 411 riadkov)
3
11. december 2017 – 10. december 2018
1. – časové rady založené na alertoch (only_events)
271 časových radov s rôznym počtom pre každé z 20 kritérií
520 889
1 min
31. október 2018 00:00 – 31. október 2018 23:30 (1 411 riadkov)
2. – časové rady založené na dvojiciach IP adries (source-destination)
271 časových radov s rôznym počtom pre každé z 20 kritérií
520 889
1 min
31. október 2018 00:00 – 31. október 2018 23:30 (1 411 riadkov)
3. – tabuľková reprezentácia (tables_csv)
364 – jeden súbor na deň
31. október 2018 00:00 – 31. október 2018 23:30
4
31. december 2022 – 31. december 2024
1. – časové rady založené na alertoch (only_events)
253 časových radov s rôznym počtom pre každé z 20 kritérií
1 052 640
1 min
13 miest v časových radoch (20 116 riadkov)
2. – časové rady založené na dvojiciach IP adries (source-destination)
253 časových radov s rôznym počtom pre každé z 20 kritérií
1 052 640
1 min
13 miest v časových radoch (20 116 riadkov)
3. – tabuľková reprezentácia (tables_csv)
731 – jeden súbor na deň
13 miest

Obr. 2. Architektúra systému Warden, odosielajúci klienti (vľavo) a prijímajúci klienti (vpravo). Zdroj: [2].

Experimentálny návrh, materiály a metódy

Táto sekcia je rozdelená do troch podsekcií. Najprv opisujeme platformu na zdieľanie alertov Warden, z ktorej boli dáta získané. Následne prezentujeme zozbierané bezpečnostné udalosti. Napokon poskytujeme podrobné vysvetlenie predspracovania dát a tvorby časových radov.

Platforma Warden

Dáta boli zbierané počas obdobia niekoľkých mesiacov (2017–2018 a 2023–2024) v platforme na zdieľanie alertov Warden [1,2], ktorá umožňuje zdieľanie alertov detekcie prienikov medzi organizáciami. Tento systém prijíma alerty odosielané rôznymi systémami detekcie prienikov, honeypotmi a platformami tretích strán na zdieľanie (odosielajúci klienti) a distribuuje ich rôznym príjemcom, ako sú analytické nástroje, reportovacie nástroje a zariadenia aktívnej obrany siete (prijímajúci klienti). Schéma platformy Warden je znázornená na obr. 2.

Senzory nasadené v rámci českej akademickej siete CESNET, vrátane univerzitných sietí a pripojených komerčných ISP sietí, odosielajú dáta do platformy Warden. Tieto siete sú geograficky distribuované po celom území Českej republiky. Senzory pozostávajú najmä zo systémov detekcie prienikov a honeypotov. Najvýznamnejším systémom je sieťový systém detekcie prienikov NEMEA [10], ktorý deteguje skenovanie portov, brute-force útoky, DDoS útoky, DDoS amplifikátory, komunikáciu s IP adresami nachádzajúcimi sa na blacklistoch a anomálie sieťovej prevádzky.

Okrem toho sú nasadené aj ďalšie sieťové systémy detekcie prienikov (napr. Suricata [11]) a systémy detekcie anomálií (napr. Network Traffic Monitoring – FTAS [12]), hoci generujú menší počet alertov. V rámci tejto akademickej siete sú taktiež nasadené rôzne honeypoty, ako napríklad Cowrie [13], Dionaea [14], Hugo [15], LaBrea [16] a ďalšie. Tieto honeypoty zaznamenávajú skenovanie siete, brute-force útoky a pokusy o zneužitie zraniteľností.

Zozbierané dáta (bezpečnostné alerty)

Platforma Warden zbiera alerty od odosielajúcich klientov a ukladá (zdieľa) ich vo formáte IDEA [17]. Formát IDEA je deskriptívny dátový model využívajúci JSON štruktúru typu kľúč-hodnota, ktorý obsahuje niekoľko povinných polí (format, ID, detect time, category) a množstvo voliteľných polí s podporou viacerých vstupov. Príklad bezpečnostnej udalosti uloženej vo formáte IDEA je znázornený na obr. 3.

Formát IDEA je inšpirovaný formátom IDMEF [18]. IDEA využíva formát JSON, zatiaľ čo IDMEF používa XML. Na rozdiel od IDMEF je formát IDEA rozšíriteľný a zahŕňa klasifikáciu alertov založenú na taxonómiách komunity CSIRT [17]. V IDMEF sa síce nachádza prvok Classification, ten však nie je štandardizovaný a môže obsahovať ľubovoľný textový reťazec.

Časové polia vo formáte IDEA sa riadia štandardom RFC 3339 [19], zatiaľ čo IDMEF využíva štandard ISO 8601. Kým IDMEF vyžaduje časovú značku začiatku udalosti, IDEA z praktických dôvodov vyžaduje čas detekcie udalosti. Určenie alebo odhad začiatku udalosti je totiž často problematické, najmä pri detekcii anomálií sieťovej prevádzky alebo rozsiahlych incidentov [20].

V prípade potreby je konverzia z IDMEF do IDEA relatívne jednoduchá. Vstupy je možné ďalej validovať pomocou dátového formátu IDEA [21].

Alerty použité na vytvorenie datasetu boli zbierané klientskou aplikáciou v časovom období od 11. decembra 2017 00:00 do 10. decembra 2018 00:01 pre prvé tri časti datasetu a od 31. decembra 2022 23:00 do 31. decembra 2024 23:00 pre štvrtú časť.

Alerty (dáta) boli ukladané do súborov, pričom pre každý deň bol vytvorený jeden súbor a každý riadok obsahoval jeden alert vo formáte IDEA. Celkový počet zozbieraných alertov bol približne tri miliardy.

Obr. 3. Príklad alertu vo formáte IDEA.

Po zozbieraní dát zo systému Warden sme vytvorili časové rady na základe kritérií opísaných v kapitole DATA DESCRIPTION. Jednotlivé atribúty boli vytvorené z alertov vo formáte IDEA podľa nasledujúcich pravidiel:

Obr. 4. Pracovný postup vytvárania prvej časti datasetu.

  • V prípade kritéria Count of all alerts sa počítajú všetky alerty, ktoré nastali v danom časovom intervale.
  • Kritérium Count of unique IPs zohľadňuje všetky rôzne adresy „Source“, „IP4“ v rámci daného časového intervalu.
  • V prípade kritéria Category recon scanning a ostatných kategórií typu Category bol kľúč „Category“ dôležitým prvkom vo formáte IDEA.
  • Kritériá Port 21 a ostatné portové kritériá zohľadňujú kľúč „Port“ v rámci kľúča „Target“.
  • Kritériá Protocol TCP a ostatné protokolové kritériá boli vytvorené z kľúča „Proto“ v rámci kľúča „Target“.
  • Pre prvú časť datasetu boli časové rady vytvorené a uložené s periódou 30 minút na základe „Detection time“. V prípade druhej, tretej a štvrtej časti datasetu boli časové rady vytvorené a uložené s periódou jednej minúty na základe „Detection time“.

Ako bolo uvedené v predchádzajúcej kapitole, dataset pozostáva zo štyroch častí. Proces vytvárania prvej časti datasetu je znázornený na obr. 4. Senzory (honeypoty, IDS, ShadowServer) nasadené v rámci siete CESNET odosielajú alerty na server Warden, ktorý ich následne preposiela nášmu prijímajúcemu klientovi (obr. 4–1).

Klient zbiera alerty v reálnom čase a ukladá ich do denných súborov (jeden súbor na deň) (obr. 4–2). Z týchto súborov sa následne vytvárajú časové rady, ktoré sú ukladané do databázy PostgreSQL (obr. 4–3). Pomocou databázových dotazov sa generujú časové rady s 30-minútovým intervalom (ako je použité v prácach [3,22]) (obr. 4). Príklad databázového dotazu:

SELECT time_bucket(‘30 min’, “time”) AS “time”, sum(value) AS “value” FROM history_int
WHERE “time” BETWEEN ‘2017-12-11’ AND ‘2018-12-11’ AND item_id = 70
GROUP BY 1 ORDER BY 1;

Tabuľka history_int uchováva počet alertov za minútu a item_id je kód reprezentujúci kritérium (napr. hodnota 70 zodpovedá portu 443). Výsledkom tohto procesu je komprimovaný CSV súbor obsahujúci 22 stĺpcov: jeden pre časovú značku a dvadsaťjeden pre jednotlivé kritériá. Výsledkom je komprimovaný CSV súbor obsahujúci jeden stĺpec s časovou značkou a dvadsaťjeden stĺpcov zodpovedajúcich vybraným kritériám (obr. 4).

S touto časťou datasetu sú spojené dva problémy. Tieto dáta predstavujú reálne prevádzkové dáta súvisiace so špecifickými problémami aplikácií. Prvý problém súvisí so spracovaním dát v systéme Warden. Pri procese načítavania časových značiek z alertov nebolo zohľadnené časové pásmo. Tento problém je však len mierny, pretože iba 1,31 % alertov má časové značky s iným časovým pásmom než UTC.

Druhý problém súvisí s generovaním alertov. Keď je senzor pridaný do systému Warden, môže byť v testovacom prevádzkovom stave. Niekedy môže zostať v tomto stave dlhší čas, aj keď je používaný v produkcii. V tomto prípade bolo 26,31 % alertov v tejto časti datasetu v testovacom prevádzkovom stave. Hoci sú niektoré alerty označené ako testovacie, ide o reálne alerty, ktoré sa v organizácii vyskytujú. Reálna prevádzka zahŕňa aj testovanie dostupných riešení, čo je vhodné zohľadniť pri návrhu systémov pre reálnu prevádzku. Domnievame sa, že tento dataset môže byť užitočný pre výskumnú komunitu v tejto oblasti, aby mohli trénovať a testovať svoje metódy a porovnávať svoje výsledky s výsledkami uvedenými v prácach [3,22].

Problém s časovými značkami uvedený vyššie bol riešený v druhej časti datasetu. Riešením je prevod časovej značky každého záznamu na UTC. Postup vytvárania druhej časti datasetu je znázornený na obr. 5. Najprv sa spracujú denné súbory obsahujúce alerty. Pomocou Python skriptov s využitím knižnice multiprocessing sa generuje 21 samostatných časových radov (každý reprezentuje jedno konkrétne kritérium) s periódou jednej minúty pre každý deň (zdrojový súbor).

Počas spracovania sa časové značky konvertujú na UTC a vytvárajú sa časové rady (obr. 5–1). Všetky vygenerované časové rady sa následne zlúčia do jedného objektu Pandas DataFrame. Nakoniec sa DataFrame exportuje a uloží ako komprimovaný CSV súbor (obr. 5–2).

Obr. 5. Pracovný postup vytvárania druhej časti datasetu.

Pre tretiu a štvrtú časť datasetu je proces vytvárania datasetu znázornený na obr. 6. Denné súbory obsahujúce alerty sú spracovávané tromi rôznymi spôsobmi v závislosti od zamýšľaného typu časových radov:

Tretie spracovanie – časové rady založené na alertoch (only_events) – časové značky v každom súbore sú konvertované na UTC a vytvárajú sa časové rady, v ktorých každý alert prispieva hodnotou jedna (obr. 6 – 1.1). Tieto časové rady sú agregované do objektu Pandas DataFrame a exportované ako komprimované CSV súbory (obr. 6 – 2.1).

Druhé spracovanie – časové rady založené na dvojiciach IP adries (source-destination) – časové značky sú konvertované na UTC a vytvárajú sa časové rady, v ktorých každý alert prispieva hodnotou rovnajúcou sa súčinu počtu unikátnych zdrojových IP adries a počtu unikátnych cieľových IP adries na jeden alert (obr. 6 – 1.2). Výsledné časové rady sú agregované do objektu Pandas DataFrame a exportované ako komprimované CSV súbory (obr. 6 – 2.2).

Tretie spracovanie – tabuľková reprezentácia (tables_csv) – po konverzii časových značiek na UTC je každý súbor spracovaný do štruktúrovanej tabuľkovej podoby (obr. 6 – 1.3) a exportovaný ako komprimovaný CSV súbor (obr. 6 – 2.3).

Obr. 6. Pracovný postup vytvorenia tretej a štvrtej časti súboru údajov.

Pre tretiu časť tohto datasetu boli použité rovnaké súbory ako v druhej časti. Prvý opísaný problém bol riešený rovnakým spôsobom ako v druhej časti. Na vyriešenie druhého problému boli použité všetky senzory v normálnom stave. Na druhej strane, všetky senzory v testovacom stave boli konzultované s administrátorom systému Warden a boli použité iba vybrané senzory.

Táto časť datasetu pozostáva z 271 časových radov. Napríklad pre kategóriu Category attempt exploit existuje šesť časových radov (pre senzory s06, s07, s15, s25, s31 a s33). Tieto časové rady boli vytvorené pomocou rovnakých 21 kritérií, ktoré boli použité v prvej a druhej časti, a boli využité na generovanie časových radov na základe produkčných a vybraných testovacích senzorov. Senzory boli vylúčené na základe znalostí administrátora systému Warden.

V dôsledku odstránenia niektorých senzorov, ktoré boli v testovacom stave, kategória Malware.Ransomware neobsahuje žiadne alerty, a preto pre túto kategóriu neexistuje časový rad.

Boli vytvorené dve množiny časových radov. Prvá (priečinok source_destination) zohľadňuje viacero zdrojových IP adries a cieľových IP adries v rámci jednej udalosti. Tieto dve hodnoty boli vynásobené a následne pripočítané k príslušnému času v časovom rade. Druhá (priečinok only_events) pridáva pre každú udalosť iba hodnotu jedna k príslušnému času v časovom rade.

Existujú dve množiny 20 komprimovaných CSV súborov, pričom každá obsahuje 2×271 časových radov. Časové rady v tejto časti majú periódou 1 minútu.

Okrem toho sme každý súbor s udalosťami vo formáte IDEA spracovali do tabuľkovej podoby. Tieto tabuľky sú uložené v priečinku „only_events“ ako 363 komprimovaných CSV súborov. Každý riadok v každej tabuľke reprezentuje jednu spracovanú udalosť. Zo záznamu udalosti uloženého vo formáte IDEA extrahujeme všetky dôležité informácie a vytvárame príslušné stĺpce, ako je opísané v kapitole „DATA DESCRIPTION“. Týmto spôsobom je možné agregovať dáta ľubovoľne podľa potrieb výskumu.

Na vytvorenie štvrtej časti datasetu boli použité novšie dáta zo systému Warden. Postup vytvárania tejto časti datasetu je identický s postupom pre tretiu časť. Testovacie senzory v novších dátach boli opäť konzultované s administrátorom systému Warden.

Dve množiny 253 časových radov sú uložené v dvoch množinách 20 komprimovaných CSV súborov (pričom kategória „Malware.Ransomware“ neobsahuje žiadne alerty) a všetky udalosti boli spracované do 731 komprimovaných CSV súborov.

Obmedzenia

S vytvoreným datasetom je spojených niekoľko obmedzení:

  • Dáta sú zbierané iba zo senzorov geograficky umiestnených v Českej republike. Z tohto dôvodu je potrebné ich používať s ohľadom na tento kontext a výsledky nemožno interpretovať ako všeobecne aplikovateľné. Dataset je najvhodnejší na porovnávanie metód pre predikciu situačného povedomia v sieťovej bezpečnosti.
  • Dáta sú získané z detekčných mechanizmov (labely predstavujú tzv. silver standard, nie gold standard). Takéto označenia je potrebné chápať ako anotované, avšak nie manuálne overené (napr. expertom). Tento fakt je nevyhnutné zohľadniť pri interpretácii výsledkov odvodených z tohto datasetu. Zároveň je potrebné brať do úvahy, že keďže dáta sú generované a označované detekčnými mechanizmami, môžu sa vyskytovať falošne pozitívne prípady (benígna aktivita nesprávne označená ako škodlivá) alebo falošne negatívne prípady (škodlivá aktivita nesprávne označená ako benígna). Okrem toho nemusia byť niektoré časti určitých útokov zachytené vôbec.
  • Je dôležité poznamenať, že prezentovaný dataset nebol vytvorený na účely klasifikácie bezpečnostných alertov, ale na predikciu ich výskytu. Pri výbere metód strojového učenia, ako aj pri interpretácii výsledkov, je potrebné tento aspekt zohľadniť.
  • V datasete sa nachádzajú chýbajúce dáta:

        ◦  Chýbajúce dáta medzi 11. decembrom 2017 a 10. decembrom 2018, 1 411 riadkov s hodnotami NaN z celkového počtu 520 889 (0,27 %):
            ∎ 31. október 2018 00:00 – 31. október 2018 23:30
            ∎ 9. december 2018 20:00 – 10. december 2018 00:00 (koniec datasetu, odstránené v časti 2 a 3)

        ◦ Chýbajúce dáta medzi 31. decembrom 2022 a 31. decembrom 2024, 20 116 riadkov s hodnotami NaN z celkového počtu 1 052 640 (1,91 %):
            ∎ 7. február 2023 22:59 – 8. február 2023 22:58
            ∎ 18. február 2023 22:59 – 19. február 2023 22:58
            ∎ 30. november 2023 23:59 – 31. november 2023 22:59
            ∎ 12. december 2023 23:59 – 13. december 2023 22:57
            ∎ 19. december 2023 22:59 – 20. december 2023 22:59
            ∎ 22. december 2023 22:58 – 23. december 2023 22:57
            ∎ 25. december 2023 22:57 – 27. december 2023 22:57
            ∎ 30. december 2023 22:59 – 31. december 2023 22:59
            ∎ 5. január 2024 22:58 – 6. január 2024 22:59
            ∎ 9. január 2024 22:58 – 10. január 2024 22:58
            ∎ 3. apríl 2024 21:58 – 4. apríl 2024 21:59
            ∎ 6. apríl 2024 20:56 – 7. apríl 2024 22:01
            ∎ 10. apríl 2024 21:59 – 11. apríl 2024 22:00