Presentato da Elastic


I log saranno lo strumento principale per trovare il “perché” nella diagnosi degli eventi di rete

Gli ambienti IT moderni hanno un problema con i dati: ci sono troppi dati. Le organizzazioni che devono gestire l’ambiente aziendale si trovano sempre più di fronte alla sfida di rilevare e diagnosticare i problemi in tempo reale, ottimizzare le prestazioni, migliorare l’affidabilità e garantire sicurezza e conformità entro budget limitati.

Il moderno ambiente di osservabilità dispone di molti strumenti che forniscono soluzioni. La maggior parte ruota attorno ai team DevOps o ai Site Reliability Engineers (SRE) che analizzano log, parametri e tracce per scoprire modelli, comprendere cosa sta accadendo sulla rete e diagnosticare il motivo per cui si è verificato un problema o un evento. Il problema è che il processo crea un sovraccarico di informazioni: un cluster Kubernetes autonomo può produrre da 30 a 50 gigabyte di log al giorno e modelli di comportamento sospetti possono sfuggire all’attenzione delle persone.

"Nel mondo dell’intelligenza artificiale è ormai così anacronistico pensare che solo gli esseri umani osservino l’infrastruttura." afferma Ken Exner, chief product officer di Elastic. "”Mi dispiace dirtelo, ma le macchine sono migliori degli umani nell’abbinamento dei modelli.”

Concentrarsi sulla visualizzazione dei sintomi a livello di settore costringe gli ingegneri a cercare manualmente le risposte. ciò che conta "Da dove" Sono incorporati nei log, ma l’industria tende a utilizzarli come ultima risorsa perché contengono grandi quantità di dati non strutturati. Ciò ha costretto i team a scendere a compromessi costosi: dedicare innumerevoli ore alla creazione di pipeline di dati complesse, abbandonando preziosi dati di registro e rischiando lacune critiche di visibilità, oppure registrare e dimenticare.

La società di ricerca AI Elastic ha recentemente rilasciato una nuova funzionalità di osservabilità chiamata Streams che mira a essere il segnale principale per le indagini prendendo log rumorosi e trasformandoli in modelli, contesto e significato.

Streams utilizza l’intelligenza artificiale per segmentare e analizzare automaticamente i log non elaborati per estrarre i campi di interesse, riducendo notevolmente lo sforzo richiesto dagli SRE per rendere disponibili i log. I flussi inoltre evidenziano automaticamente eventi importanti come errori critici e anomalie in log ricchi di contesto, fornendo agli SRE avvisi tempestivi e una chiara comprensione del loro carico di lavoro, consentendo loro di indagare e risolvere i problemi più rapidamente. L’obiettivo finale è mostrare i passi di miglioramento.

"I flussi creano automaticamente la struttura da dati grezzi, voluminosi e dispersi e li inseriscono in una forma utilizzabile, avvisandoti automaticamente dei problemi e aiutandoti a risolverli." Exner dice. "Questa è la magia di Streams."

Un flusso di lavoro interrotto

I flussi sovvertono il processo di osservabilità, che secondo alcuni è interrotto. In genere gli SRE configurano metriche, log e tracce. Quindi creano avvisi e obiettivi del livello di servizio (SLO); si tratta in genere di regole codificate che indicano quando un servizio o un processo ha superato una soglia o è stato rilevato un modello particolare.

Indica la metrica che mostra un’anomalia quando viene attivato un avviso. Da lì, gli SRE esaminano un dashboard di parametri in cui possono visualizzare il problema e confrontare l’avviso con altri parametri, o dalla CPU alla memoria fino all’I/O, e iniziare a cercare modelli.

Potrebbe quindi essere necessario esaminare una traccia ed esaminare le dipendenze upstream e downstream nell’applicazione per indagare sulla causa principale del problema. Una volta scoperto la causa del problema, accedono ai log di quel database o servizio per provare a eseguire il debug del problema.

Alcune aziende cercano di aggiungere più strumenti quando quelli esistenti si rivelano inefficaci. Ciò significa che gli SRE passano da uno strumento all’altro per continuare a monitorare e risolvere i problemi nell’infrastruttura e nelle applicazioni.

"Navighi tra diversi strumenti. Ti affidi a un essere umano per interpretarli, per guardare visivamente la relazione tra i sistemi su una mappa dei servizi, per guardare visivamente i grafici su un cruscotto, per capire qual è il problema e dove si trova. " Exner dice. "Tuttavia, l’intelligenza artificiale automatizza questo flusso di lavoro."

Con i flussi basati sull’intelligenza artificiale, i log vengono utilizzati non solo in modo reattivo per risolvere i problemi, ma anche per gestire in modo proattivo potenziali problemi e generare avvisi ricchi di informazioni che aiutano i team a passare direttamente alla risoluzione dei problemi, offrire una soluzione per la riparazione o addirittura risolvere completamente il problema prima di notificare automaticamente al team che il problema è stato risolto.

"Credo che i log, l’insieme più ricco di informazioni e il tipo originale di segnale, inizieranno a guidare gran parte dell’automazione che un tecnico dell’affidabilità del servizio in genere fa oggi e lo fa in modo molto manuale." aggiunge. "Una persona non dovrebbe trovarsi in questo processo in cui lo fa scavando dentro se stessa, cercando di capire cosa sta succedendo, dove e qual è il problema, e poi cercando di capire come eseguire il debug una volta trovata la causa principale."

Il futuro dell’osservabilità

I modelli linguistici di grandi dimensioni (LLM) potrebbero svolgere un ruolo importante nel futuro dell’osservabilità. I Master eccellono nel riconoscere modelli in grandi quantità di dati ripetuti, proprio come i dati di registro e di telemetria in sistemi complessi e dinamici. E i Master di oggi possono essere formati per processi IT specifici. Con gli strumenti di automazione, LLM dispone delle conoscenze e degli strumenti necessari per risolvere errori del database o problemi di heap Java e altro ancora. Sarà importante includerli in piattaforme che offrano contesto e rilevanza.

Exner afferma che l’ottimizzazione automatizzata richiederà ancora del tempo, ma i runbook e i playbook automatizzati creati dai LLM diventeranno una pratica standard entro i prossimi anni. In altre parole, le fasi di miglioramento saranno guidate dai LLM. LLM offrirà correzioni e invece di chiamare un esperto, l’umano le verificherà e le implementerà.

Affrontare le lacune di competenze

Rivolgersi interamente all’intelligenza artificiale per l’osservabilità aiuterà a colmare l’enorme divario di talenti necessari per gestire l’infrastruttura IT. Le assunzioni sono lente perché le organizzazioni hanno bisogno di team con grande esperienza, comprensione dei potenziali problemi e conoscenza per risolverli rapidamente. Questa esperienza può provenire da un master contestuale, afferma Exner.

"Possiamo aiutare a superare il divario di competenze aumentando il numero di persone con un master, rendendoli tutti immediatamente esperti." spiega. "”Penso che questo renderà molto più facile per noi prendere professionisti alle prime armi e trasformarli in professionisti esperti sia di sicurezza che di osservabilità, rendendo possibile a più professionisti alle prime armi di agire come esperti.”

I flussi in Osservabilità elastica sono ora disponibili. Data di inizio: lettura Altro in Stream.


Gli articoli sponsorizzati sono contenuti prodotti da un’azienda che ha pagato per il post o ha un rapporto commerciale con VentureBeat e sono sempre chiaramente contrassegnati. Contatta per maggiori informazioni sales@venturebeat.com.

Collegamento alla fonte