Quando Un conto grande e bellissimo Quando è arrivato come un documento non strutturato di 900 pagine senza un grafico standard, moduli IRS pubblicati e una scadenza rigida, il team TurboTax di Intuit si è posto una domanda: l’intelligenza artificiale può comprimere un’implementazione di mesi in giorni senza sacrificare la precisione?
Ciò che hanno creato per fare questo non è tanto una storia fiscale quanto un modello, un flusso di lavoro che combina strumenti di intelligenza artificiale commerciali, un linguaggio specifico per dominio e un framework di test unitario proprietario che qualsiasi team di sviluppo vincolato al dominio può apprendere.
Joy Shaw, responsabile fiscale di Intuit, lavora presso l’azienda da oltre 30 anni e Legge sui tagli fiscali e sull’occupazione e OBB. "C’era molto rumore nella legge stessa e siamo riusciti a individuare le implicazioni fiscali, restringere il campo alle singole disposizioni fiscali, restringere il campo ai nostri clienti," Shaw ha detto a VentureBeat. "Questo tipo di distillazione è stata davvero rapida utilizzando gli strumenti e ci ha permesso di iniziare a scrivere codice ancor prima di ricevere i moduli e le istruzioni."
In che modo OBBB ha alzato l’asticella?
Quando nel 2017 è stato approvato il Tax Cuts and Jobs Act, il team TurboTax ha lavorato alla legislazione senza l’aiuto dell’intelligenza artificiale. Ci sono voluti mesi e i requisiti di precisione non lasciavano spazio a scorciatoie.
"Prima dovevamo studiare le sezioni di legge e di codice che facevano riferimento ad altre sezioni di codice e cercare di capirlo da soli." Shaw ha detto.
OBBB veniva fornito con gli stessi requisiti di precisione ma con un profilo diverso. Con oltre 900 pagine, era strutturalmente più complesso del TCJA. È arrivato come un documento non strutturato senza uno schema standardizzato. Le versioni della Camera e del Senato hanno utilizzato un linguaggio diverso per descrivere le stesse disposizioni. E il team ha dovuto iniziare l’implementazione prima che l’IRS emettesse moduli o istruzioni ufficiali.
La domanda era se gli strumenti di intelligenza artificiale potessero comprimere la sequenza temporale senza sacrificare l’output. La risposta richiedeva una sequenza specifica e strumenti che ancora non esistevano.
Dal documento non strutturato al codice specifico del dominio
L’OBBB era ancora in fase di approvazione al Congresso quando il team TurboTax ha iniziato a lavorarci. Utilizzando modelli linguistici ampi, il team ha riassunto la versione della Camera, poi quella del Senato, e poi ha riconciliato le differenze. Entrambe le Camere hanno citato le stesse sezioni fondamentali del codice tributario; si trattava di una linea di base coerente che consentiva ai modelli di effettuare confronti tra documenti strutturalmente incoerenti.
Il giorno della firma, il team ha filtrato le disposizioni in base a quelle che interessavano i clienti TurboTax, restringendole a situazioni fiscali e profili di clienti specifici. L’analisi, la riconciliazione e il filtraggio del provisioning sono passati da settimane a ore.
Queste attività sono state eseguite da ChatGPT e LLM per scopi generali. Tuttavia, questi strumenti hanno raggiunto un limite quando si tratta di passare dall’analisi all’implementazione. TurboTax non funziona in un linguaggio di programmazione standard. Il motore di calcolo delle imposte è basato su un linguaggio proprietario specifico del dominio gestito internamente da Intuit. Qualsiasi modello che generi codice per questa codebase deve tradurre il testo legale in una sintassi su cui non è mai stato addestrato prima e determinare come le nuove disposizioni interagiscono con decenni di codice esistente senza interrompere ciò che già funziona.
Claude è diventato lo strumento principale per questo lavoro di traduzione e mappatura delle dipendenze. Consentendo agli sviluppatori di concentrarsi esclusivamente sulle nuove disposizioni, Shaw ha affermato di poter determinare cosa è cambiato e cosa no.
"Può integrarsi con cose che non cambiano e identificare le dipendenze da cose che cambiano," ha detto. "Ciò ha accelerato il processo di sviluppo e ci ha permesso di concentrarci solo su ciò che stava cambiando."
Costruisci strumenti che corrispondano a soglie di errore prossime allo zero
I Master per scopi generali hanno consentito al team di eseguire il codice. Per rendere questo codice consegnabile sono stati necessari due strumenti personalizzati creati durante il ciclo OBBB.
Prime schermate dei prodotti TurboTax generate automaticamente direttamente dalle modifiche legislative. In precedenza, gli sviluppatori selezionavano queste schermate separatamente per ciascun provisioning. Il nuovo strumento ne gestiva la maggior parte in modo automatico, con personalizzazione manuale solo dove necessario.
Il secondo era un framework di test unitario appositamente creato. Intuit ha sempre eseguito test automatizzati, ma il sistema precedente produceva solo risultati pass/fail. Quando un test falliva, gli sviluppatori dovevano aprire manualmente il file di dati della dichiarazione dei redditi sottostante per trovare la causa.
"L’automazione ti dice di passare, bocciare e devi esaminare il file dei dati fiscali effettivi per vedere cosa c’è che non va." disse Shaw. Il nuovo framework identifica la sezione specifica del codice responsabile, produce una spiegazione e consente di eseguire la correzione all’interno del framework.
La precisione di un prodotto fiscale sui consumi dovrebbe essere vicina al 100%, ha affermato Shaw. Sarah Aerni, Chief Technology Officer del Consumer Group di Intuit, ha affermato che l’architettura deve produrre risultati deterministici.
"Avere una certa abilità con il determinismo e risolverlo in modo verificabile attraverso i test: questo è ciò che porta a quel tipo di fiducia," Ha detto Aerni.
La squadra gestisce il ritmo. Ma Intuit utilizza anche strumenti di valutazione basati su Master per verificare l’output generato dall’intelligenza artificiale, e anche questi richiedono un esperto fiscale umano per valutare se il risultato è accurato. "Ci vuole competenza umana per essere in grado di verificare e verificare quasi tutto." Ha detto Aerni.
Quattro componenti che qualsiasi team del settore regolamentato può utilizzare
L’OBBB era una questione fiscale, ma le condizioni sottostanti non sono specifiche per le tasse. I team di sanità, servizi finanziari, tecnologia legale e appalti pubblici si trovano regolarmente ad affrontare la stessa combinazione: documenti normativi complessi, scadenze difficili, basi di codici proprietari e tolleranza agli errori prossima allo zero.
In base all’implementazione di Intuit, quattro elementi del flusso di lavoro possono essere trasferiti ad altri ambienti di sviluppo con vincoli di spazio:
-
Utilizzare Master commerciali per l’analisi dei documenti. I modelli generici eseguono bene il filtraggio di separazione, riconciliazione e provisioning. È qui che aggiungono velocità senza rischiare la precisione.
-
Una volta che l’analisi si trasforma in implementazione, passa a strumenti sensibili al dominio. Senza comprendere questo, i modelli generici che generano codice in un ambiente specializzato produrranno output di cui non ci si può fidare su larga scala.
-
Costruisci l’infrastruttura di valutazione prima della scadenza, non durante lo sprint. I comuni test automatizzati producono un output pass/fail. Strumenti di test specifici del dominio che identificano i difetti e abilitano correzioni nel contesto garantiscono che il codice generato dall’intelligenza artificiale sia consegnabile.
-
Distribuisci gli strumenti di intelligenza artificiale in tutta l’organizzazione, non solo nel settore della progettazione. Intuit addestra e monitora l’utilizzo di tutte le funzioni, ha affermato Shaw. La fluidità dell’intelligenza artificiale è stata distribuita all’interno dell’organizzazione anziché concentrata sui primi utilizzatori.
"Continuiamo a sfruttare le opportunità offerte dall’intelligenza artificiale e dall’intelligenza umana in modo che i nostri clienti possano ottenere ciò di cui hanno bisogno dalle esperienze che creiamo." Ha detto Aerni.