Machine Translation: una rivoluzione emergente

Traduzioni IA e pregiudizi linguisitici - Lara Translate
|
In questo articolo

Gli strumenti digitali e l’intelligenza artificiale, inclusi i Large Language Models (LLM) essenziali, sono generalmente ottimizzati per l’inglese.

Ciò genera prestazioni inferiori per miliardi di persone che non parlano inglese. Inoltre, l’accesso alle informazioni rilevanti è ampiamente diseguale e l’esperienza è di qualità sostanzialmente inferiore, in gran parte a causa della mancanza di dati di addestramento diversificati per le altre lingue e dell’esplosione di contenuti digitali che travolgono la traduzione umana.

Logicamente, la traduzione automatica diventa una soluzione cruciale e indispensabile. Funge da ponte vitale per gli utenti di tutto il mondo, consentendo loro di accedere ai contenuti e di beneficiare degli LLM nella loro lingua preferita, alimentando così la domanda sostanziale e crescente di questa tecnologia.

Perché la traduzione AI è importante

Internet è un hub globale fondamentale per l’informazione, il commercio e la comunità, ma i suoi sistemi automatizzati, come i chatbot di intelligenza artificiale, i motori di ricerca e le piattaforme di moderazione dei contenuti, spesso non sono all’altezza per la maggior parte del mondo. Questi strumenti essenziali sono progettati e ottimizzati principalmente per l’inglese, il che si traduce in prestazioni e utilità ridotte per i parlanti delle circa 7.000 altre lingue del mondo.

Questa disparità deriva principalmente dalla mancanza di dati di addestramento diversificati e di alta qualità per le lingue non inglesi, in particolare quelle considerate “a basse risorse”. I modelli di intelligenza artificiale addestrati principalmente su dati in inglese faticano ad adattarsi efficacemente a strutture linguistiche e sfumature culturali diverse. Di conseguenza, le prestazioni dell’IA multilingue variano in modo significativo, spesso rimanendo indietro rispetto alle capacità in inglese. Ad esempio, ChatGPT-4 ha ottenuto un punteggio dell’85% in un test di risposta alle domande in inglese, ma solo del 62% in telugu, una lingua parlata da quasi 100 milioni di persone.

Le conseguenze nella moderazione dei contenuti

Le conseguenze sono particolarmente evidenti nella moderazione dei contenuti. Le aziende tecnologiche investono in modo sproporzionato nella moderazione dei contenuti in inglese; Facebook avrebbe dedicato l’87% del suo budget anti-disinformazione all’inglese, sebbene solo il 9% dei suoi utenti sia di lingua inglese. Ciò porta a una moderazione incoerente e spesso inefficace in altre lingue, consentendo la diffusione di contenuti dannosi come incitamento all’odio e disinformazione, soprattutto in regioni come il Sud del mondo. Gli sforzi per costruire modelli multilingue a volte si basano su dati mal tradotti o di bassa qualità per le lingue con meno risorse, ostacolando ulteriormente l’efficacia.

top 20 most spoken languages worldwide - Lara Translated
Fonte: “The Need for Multilingual AI in Developing Countries

Il mondo digitale di oggi genera enormi quantità di contenuti diversi. Tuttavia, l’accesso a informazioni pertinenti e di alta qualità non è equamente condiviso. Lingue come l’inglese dominano con più contenuti, più ricchi e meglio organizzati. Ciò crea un panorama informativo globale non uniforme. Per affrontare questo problema, sono necessari investimenti significativi nella creazione di set di dati completi per una gamma più ampia di lingue e nello sviluppo di metodi migliori per valutare le prestazioni dell’IA multilingue in diversi contesti linguistici. La creazione di un’IA veramente multilingue è fondamentale per colmare il divario linguistico e garantire un accesso digitale equo a livello globale.

Gli utenti che non parlano inglese sono svantaggiati in termini di ricerca, qualità e disponibilità dei contenuti, e hanno accesso a un numero inferiore di modelli di intelligenza artificiale generativa utilizzabili o utili. Tuttavia, la maggior parte dei modelli di intelligenza artificiale attuali (LLM) è progettata per peggiorare questa disuguaglianza.

L’emergere dei Large Language Models (LLM)

L’emergere dei Large Language Models (LLM) non ha fatto altro che esacerbare questo problema. Le prestazioni di ChatGPT sono generalmente migliori per l’inglese rispetto ad altre lingue, soprattutto per le attività di livello superiore che richiedono capacità di ragionamento più complesse (ad esempio, il riconoscimento di entità nominate, la risposta a domande, il ragionamento di buon senso e la sintesi). Le differenze di prestazioni possono essere sostanziali per attività complesse e lingue con meno risorse. La maggior parte delle persone non anglofone nel mondo ha un’esperienza di qualità sostanzialmente inferiore con gli LLM se non è in grado di interagire in inglese.

GenAI Training Data Reflects a Strong English and European Bias | Lara Translated
Fonte: “CSA Research 2023

Gli sforzi per mitigare il bias intrinseco della lingua inglese all’interno degli attuali LLM si concentrano principalmente sull’arricchimento dei loro dati di addestramento di base con volumi sostanziali di dati non in inglese. Tuttavia, un ostacolo significativo deriva dalla scarsità e dalla difficoltà di ottenere questi dati multilingue, soprattutto quando si punta alla scala, al volume e alla diversità che caratterizzano i set di dati in lingua inglese esistenti.

Per superare questo deficit di dati, è necessario un investimento considerevole nella creazione e acquisizione di dati non in lingua inglese. Di conseguenza, la Machine Translation si rivela una soluzione cruciale e indispensabile per migliorare significativamente l’esperienza utente per la maggior parte degli utenti non anglofoni che interagiscono con gli LLM e altre piattaforme online. Sfruttando una traduzione automatica efficace, possiamo superare la barriera linguistica e garantire un accesso equo alle informazioni e alle funzionalità per un pubblico globale.

La crescita della traduzione automatica online

L’inglese è la lingua più vicina a una lingua franca globale. È la lingua dominante nella scienza, nella cultura popolare, nell’istruzione superiore, nella politica internazionale e nel capitalismo globale; ha il maggior numero di parlanti totali e il terzo maggior numero di parlanti di prima lingua.

La crescente necessità di informazioni accessibili nelle lingue preferite dagli utenti ha alimentato una significativa domanda di traduzione linguistica automatizzata.

Ad esempio, si stima che Google da solo abbia circa 500 milioni di utenti giornalieri e che i portali di traduzione automatica abbiano tradotto trilioni di parole al giorno per diversi anni, con volumi che si prevede continueranno a crescere.

How many translators would it take to translate 0.01% of the world's daily content into the 100 most economically significant languages | Lara Translated

CSA ha stimato che nel 2020 la creazione quotidiana di contenuti digitali ha superato i 3 quintilioni di byte, ma meno dell’1% viene tradotto professionalmente a causa delle limitazioni delle risorse umane. Tradurre solo lo 0,01% di questo volume in una lingua richiederebbe 1.000 traduttori che lavorino per 61.375 anni. Un calcolo più recente mostra che solo una piccola parte della quantità totale di contenuti creati ogni giorno viene tradotta.

I fattori trainanti della domanda

Vediamo diversi fattori che indicano un mondo in cui il valore, l’uso e l’impatto di una traduzione automatizzata robusta e affidabile non potranno che crescere. I fattori che spingono la domanda in costante aumento includono:

1. Aumento esponenziale di contenutiPutting Petabytes in its place | Lara Translate

L’esplosione dei contenuti digitali ha superato di gran lunga la capacità della traduzione umana, rendendo la Machine Translation (MT) una soluzione indispensabile. Con il miglioramento della qualità della MT, la sua adozione sta accelerando sia nelle aziende che negli usi personali. La MT non è più solo una comodità: è una necessità. Anche un piccolo aumento, come lo 0,01% in più di contenuti tradotti, potrebbe portare a un volume da 100 a 1000 volte superiore a quello attualmente tradotto. Per comprendere la portata: ogni giorno vengono prodotti 11,36 exabyte di testo, equivalenti a circa 250 milioni di DVD. Tuttavia, solo 440 GB di quel contenuto vengono tradotti, e oltre il 99% di essi è tradotto dalle macchine. Ciò significa che solo lo 0,0000038% dei contenuti digitali mondiali è attualmente tradotto, evidenziando l’enorme opportunità non sfruttata.

2. Migliore esperienza globale con gli LLM

L’uso più efficace e vantaggioso della tecnologia LLM è solitamente sperimentato dagli utenti che interagiscono con i modelli in inglese. Di conseguenza, miliardi di utenti in tutto il mondo possono ottenere i migliori risultati quando interagiscono in inglese. La Machine Translation funge da ponte cruciale per i non anglofoni, traducendo i contenuti nella loro lingua preferita. Ciò consente loro di ottenere risultati di qualità superiore e più pertinenti dai LLM.

3. Progressi tecnologici della Machine Translation

L’uso degli strumenti di Machine Translation online è cresciuto costantemente. Ciò è dovuto all’aumento del numero di lingue supportate e al costante miglioramento della qualità della traduzione automatica “grezza”. I progressi nell’intelligenza artificiale, in particolare i recenti sviluppi nella traduzione automatica basata su LLM, continuano a migliorare la qualità della MT. Ciò porta a una comprensione contestuale significativamente migliore e a continui miglioramenti nella fluidità. È ormai un dato di fatto che miliardi di utenti traducono ogni giorno trilioni di parole, e i volumi sono chiaramente in aumento.

4. Efficienza dei costi

La Machine Translation costa una frazione di quella umana (stimata allo 0,05% o meno dei costi di traduzione umana) e la domanda di traduzioni rapide continua a crescere.

5. Crescita dell’adozione aziendale

Le aziende stanno integrando sempre più la traduzione linguistica nelle loro operazioni globali, portando a una maggiore integrazione della traduzione automatica e all’automazione dei flussi di lavoro con sistemi di gestione dei contenuti, piattaforme di servizio clienti e sistemi di e-commerce, al fine di migliorare l’esperienza globale del cliente.

Sebbene stiamo già assistendo a una crescita significativa nell’uso della Machine Translation, abbiamo appena iniziato a scoprire le potenzialità di ciò che è possibile e di ciò che verrà.

Questo utilizzo si espanderà man mano che la tecnologia migliora e si adatta in modo più efficace alle esigenze specifiche dei clienti. Man mano che la qualità della traduzione AI migliora, sempre più persone nelle aziende globali utilizzeranno questa tecnologia per esigenze specifiche, come condividere, comunicare, comprendere e diffondere contenuti rilevanti, in base alle esigenze aziendali o personali.

L’esperienza utente della Machine Translation

Nonostante il significativo aumento dell’uso della traduzione automatica online, la crescente varietà di contenuti traducibili e il numero sempre maggiore di casi d’uso, l’esperienza utente fondamentale della traduzione automatizzata è rimasta pressoché invariata negli ultimi vent’anni. In genere, l’utilizzo dei portali di Machine Translation online richiede ancora il copia e incolla del testo da tradurre. Anche con i miglioramenti per gestire immagini, siti web e documenti, il processo di base è rimasto sostanzialmente invariato negli ultimi dieci anni.

MT: Il vecchio metodo

MT, the old way | Lara Translate

Gli strumenti di traduzione online possono ora elaborare molti tipi di contenuti. Tuttavia, pochi utenti possono perfezionare le traduzioni con il contributo di esperti. Solo gli specialisti possono davvero migliorare le traduzioni automatiche aggiungendo contesto e sfumature. La maggior parte degli utenti, anche i professionisti, non conosce bene la lingua di destinazione. Ciò rende difficile valutare la precisione della traduzione. Gli errori spesso passano inosservati, causando confusione o problemi di comunicazione. Ciò è particolarmente rischioso in contesti aziendali sensibili. La Machine Translation è utile per comprendere l’essenza di un testo. Tuttavia, non è affidabile per un uso professionale senza una revisione da parte di esperti.

Stiamo assistendo a continui progressi tecnologici, poiché la Machine Translation (MT) inizia a sfruttare le capacità aggiuntive offerte dai LLM. La recente conferenza WMT24, un importante evento accademico e industriale per la ricerca sulla traduzione automatica, ha evidenziato miglioramenti significativi nella qualità della traduzione. La Machine Translation basata su LLM ha dimostrato una crescente competitività e prestazioni superiori rispetto ai metodi tradizionali. Un sistema di traduzione automatica basato su LLM, sviluppato sul sistema Claude 3.5 Sonnet, ha ottenuto i migliori risultati nelle valutazioni WMT24, vincendo in nove combinazioni linguistiche.

MT: Il nuovo metodo

Lara si integra bene con le prestazioni di qualità della traduzione di Claude 3.5 Sonnet, rappresentando un significativo avanzamento nella traduzione guidata dall’intelligenza artificiale. E si basa sulla reputazione e sull’esperienza consolidate di ModernMT, per offrire una qualità e un’adattabilità superiori nella Machine Translation. Sfruttando un approccio ottimizzato per l’uomo, che integra dati specializzati e cattura attivamente il feedback correttivo, raggiunge una fluidità e una naturalezza superiori. Spesso si avvicina alla qualità e alle sfumature della traduzione umana.

Lara è una tecnologia di Machine Translation di nuova generazione che rappresenta un importante passo avanti rispetto all’esperienza di MT statica e a controllo minimo del passato. Consente un’integrazione semplice e rapida di contesto e stile.

The New Way | Lara Translate

 

Lara offre una maggiore flessibilità nella generazione di diverse opzioni di traduzione. Incorpora prontamente le informazioni contestuali e fornisce una valutazione della qualità della Machine Translation, a volte accompagnata da commenti linguisticamente rilevanti. Ciò si traduce in un output più affidabile e di qualità superiore, prodotto immediatamente.

Questo semplice esempio mostra come le varianti di traduzione offrano diverse opzioni con il minimo sforzo. Gli utenti possono fidarsi della qualità dell’output, anche senza conoscere la lingua di destinazione (leggi qui se desideri approfondire la comprensione degli stili di traduzione in Lara).

Questa è la versione Fedele:

Faithful Version | Lara Translate

Questa è la versione Fluida:

Fluid Version | Lara Translate

Abbiamo qui la versione Creativa, in cui il modello si assume maggiori rischi cambiando la formulazione, ma si auto-valuta più severamente per aver preso queste libertà.

Creative Version | Lara Translate

Ed ecco cosa succede quando l’utente chiede al modello di scrivere in stile enciclopedico utilizzando la finestra di contesto:

Context Applied | Lara Translate

Conclusioni

Domanda in crescita

  • La domanda di Machine Translation sta crescendo in modo significativo e si prevede che continuerà ad aumentare negli anni a venire.
  • Si prevede che il mercato globale della Machine Translation crescerà a un tasso di crescita annuale composto (CAGR) compreso tra il 13,5% e il 15,9% fino al 2030, con un’espansione del mercato di oltre 1,2 miliardi di dollari tra il 2024 e il 2028.
  • Questa domanda nasce dalla crescente necessità di localizzazione dei contenuti, dall’adozione dell’intelligenza artificiale multilingue, dall’aumento della penetrazione di Internet, dall’efficienza dei costi e dai progressi nelle tecnologie di traduzione.

Maggiore domanda grazie a una migliore qualità e flessibilità

  • Con il miglioramento della qualità e della flessibilità della tecnologia di Machine Translation, in particolare grazie ai progressi nella NMT e nei Large Language Models (LLM), la domanda aumenta.
  • Gli LLM dimostrano un’eccezionale propensione nel comprendere e produrre testi che assomigliano molto al linguaggio umano, offrendo traduzioni più raffinate e precise.
  • I sistemi più recenti si adattano alle esigenze specifiche dei clienti utilizzando contesti e stili particolari. Questo rafforza la fiducia degli utenti e aumenta la domanda. La personalizzazione e la customizzazione sono tendenze in crescita nella Machine Translation e nell’intelligenza artificiale. Saranno fondamentali per il successo futuro.
  • Le organizzazioni cercano traduzioni più personalizzabili, sensibili al contesto e culturalmente adeguate, in grado di adattarsi alle esigenze specifiche dei casi d’uso. Le soluzioni basate sull’intelligenza artificiale stanno rispondendo a queste esigenze.
  • I progressi nei Large Language Models e nei sistemi ibridi hanno notevolmente migliorato l’accuratezza e l’adattabilità delle traduzioni. Ad esempio, i sistemi basati su LLM come Claude 3.5 Sonnet e Gemini-1.5 Pro hanno superato i sistemi NMT tradizionali nel benchmark WMT24, soprattutto nelle lingue con poche risorse.

Domanda amplificata dall’aumento esponenziale dei contenuti

  • L’attuale aumento esponenziale di contenuti digitali rappresenta un importante motore di crescita per la Machine Translation.
  • L’enorme volume di contenuti digitali creati ha superato le capacità di traduzione umana tradizionali, rendendo inevitabile l’uso della Machine Translation.
  • Ogni giorno, le persone creano oltre 11 exabyte di testo. I professionisti ne traducono meno dell’1%. La Machine Translation è l’unico modo scalabile per gestire questo volume crescente.
  • Anche un piccolo aumento nella percentuale di contenuti tradotti comporterebbe un enorme aumento della domanda di Machine Translation.
  • Anche un aumento marginale dei tassi di traduzione (ad esempio, dello 0,01%) potrebbe moltiplicare i volumi da 100 a 1.000 volte.

Aumento della domanda guidato dall’uso globale dei LLM

  • Man mano che sempre più persone nel mondo utilizzano gli LLM per la ricerca, la scrittura e le attività di conoscenza specializzata, cresce la necessità di una Machine Translation di alta qualità.
  • Oltre il 40% delle aziende ha sperimentato i LLM nel 2024, e il 75% prevede di adottarli entro il 2025.
  • I non anglofoni si affidano alla Machine Translation per sfruttare appieno gli LLM, spesso ottimizzati per l’inglese, colmando così il divario e consentendo un accesso più ampio alle risorse basate sull’intelligenza artificiale.
  • La Machine Translation funge da ponte, consentendo a miliardi di utenti in tutto il mondo di ottenere risultati più utili dagli LLM traducendo i contenuti nella loro lingua preferita.

Crescente multilinguismo aziendale

  • Le aziende globali cercano sempre più di operare in più lingue su larga scala, integrando la Machine Translation nelle loro piattaforme di gestione dei contenuti, servizio clienti e e-commerce. Ciò consente loro di raggiungere mercati diversi, fornire assistenza clienti multilingue e migliorare l’esperienza globale dei clienti. Alimentare la domanda di soluzioni di traduzione automatizzata robuste.
  • Le grandi aziende stanno ampliando la loro diversità linguistica: Netflix è passata da 17 a 26 lingue in due anni, Uber ha aggiunto sette nuove lingue alle sue app e ai suoi siti web, il sito web di Ford è multilingue in circa 42 lingue e Jack Daniel’s è disponibile in quasi 23 lingue.
  • Raggiungere nuovi mercati apre importanti opportunità di crescita per le aziende. È un modo pratico e scalabile per aumentare le entrate.

Domanda sostenuta grazie alla qualità e della flessibilità della traduzione basata sull’IA

  • La traduzione basata sull’IA continua a migliorare in termini di qualità e flessibilità. I sistemi basati su LLM ora superano i metodi tradizionali in molte combinazioni linguistiche. Offrono traduzione in tempo reale, adattamento dinamico e integrazione con altri strumenti di intelligenza artificiale. Queste funzionalità avanzate stabiliscono un nuovo standard.
  • La traduzione basata sull’intelligenza artificiale si sta allontanando dai sistemi statici e a controllo limitato. I modelli più recenti consentono una facile integrazione del contesto e uno stile personalizzato.
  • Per la prima volta, le aziende di tutte le dimensioni possono scalare la localizzazione in modo efficiente e conveniente per decine di culture, regioni e paesi diversi.
  • L’intelligenza artificiale futura gestirà meglio le emozioni, il contesto culturale e gli idiomi. Alcune piattaforme potrebbero raggiungere un’elevata precisione in questi settori entro la fine del 2025.
  • Questi progressi rendono la Machine Translation più affidabile e attraente per le aziende e gli utenti individuali, accelerando così la sua adozione.
  • Tecnologie come Lara offrono agli utenti maggiore controllo, contesto e opzioni di stile. Questo segna un passaggio verso una traduzione AI flessibile e di alta qualità. Man mano che la fiducia e l’usabilità aumentano, la domanda continua a crescere.

Questa analisi completa dimostra che la domanda di traduzione basata sull’intelligenza artificiale continuerà a crescere in modo significativo. Ciò avverrà man mano che la tecnologia migliora, i volumi di contenuti aumentano e le aziende globali cercano di comunicare efficacemente superando le barriere linguistiche.


FAQ

Perché i sistemi di intelligenza artificiale sono principalmente ottimizzati per l’inglese?

La maggior parte dei modelli di intelligenza artificiale, inclusi gli LLM, viene addestrata su enormi set di dati principalmente in inglese. Ciò crea un pregiudizio, che porta a una riduzione delle prestazioni per i parlanti di lingue meno rappresentate.

In che modo la Machine Translation aiuta chi non parla inglese?

La Machine Translation funge da ponte, consentendo agli utenti di accedere a contenuti in inglese e ottenere risultati più accurati e utili dagli strumenti di intelligenza artificiale.

Perché non è possibile tradurre tutti i contenuti digitali?

Ogni giorno vengono creati oltre 11 exabyte di testo, ma meno dell’1% viene tradotto professionalmente. Le risorse umane non riescono a tenere il passo: la Machine Translation è l’unica soluzione scalabile.

La Machine Translation è affidabile?

È utile per comprendere il significato generale, ma per un uso professionale o sensibile, si consiglia una revisione da parte di esperti per garantire accuratezza e chiarezza.

Cosa sono gli LLM e perché funzionano meglio in inglese?

Gli LLM (Large Language Models) come ChatGPT sono sistemi di intelligenza artificiale avanzati, addestrati su enormi corpora di testo. Le loro prestazioni sono migliori in inglese grazie al volume e alla ricchezza dei dati di addestramento in questa lingua.

In che modo Lara si differenzia dagli strumenti di Machine Translation tradizionali?

Lara consente una rapida integrazione di contesto e stile, offrendo traduzioni naturali e di alta qualità. Fornisce inoltre diverse opzioni di traduzione e indicatori di qualità, caratteristiche che mancano nella Machine Translation tradizionale.

Cosa sta guidando la crescente domanda di Machine Translation?

I fattori chiave includono l’esplosione dei contenuti digitali, il miglioramento della qualità delle traduzioni, l’aumento dell’uso globale dei LLM, le esigenze di localizzazione delle imprese e il basso costo della Machine Translation rispetto a quella umana.

La Machine Translation può sostituire completamente i traduttori umani?

Non del tutto. Mentre la Machine Translation gestisce la scalabilità e la velocità, i traduttori umani rimangono essenziali per contenuti ricchi di sfumature, creativi o culturalmente sensibili. Il futuro è nei sistemi ibridi.

 


 

Questo articolo tratta di:

  • Bias linguistico dell’IA: la maggior parte dei sistemi di intelligenza artificiale e dei modelli di linguaggio di grande scala (LLM) dà priorità all’inglese, svantaggiando i parlanti di altre lingue a causa dei dati di addestramento limitati.
  • Crescente domanda di Machine Translation: esiste una domanda globale significativa e in aumento per la Machine Translation, necessaria per accedere a vaste informazioni digitali.
  • Accesso agli LLM: la Machine Translation funge da ponte essenziale per i non anglofoni, consentendo loro di ottenere risultati utili dagli LLM ottimizzati per l’inglese.
  • Efficienza dei costi della Machine Translation: la MT è una soluzione altamente conveniente, che costa molto meno rispetto alla traduzione umana.
  • Adozione della Machine Translation aziendale: le aziende stanno adottando sempre più la MT nelle operazioni globali per migliorare l’esperienza del cliente.
Scondividi
Link
Argomenti raccomandati