API di traduzione adattiva per immagini e file audio: basata su OCR e asincrona

Alcuni contenuti non vengono trasmessi come testo. Le immagini contengono testo che deve essere tradotto. I file audio devono essere comprensibili in tutte le lingue. Le API di traduzione standard non gestiscono bene né l’uno né l’altro, e la maggior parte non gestisce affatto i file audio. L’API di traduzione adattiva di Lara Translate gestisce entrambi i casi.

API di traduzione adattiva di immagini e audio con Lara Translate

27 Marzo 2026

Maurizio Tiberi

Tradotto con l’IA di Lara Translate

Alcuni contenuti non vengono ricevuti come testo. Le immagini contengono testo da tradurre. I file audio devono essere comprensibili in tutte le lingue. Le API di traduzione standard non gestiscono bene né le immagini né i file audio, e la maggior parte di esse non supporta affatto l’audio.

L’API di traduzione adattiva di Lara Translate gestisce entrambi. L’endpoint per la traduzione delle immagini utilizza l’OCR per estrarre e tradurre il testo dalle immagini, restituendo un’immagine tradotta o dati di testo strutturati. L’endpoint per la traduzione audio utilizza una pipeline asincrona: si carica un file audio e si riceve in risposta un file audio tradotto.

In questo articolo spieghiamo come funzionano entrambi gli endpoint, cosa supportano e come integrarli.

TL;DR

Cosa: Due endpoint API: traduzione di immagini (basata su OCR, restituisce un’immagine tradotta o testo strutturato) e traduzione di audio (pipeline asincrona di file, restituisce un audio tradotto).
Perché: I contenuti visivi e audio spesso non vengono tradotti perché le API di traduzione automatica generiche non li supportano. L’API Adaptive gestisce entrambi i tipi di contenuto con lo stesso livello di personalizzazione utilizzato per la traduzione di testo e documenti.
Come: Immagine: carica l’immagine, ricevi l’immagine tradotta (translate) o il testo tradotto estratto (translate_text). Audio: carica il file audio, verifica il completamento tramite polling, scarica l’audio tradotto.
Aspetti da tenere presenti: La precisione dell’OCR dipende dalla qualità dell’immagine e dalla chiarezza del testo. La traduzione audio è asincrona: includete una logica di polling nella vostra integrazione.
Strumenti: Lara Translate Adaptive API (REST, Python SDK). 206 lingue. Glossari e istruzioni contestuali sono supportati su entrambi gli endpoint.

Perché è importante

La traduzione di immagini e audio colma il divario tra ciò che viene creato e ciò che viene localizzato. I team di marketing producono contenuti basati su immagini su larga scala. I team di formazione e quelli multimediali producono contenuti audio su larga scala. Entrambi i tipi di contenuto finiscono per non essere tradotti, perché non esiste un percorso API chiaro per gestirli. Gli endpoint di Lara Translate per entrambe le modalità applicano lo stesso controllo del contesto, la stessa selezione dello stile e la stessa applicazione del glossario utilizzati dagli endpoint per testo e documenti, così i contenuti visivi e audio possono entrare nello stesso flusso di lavoro multilingue di tutti gli altri.

Risposta rapida

L’endpoint di Lara Translate per la traduzione delle immagini utilizza l’OCR per estrarre il testo dalle immagini e restituisce un’immagine tradotta o un testo tradotto strutturato. L’endpoint per la traduzione audio è asincrono: si carica un file audio, si verifica lo stato e si scarica l’audio tradotto. Entrambi supportano le istruzioni di contesto e i glossari personalizzati. Documentazione completa disponibile su developers.laratranslate.com.

Traduzione di immagini: come funziona la pipeline basata su OCR

L’endpoint per la traduzione di immagini accetta un file immagine, utilizza l’OCR per estrarne il testo, lo traduce e restituisce l’output in una delle due forme disponibili, a seconda del metodo chiamato.

Adaptive OCR translation API - Lara Translate

Metodo translate: restituisce l’immagine tradotta; il testo presente nell’immagine viene sostituito con il testo tradotto, reso nello stesso contesto visivo. L’output è un file immagine nello stesso formato dell’input. Questo è il metodo da utilizzare quando si desidera che il contenuto tradotto rimanga visivamente incorporato nell’immagine.

Metodo translate_text: restituisce il testo estratto e tradotto sotto forma di dati strutturati, anziché come nuova immagine. Utilizza questo metodo quando hai bisogno delle stringhe tradotte per l’elaborazione successiva, ad esempio per inserirle in una pipeline di localizzazione, archiviarle in un database o renderizzarle a livello di programmazione nella tua interfaccia utente.

Entrambi i metodi supportano le istruzioni di contesto e i glossari personalizzati, in modo che l’output tradotto rispetti la vostra terminologia e le vostre convenzioni di settore.

Formati di immagine supportati

L’endpoint per la traduzione di immagini supporta i seguenti formati: AVIF, BMP, GIF, HEIC, HEIF, PNG, JPG, JPEG, TIF, TIFF, WEBP. Per la documentazione completa, consulta la sezione Formati di documento supportati in Lara Translate per la traduzione di documenti.

Per una guida all’utilizzo della traduzione di immagini in Lara Translate, consulta: Translating images with Lara image-to-image.

Accuratezza dell’OCR e qualità dell’immagine

Le prestazioni dell’OCR dipendono dalla qualità dell’immagine di origine. Il testo chiaramente leggibile, ad alto contrasto e reso con un carattere standard verrà estratto in modo accurato. Immagini a bassa risoluzione, testo stilizzato o scritto a mano, testo su sfondi complessi e testo con angolazioni accentuate possono tutti ridurre l’accuratezza dell’OCR.

Per ottenere i migliori risultati:

Per i contenuti stampati, utilizzare immagini con una risoluzione minima di 300 DPI.
Assicurarsi che il testo presenti un contrasto elevato rispetto allo sfondo
Evitate caratteri con stili eccessivi o decorativi per i contenuti che devono essere leggibili a macchina.
Per i PDF basati su immagini, si noti che l’OCR deve essere abilitato esplicitamente durante il caricamento; non viene applicato automaticamente. Vedi: Traduzione di immagini all’interno di documenti PDF.

Traduzione di immagini: esempio in Python SDK

from laratranslate import Lara

lara = Lara(
    access_key_id="YOUR_ACCESS_KEY_ID",
    access_key_secret="YOUR_ACCESS_KEY_SECRET"
)

# Traduci immagine — restituisce il file immagine tradotto
result = lara.images.translate(
    file="./banner-en.png",
    source="en",
    target="de"
)

with open("./banner-de.png", "wb") as f:
    f.write(result.content)

# Traduci immagine — restituisce il testo tradotto estratto come dati strutturati
text_result = lara.images.translate_text(
    file="./banner-en.png",
    source="en",
    target="de"
)

print(text_result.translations)

Traduzione di immagini e audio tramite API

Traduzione contestuale, basata su glossario, in 206 lingue. OCR per le immagini, pipeline asincrona per l’audio.

Prova l’API di traduzione adattiva

Traduzione audio: come funziona la pipeline asincrona basata su file

OCR translation API - Lara Translate L’endpoint per la traduzione audio è una pipeline asincrona in tre fasi. È progettato per la traduzione audio basata su file: si carica un file audio registrato e si riceve in risposta un file audio tradotto.

Passaggio 1: Caricamento. Invia il file audio all’API. La chiamata restituisce immediatamente un ID del lavoro.

Fase 2: Poll. Utilizza l’ID del job per verificare lo stato della traduzione. Il job passa attraverso diversi stati di elaborazione fino al completamento.

Passaggio 3: Download. Quando lo stato indica il completamento, recupera il file audio tradotto.

Questo modello asincrono è standard per l’elaborazione audio, dove la durata della traduzione dipende dalla lunghezza del file e dal carico del server. Invece di aspettarvi una risposta sincrona, integrate nella vostra soluzione una logica di polling. Per i file brevi, è sufficiente eseguire il polling alcune volte con un breve intervallo. Per le registrazioni lunghe, intervalli di polling più lunghi riducono le chiamate API non necessarie.

Traduzione audio: esempio con l’SDK per Python

import time
from laratranslate import Lara

lara = Lara(
    access_key_id="YOUR_ACCESS_KEY_ID",
    access_key_secret="YOUR_ACCESS_KEY_SECRET"
)

# Passaggio 1: Carica il file audio
job = lara.audio.translate(
    file="./briefing-en.mp3",
    source="en",
    target="es",
    instructions="Internal product briefing for sales team. Formal tone."
)

# Passaggio 2: Polling fino al completamento
while job.status != "completed":
    time.sleep(5)
    job = lara.audio.get_job(job.id)

# Passaggio 3: Download del file audio tradotto
result = lara.audio.download(job.id)

with open("./briefing-es.mp3", "wb") as f:
    f.write(result.content)

Opzioni per la traduzione audio

Tabella 1. Opzioni di configurazione per l’endpoint di traduzione audio
Parametro	Descrizione
`source`	Codice della lingua di origine (es. `"en"`)
`target`	Codice della lingua di destinazione (es. `"es"`)
`instructions`	Istruzioni contestuali: pubblico, tono, settore, termini preferiti
`glossaries`	ID glossario personalizzati per garantire la coerenza terminologica nella traduzione

Confronto tra le funzionalità di traduzione di immagini e di audio

Tabella 2. Confronto tra traduzione di immagini e traduzione di audio nell’API adattiva di Lara Translate
Funzionalità	Traduzione di immagini	Traduzione audio
Tipo di pipeline	Sincrona	Asincrona (upload / poll / download)
Opzioni di output	Immagine tradotta (`translate`) o dati di testo strutturati (`translate_text`)	File audio tradotto
Istruzioni contestuali	Sì	Sì
Glossari personalizzati	Sì	Sì
Lingue	206 lingue	206 lingue
Caso d’uso principale	Materiale visivo di marketing, screenshot di prodotti, insegne, documenti basati su immagini	Briefing registrati, contenuti formativi, promemoria vocali, file multimediali

Domande frequenti

Come funziona la traduzione di immagini nell’API adattiva di Lara Translate?

L’endpoint per la traduzione delle immagini utilizza l’OCR per estrarre il testo da un’immagine, lo traduce e restituisce un’immagine tradotta (con il testo sostituito nell’elemento visivo) oppure il testo tradotto estratto sotto forma di dati strutturati. Utilizza il metodo translate per ottenere in risposta un file immagine tradotto, oppure translate_text per ottenere le stringhe tradotte come output strutturato per l’elaborazione successiva.

Quali formati di immagine supporta l’API di traduzione?

I formati di immagine supportati includono AVIF, BMP, GIF, HEIC, HEIF, PNG, JPG, JPEG, TIF, TIFF e WEBP. Per l’elenco completo, consulta la sezione Formati di documento supportati in Lara Translate per la traduzione di documenti.

L’API traduce il testo all’interno delle immagini nei PDF?

Per tradurre il testo incorporato nelle immagini all’interno di un PDF (pagine scansionate, screenshot o pagine basate su immagini) è necessario l’OCR, che deve essere abilitato esplicitamente durante il caricamento. Non viene applicato automaticamente. Se la traduzione delle immagini non viene abilitata, il testo contenuto nelle immagini rimane non tradotto. Vedi: Traduzione di immagini all’interno di documenti PDF.

Come funziona la traduzione audio nell’API adattiva di Lara Translate?

L’endpoint per la traduzione audio è una pipeline di file asincrona. Carichi un file audio, ricevi immediatamente un ID del lavoro, controlli lo stato della traduzione e scarichi il file audio tradotto una volta completato il lavoro. Supporta le istruzioni contestuali e i glossari personalizzati. La pipeline è progettata per la traduzione audio basata su file: carichi un file audio registrato e lo ricevi tradotto.

Quanto tempo richiede la traduzione audio?

Il tempo di elaborazione dipende dalla lunghezza del file e dal carico del server. Includete nella vostra integrazione una logica di polling con intervalli appropriati tra i controlli dello stato. Per i file brevi (inferiori a un minuto), sono sufficienti pochi secondi tra un controllo di stato e l’altro. Per le registrazioni più lunghe, utilizza intervalli di polling più lunghi per evitare chiamate API non necessarie.

Posso applicare glossari alla traduzione di immagini e audio?

Sì. Sia l’endpoint per la traduzione di immagini che quello per la traduzione di audio supportano glossari personalizzati. Carica la tua terminologia una volta sola sulla piattaforma Lara Translate e fai riferimento a essa nelle tue chiamate API per garantire una terminologia coerente nei risultati tradotti. Vedi: Come funzionano i glossari in Lara Translate.

Traduci contenuti visivi e audio tramite API

Traduzione di immagini basata su OCR e traduzione asincrona di file audio. Traduzione basata sul contesto, con glossario, in 206 lingue.

Inizia a utilizzare l’API di traduzione adattiva

Lara Translate

Scondividi