En esta página, se describe cómo actualizar datos estructurados y no estructurados.
Actualiza datos estructurados
Puedes actualizar los datos en un almacén de datos estructurados siempre que uses un esquema que sea el mismo o retrocompatible con el esquema del almacén de datos. Por ejemplo, agregar solo campos nuevos a un esquema existente es retrocompatible.
Puedes actualizar datos estructurados en la Google Cloud consola o con la API.
Console
Para usar la Google Cloud consola y actualizar datos estructurados de una rama de un almacén de datos, sigue estos pasos:
En la Google Cloud consola de, ve a la página Gemini Enterprise.
En el menú de navegación, haz clic en Almacenes de datos.
En la columna Nombre, haz clic en el almacén de datos que deseas editar.
En la pestaña Documentos, haz clic en Importar datos.
Para actualizar desde Cloud Storage, haz lo siguiente:
- En el panel Selecciona una fuente de datos, elige Cloud Storage.
- En el panel Importar datos desde Cloud Storage , haz clic en Explorar, selecciona el bucket que contiene los datos actualizados y, luego, haz clic en Seleccionar. Como alternativa, ingresa la ubicación del bucket directamente en el campo gs://.
- En Opciones de importación de datos, selecciona una opción de importación.
- Haz clic en Importar.
Para actualizar desde BigQuery, haz lo siguiente:
- En el panel Selecciona una fuente de datos, elige BigQuery.
- En el panel Importar datos desde BigQuery , haz clic en Explorar, selecciona una tabla que contenga los datos actualizados y, luego, haz clic en Seleccionar. Como alternativa, ingresa la ubicación de la tabla directamente en el campo Ruta de BigQuery.
- En Opciones de importación de datos, selecciona una opción de importación.
- Haz clic en Importar.
REST
Usa el método documents.import para actualizar tus datos,
especificar el valor reconciliationMode adecuado.
Para actualizar datos estructurados desde BigQuery o Cloud Storage con la línea de comandos, sigue estos pasos:
Busca el ID del almacén de datos. Si ya tienes el ID del almacén de datos, avanza al próximo paso.
En la Google Cloud consola, ve a la Gemini Enterprise página y en el menú de navegación, haz clic en Almacenes de datos.
Haz clic en el nombre de tu almacén de datos.
En la página Datos de tu almacén de datos, obtén el ID del almacén de datos.
Para importar tus datos estructurados desde BigQuery, llama al siguiente método. Puedes importar desde BigQuery o Cloud Storage. Para importar desde Cloud Storage, avanza al próximo paso.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "bigquerySource": { "projectId": "PROJECT_ID", "datasetId":"DATASET_ID", "tableId": "TABLE_ID", "dataSchema": "DATA_SCHEMA_BQ", }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": AUTO_GENERATE_IDS, "idField": "ID_FIELD", "errorConfig": { "gcsPrefix": "ERROR_DIRECTORY" } }'Reemplaza lo siguiente:
PROJECT_ID: el ID de tu proyecto.DATA_STORE_ID: el ID del almacén de datos.DATASET_ID: el nombre de tu conjunto de datos de BigQuery.TABLE_ID: el nombre de tu tabla de BigQuery.DATA_SCHEMA_BQ: un campo opcional para especificar el esquema que se usará cuando se analicen los datos de la fuente de BigQuery. Puede tener los siguientes valores:document: el valor predeterminado. La tabla de BigQuery que usas debe cumplir con el siguiente esquema predeterminado de BigQuery. Puedes definir el ID de cada documento, mientras encapsulas todos los datos en la cadenajson_data.custom: se acepta cualquier esquema de tabla de BigQuery, y Gemini Enterprise genera automáticamente los IDs de cada documento que se importa.
ERROR_DIRECTORY: un campo opcional para especificar un directorio de Cloud Storage para obtener información sobre los errores de la importación, por ejemplo,gs://<your-gcs-bucket>/directory/import_errors. Google recomienda dejar este campo vacío para que Gemini Enterprise cree automáticamente un directorio temporal.RECONCILIATION_MODE: un campo opcional para especificar cómo se concilian los documentos importados con los documentos existentes en el almacén de datos de destino. Puede tener los siguientes valores:INCREMENTAL: el valor predeterminado. Provoca una actualización incremental de los datos de BigQuery a tu almacén de datos. Esto realiza una operación de upsert, que agrega documentos nuevos y reemplaza los existentes por documentos actualizados con el mismo ID.FULL: provoca una nueva base completa de los documentos en tu almacén de datos. Por lo tanto, se agregan documentos nuevos y actualizados a tu almacén de datos, y se quitan los documentos que no están en BigQuery. El modoFULLes útil si deseas borrar automáticamente los documentos que ya no necesitas.
AUTO_GENERATE_IDS: un campo opcional para especificar si se deben generar automáticamente los IDs de los documentos. Si se establece entrue, los IDs de los documentos se generan en función de un hash de la carga útil. Ten en cuenta que es posible que los IDs de los documentos generados no sigan siendo coherentes en varias importaciones. Si generas automáticamente IDs en varias importaciones, Google recomienda establecerreconciliationModeenFULLpara mantener IDs de documentos coherentes.Especifica
autoGenerateIdssolo cuandobigquerySource.dataSchemase establece encustom. De lo contrario, se muestra un errorINVALID_ARGUMENT. Si no especificasautoGenerateIdso lo estableces enfalse, debes especificaridField. De lo contrario, los documentos no se importarán.ID_FIELD: un campo opcional para especificar qué campos son los IDs de los documentos. Para los archivos fuente de BigQuery,idFieldindica el nombre de la columna en la tabla de BigQuery que contiene los IDs de los documentos.Especifica
idFieldsolo cuando se cumplan estas dos condiciones. De lo contrario, se muestra un errorINVALID_ARGUMENT:bigquerySource.dataSchemase establece encustom.auto_generate_idsse establece enfalseo no se especifica.
Además, el valor del nombre de la columna de BigQuery debe ser de tipo cadena, debe tener entre 1 y 63 caracteres y debe cumplir con RFC-1034. De lo contrario, los documentos no se importarán.
Este es el esquema predeterminado de BigQuery. Tu tabla de BigQuery debe cumplir con este esquema cuando estableces
dataSchemaendocument.[ { "name": "id", "mode": "REQUIRED", "type": "STRING", "fields": [] }, { "name": "jsonData", "mode": "NULLABLE", "type": "STRING", "fields": [] } ]Para importar tus datos estructurados desde Cloud Storage, llama al siguiente método. Puedes importar desde BigQuery o Cloud Storage. Para importar desde BigQuery, ve al paso anterior.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "gcsSource": { "inputUris": ["GCS_PATHS"], "dataSchema": "DATA_SCHEMA_GCS", }, "reconciliationMode": "RECONCILIATION_MODE", "idField": "ID_FIELD", "errorConfig": { "gcsPrefix": "ERROR_DIRECTORY" } }'Reemplaza lo siguiente:
PROJECT_ID: el ID de tu proyecto.DATA_STORE_ID: el ID del almacén de datos.GCS_PATHS: una lista de URIs separadas por comas a ubicaciones de Cloud Storage desde las que deseas importar. Cada URI puede tener 2,000 caracteres de longitud. Las URIs pueden coincidir con la ruta de acceso completa de un objeto de almacenamiento o con el patrón de uno o más objetos. Por ejemplo,gs://bucket/directory/*.jsones una ruta de acceso válida.DATA_SCHEMA_GCS: un campo opcional para especificar el esquema que se usará cuando se analicen los datos de la fuente de BigQuery. Puede tener los siguientes valores:document: el valor predeterminado. La tabla de BigQuery que usas debe cumplir con el siguiente esquema predeterminado de BigQuery. Puedes definir el ID de cada documento, mientras encapsulas todos los datos en la cadenajson_data.custom: se acepta cualquier esquema de tabla de BigQuery, y Gemini Enterprise genera automáticamente los IDs de cada documento que se importa.
ERROR_DIRECTORY: un campo opcional para especificar un directorio de Cloud Storage para obtener información sobre los errores de la importación, por ejemplo,gs://<your-gcs-bucket>/directory/import_errors. Google recomienda dejar este campo vacío para que Gemini Enterprise cree automáticamente un directorio temporal.RECONCILIATION_MODE: un campo opcional para especificar cómo se concilian los documentos importados con los documentos existentes en el almacén de datos de destino. Puede tener los siguientes valores:INCREMENTAL: el valor predeterminado. Provoca una actualización incremental de los datos de BigQuery a tu almacén de datos. Esto realiza una operación de upsert, que agrega documentos nuevos y reemplaza los existentes por documentos actualizados con el mismo ID.FULL: provoca una nueva base completa de los documentos en tu almacén de datos. Por lo tanto, se agregan documentos nuevos y actualizados a tu almacén de datos, y se quitan los documentos que no están en BigQuery. El modoFULLes útil si deseas borrar automáticamente los documentos que ya no necesitas.
Python
Antes de probar este código de muestra, sigue las instrucciones de configuración Python que se encuentran en la Guía de inicio rápido de Gemini Enterprise sobre cómo usar las bibliotecas cliente. Para obtener más información, consulta la documentación de referencia de la API de PythonGemini Enterprise.
Para autenticarte en Gemini Enterprise, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Actualiza datos no estructurados
Puedes actualizar datos no estructurados en la Google Cloud consola o con la API.
Console
Para usar la Google Cloud consola y actualizar datos no estructurados de una rama de un almacén de datos, sigue estos pasos:
En la Google Cloud consola de, ve a la página Gemini Enterprise.
En el menú de navegación, haz clic en Almacenes de datos.
En la columna Nombre, haz clic en el almacén de datos que deseas editar.
En la pestaña Documentos, haz clic en Importar datos.
Para transferir desde un bucket de Cloud Storage (con o sin metadatos), haz lo siguiente:
- En el panel Selecciona una fuente de datos, elige Cloud Storage.
- En el panel Importar datos desde Cloud Storage , haz clic en Explorar,
selecciona el bucket que contiene los datos actualizados y, luego, haz clic en
Seleccionar. Como alternativa, ingresa la ubicación del bucket directamente en el campo
gs://. - En Opciones de importación de datos, selecciona una opción de importación.
- Haz clic en Importar.
Para transferir desde BigQuery, haz lo siguiente:
- En el panel Selecciona una fuente de datos, elige BigQuery.
- En el panel Importar datos desde BigQuery , haz clic en Explorar, selecciona una tabla que contenga los datos actualizados y, luego, haz clic en Seleccionar. Como alternativa, ingresa la ubicación de la tabla directamente en el campo Ruta de BigQuery.
- En Opciones de importación de datos, selecciona una opción de importación.
- Haz clic en Importar.
REST
Para actualizar datos no estructurados con la API, vuelve a importarlos con el método
documents.import y especifica el valor
reconciliationMode adecuado. Para obtener más información sobre la importación de datos no estructurados, consulta Datos no estructurados.
Python
Antes de probar este código de muestra, sigue las instrucciones de configuración Python que se encuentran en la Guía de inicio rápido de Gemini Enterprise sobre cómo usar las bibliotecas cliente. Para obtener más información, consulta la documentación de referencia de la API de PythonGemini Enterprise.
Para autenticarte en Gemini Enterprise, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.