Review Đọc tệp CSV từ lưu trữ Azure blob python
Thủ Thuật Hướng dẫn Đọc tệp CSV từ tàng trữ Azure blob python 2022
Bùi Văn Quân đang tìm kiếm từ khóa Đọc tệp CSV từ tàng trữ Azure blob python được Cập Nhật vào lúc : 2022-12-23 02:20:08 . Với phương châm chia sẻ Mẹo về trong nội dung bài viết một cách Chi Tiết 2022. Nếu sau khi đọc nội dung bài viết vẫn ko hiểu thì hoàn toàn có thể lại Comment ở cuối bài để Admin lý giải và hướng dẫn lại nha.Giả sử bạn có tệp csv, bộ chứa blob và quyền truy cập vào không khí thao tác của DataBricks. Mục đích của blog nhỏ này là để đã cho tất cả chúng ta biết quy trình từ việc có một tệp trên máy tính cục bộ của bạn đến việc đọc tài liệu vào databricks thuận tiện và đơn giản ra làm sao. Tôi sẽ thực hiện quá trình tải tệp csv lên một vùng chứa blob màu xanh theo cách thủ công và sau đó đọc nó trong DataBricks bằng mã python
Nội dung chính Show- hồng ngọcĐang tải tài liệu CSV vào bảng sử dụng phân vùng thời gian nhờ vào cộtThêm vào hoặc ghi đè lên bảng bằng tài liệu CSVBảng điều khiểnĐang tải tài liệu CSV được phân vùng tổ ongChi tiết tải tài liệu CSVDấu phân cách trườngLoại dữ liệuTự động phát hiện lược đồtùy chọn CSV
Bước 1. Tải tệp lên vùng chứa blob của bạn
Điều này hoàn toàn có thể được thực hiện đơn giản bằng phương pháp điều hướng tới vùng chứa blob của bạn. Từ đó, bạn hoàn toàn có thể nhấp vào nút tải lên và chọn tệp bạn quan tâm. Sau khi được chọn, bạn cần nhấp vào nút tải lên trong thanh tải lên. Xem ảnh chụp màn hình hiển thị phía dưới
Sau khi tải lên, bạn sẽ hoàn toàn có thể xem tệp có sẵn trong vùng chứa blob của tớ như hình phía dưới
Bước 2. Nhận thông tin đăng nhập thiết yếu cho databricks để link với bộ chứa blob của bạn
Từ cổng thông tin Azure của bạn, bạn cần điều hướng tới tất cả những tài nguyên, sau đó chọn tài khoản tàng trữ blob của tớ và từ phía dưới setup, chọn khóa tài khoản. Khi đã có, hãy sao chép khóa phía dưới Key1 vào notepad cục bộ
Bước 3. Định thông số kỹ thuật DataBricks để đọc tệp
Tại đây, bạn cần điều hướng tới không khí thao tác của databricks (tạo một chiếc nếu bạn chưa tồn tại) và khởi chạy nó. Sau khi khởi chạy, hãy chuyển đến không khí thao tác và tạo sổ ghi chép python mới
Để khởi đầu đọc tài liệu, trước tiên, bạn cần định thông số kỹ thuật phiên spark của tớ để sử dụng thông tin đăng nhập cho vùng chứa blob của bạn. Điều này đơn giản hoàn toàn có thể được thực hiện thông qua tia lửa. conf. đặt lệnh. Chính xác hơn, chúng tôi khởi đầu với những điều sau đây
storage_account_name="nameofyourstorageaccount" storage_account_access_key = 'thekeyfortheblobcontainer' spark.conf.set('fs.azure.account.key.' + storage_account_name + '.blob.core.windows', storage_account_access_key)Sau khi hoàn tất, tất cả chúng ta cần xây dựng đường dẫn tệp trong vùng chứa blob và đọc tệp dưới dạng khung tài liệu tia lửa
blob_container="yourblobcontainername" filePath = "wasbs://" + blob_container + "@" + storage_account_name + ".blob.core.windows/Sales/SalesFile.csv" salesDf = spark.read.format("csv").load(filePath, inferSchema = True, header = True)Và chúc mừng, tất cả chúng ta đã hoàn thành xong. Bạn hoàn toàn có thể sử dụng lệnh hiển thị để xem tài liệu của chúng tôi như hình phía dưới
Trong blog này, tất cả chúng ta sẽ tìm hiểu cách đọc tệp CSV từ bộ nhớ blob và đẩy tài liệu vào bảng nhóm SQL khớp thần kinh bằng tập lệnh python Azure Databricks. Trong phần 1, tất cả chúng ta đã tạo không khí thao tác phân tích khớp thần kinh Azure, nhóm SQL chuyên được dùng, trong phần này, tất cả chúng ta đã thấy cách tạo nhóm SQL chuyên được dùng. Trong blog này, chúng tôi sẽ sử dụng chuỗi link JDBC để link nhóm SQL
Bước 1. Đăng nhập vào cổng Azure. Mở Azure Databricks và nhấp vào không khí thao tác ăn trưa để tạo Notebook mới
Đối với Định dạng tệp, hãy lựa chọn CSVTrong phần Đích, chỉ định những cụ ông cụ bà thể sauĐối với Tập tài liệu, hãy lựa chọn tập tài liệu mà bạn muốn tạo bảngTrong trường Bảng, nhập tên của bảng mà bạn muốn tạoXác minh rằng trường Loại bảng được đặt thành Bảng gốcTrong phần Lược đồ, nhập định nghĩa lược đồ. Để bật tính năng tự động phát hiện lược đồ, hãy lựa chọn Tự động phát hiện. Bạn hoàn toàn có thể nhập thông tin lược đồ theo cách thủ công minh phương pháp sử dụng một trong những phương pháp sau- lựa chọn một. Nhấp vào Chỉnh sửa dưới dạng văn bản và dán lược đồ ở dạng mảng JSON. Khi bạn sử dụng một mảng JSON, bạn tạo lược đồ bằng quy trình tương tự như tạo tệp lược đồ JSON. Bạn hoàn toàn có thể xem lược đồ của một bảng hiện có ở định dạng JSON bằng phương pháp nhập lệnh sau. bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
7Tùy chọn 2. Nhấp vào add_box Thêm trường và nhập lược đồ bảng. Chỉ định Tên, Loại và Chế độ của từng trường.
- Đối với tùy chọn Viết, hãy để Viết nếu chọn trống. Tùy chọn này tạo một bảng mới và tải tài liệu của bạn vào đóĐối với Số lượng lỗi được phép, hãy đồng ý giá trị mặc định của bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
17 hoặc nhập số hàng tối đa chứa lỗi hoàn toàn có thể bỏ qua. Nếu số lượng hàng có lỗi vượt quá giá trị này, việc làm sẽ dẫn đến thông báo bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
18 và không thành công. Tùy chọn này chỉ áp dụng cho những tệp CSV và JSONNếu bạn muốn bỏ qua những giá trị trong một hàng không còn trong lược đồ của bảng, hãy lựa chọn Giá trị không xác địnhĐối với Dấu phân cách trường, hãy lựa chọn ký tự phân tách những ô trong tệp CSV của bạn. Dấu phẩy, Tab, Ống hoặc Tùy chỉnh. Nếu chọn Custom thì điền dấu phân cách vào ô Custom field delimiter. Giá trị mặc định là Dấu phẩyĐể bỏ qua những hàng Tiêu đề, hãy nhập số hàng tiêu đề cần bỏ qua ở đầu tệp CSV. Giá trị mặc định là bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
17Đối với những dòng mới được trích dẫn, hãy kiểm tra Cho phép những dòng mới được trích dẫn để được cho phép những phần tài liệu được trích dẫn có chứa những ký tự dòng mới trong tệp CSV. Giá trị mặc định là bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
10Đối với những hàng có răng cưa, hãy lựa chọn Cho phép những hàng có răng cưa đồng ý những hàng trong tệp CSV bị thiếu những cột tùy chọn ở cuối. Các giá trị bị thiếu được xem là null. Nếu không được chọn, những bản ghi bị thiếu cột theo sau được xem là bản ghi không hợp lệ và nếu có quá nhiều bản ghi không hợp lệ, lỗi không hợp lệ sẽ được trả về trong kết quả việc làm. Giá trị mặc định là bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
10Đối với Mã hóa, hãy nhấp vào Khóa do người tiêu dùng quản lý để sử dụng khóa Dịch Vụ TM quản lý khóa đám mây. Nếu bạn rời khỏi tùy chọn setup khóa do Google quản lý, thì BigQuery sẽ mã hóa tài liệu ở trạng thái tàng trữ
Sau khi bảng được tạo, bạn hoàn toàn có thể update ngày hết hạn, mô tả và nhãn của bảng nhưng bạn không thể thêm ngày hết hạn của phân vùng sau khi bảng được tạo bằng Google Cloud console. Để biết thêm thông tin, hãy xem Quản lý bảng.
SQL
Sử dụng câu lệnh
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 12 DDL. Ví dụ sau tải tệp CSV vào bảng mới bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 13Trong bảng điều khiển Google Cloud, hãy truy cập trang BigQuery
Truy cập BigQuery
Trong trình sửa đổi truy vấn, hãy nhập câu lệnh sau
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 5Nhấp vào play_circle Chạy.
Để biết thêm thông tin về cách chạy truy vấn, hãy xem Chạy truy vấn tương tác
bq
Sử dụng lệnh
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 14, chỉ định bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 15 bằng cờ bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 16 và gồm có URI tàng trữ đám mây. Bạn hoàn toàn có thể gồm có một URI, list URI được phân tách bằng dấu phẩy hoặc URI chứa ký tự đại diện. Cung cấp lược đồ nội tuyến, trong tệp định nghĩa lược đồ hoặc sử dụng tính năng tự động phát hiện lược đồ. Nếu bạn không riêng gì có định lược đồ và bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 17 là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 10 và bảng đích tồn tại, thì lược đồ của bảng đích sẽ được sử dụng(Tùy chọn) Cung cấp cờ
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 19 và đặt giá trị cho vị trí của bạnCác cờ tùy chọn khác gồm có
- bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
20. Khi được chỉ định, hãy đồng ý những hàng trong tệp CSV bị thiếu những cột tùy chọn ở cuối. Các giá trị bị thiếu được xem là null. Nếu không được chọn, những bản ghi bị thiếu cột theo sau được xem là bản ghi không hợp lệ và nếu có quá nhiều bản ghi không hợp lệ, lỗi không hợp lệ sẽ được trả về trong kết quả việc làm. Giá trị mặc định là bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
10 bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
22. Khi được chỉ định, được cho phép những phần tài liệu được trích dẫn có chứa ký tự dòng mới trong tệp CSV. Giá trị mặc định là bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
10 bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
24. Ký tự chỉ ranh giới Một trong những cột trong tài liệu. Cả bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
25 và bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
26 đều được phép sử dụng dấu phân cách tab. Giá trị mặc định là bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
27 bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
28. Chuỗi tùy chỉnh tùy chọn đại diện cho giá trị NULL trong tài liệu CSV bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
29. Chỉ định số hàng tiêu đề cần bỏ qua ở đầu tệp CSV. Giá trị mặc định là bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
17 bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
31. Ký tự trích dẫn được sử dụng để đính kèm bản ghi. Giá trị mặc định là bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
32. Để biểu thị không còn ký tự trích dẫn, hãy sử dụng một chuỗi rỗng bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
33. Một số nguyên xác định số bản ghi lỗi tối đa được phép trước khi toàn bộ việc làm không thành công. Giá trị mặc định là bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
17. Nhiều nhất, năm lỗi thuộc bất kỳ loại nào được trả về bất kể giá trị bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
33 bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
36. Khi được chỉ định, được cho phép và bỏ qua những giá trị tương hỗ update, không được nhận dạng trong tài liệu CSV hoặc JSON bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
17. Khi được chỉ định, hãy bật tính năng tự động phát hiện lược đồ cho tài liệu CSV và JSON bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
38. Cho phép phân vùng nhờ vào thời gian trên bảng và đặt loại phân vùng. Các giá trị hoàn toàn có thể là bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
39, bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
20, bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
21 và bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
22. Cờ này là tùy chọn khi bạn tạo bảng được phân vùng trên cột bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
3, bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
24 hoặc bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
6. Loại phân vùng mặc định cho phân vùng nhờ vào thời gian là bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
20. Bạn không thể thay đổi đặc tả phân vùng trên một bảng hiện có bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
27. Một số nguyên chỉ định (tính bằng giây) lúc nào nên xóa phân vùng nhờ vào thời gian. Thời gian hết hạn ước tính theo ngày UTC của phân vùng cộng với giá trị số nguyên bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
28. Cột bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
3 hoặc bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
6 được sử dụng để tạo bảng được phân vùng. Nếu phân vùng nhờ vào thời gian được bật mà không còn mức giá trị này, thì một bảng được phân vùng theo thời gian nhập sẽ được tạo bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
501. Khi được bật, tùy chọn này yêu cầu người tiêu dùng gồm có mệnh đề bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
502 chỉ định những phân vùng để truy vấn. Yêu cầu bộ lọc phân vùng hoàn toàn có thể giảm ngân sách và cải tổ hiệu suất. Để biết thêm thông tin, hãy xem Truy vấn những bảng được phân vùng bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
503. Danh sách được phân tách bằng dấu phẩy gồm tối đa bốn tên cột được sử dụng để tạo bảng nhóm bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
504. Khóa Cloud KMS để mã hóa tài liệu bảng
Để biết thêm thông tin về lệnh
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 14, hãy xem- Tham chiếu dòng lệnh
Để biết thêm thông tin về những bảng được phân vùng, hãy xem
- Tạo những bảng được phân vùng
Để biết thêm thông tin về những bảng nhóm, hãy xem
- Tạo và sử dụng những bảng nhóm
Để biết thêm thông tin về mã hóa bảng, hãy xem
- Bảo vệ tài liệu bằng khóa Cloud KMS
Để tải tài liệu CSV vào BigQuery, hãy nhập lệnh sau
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 8Ở đâu
- vị trí là vị trí của bạn. Cờ bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
19 là tùy chọn. Ví dụ: nếu bạn đang sử dụng BigQuery ở khu vực Tokyo, thì bạn hoàn toàn có thể đặt giá trị của cờ thành bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
507. Bạn hoàn toàn có thể đặt giá trị mặc định cho vị trí bằng phương pháp sử dụng. tập tin bigqueryrcđịnh dạng là bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
15tập tài liệu là một tập tài liệu hiện cóbảng là tên gọi của bảng mà bạn đang tải tài liệu vàopath_to_source là URI tàng trữ đám mây đủ điều kiện hoặc list URI được phân tách bằng dấu phẩy. Ký tự đại diện cũng khá được hỗ trợlược đồ là một lược đồ hợp lệ. Lược đồ hoàn toàn có thể là tệp JSON cục bộ hoặc hoàn toàn có thể được nhập nội tuyến như một phần của lệnh. Bạn cũng hoàn toàn có thể sử dụng cờ bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
17 thay vì đáp ứng định nghĩa lược đồ
ví dụ
Lệnh sau tải tài liệu từ
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 510 vào một bảng mang tên là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 13 trong bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 512. Lược đồ được xác định trong một tệp lược đồ cục bộ mang tên là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 513 bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.jsonLệnh sau tải tài liệu từ
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 510 vào một bảng mang tên là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 13 trong bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 512. Lược đồ được xác định trong một tệp lược đồ cục bộ mang tên là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 513. Tệp CSV gồm có hai hàng tiêu đề. Nếu bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 29 không được chỉ định, hành vi mặc định là giả sử tệp không chứa tiêu đềblob_container="yourblobcontainername" filePath = "wasbs://" + blob_container + "@" + storage_account_name + ".blob.core.windows/Sales/SalesFile.csv" salesDf = spark.read.format("csv").load(filePath, inferSchema = True, header = True) 0Lệnh sau tải tài liệu từ
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 510 vào bảng được phân vùng theo thời gian nhập mang tên là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 13 trong bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 512. Lược đồ được xác định trong một tệp lược đồ cục bộ mang tên là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 513 bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 1Lệnh sau tải tài liệu từ
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 510 vào một bảng được phân vùng mới mang tên là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 13 trong bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 512. Bảng được phân vùng trên cột bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 526. Lược đồ được xác định trong một tệp lược đồ cục bộ mang tên là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 513 bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 1Lệnh sau tải tài liệu từ
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 510 vào một bảng mang tên là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 13 trong bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 512. Lược đồ được tự động phát hiện bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 2Lệnh sau tải tài liệu từ
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 510 vào một bảng mang tên là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 13 trong bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 512. Lược đồ được xác định nội tuyến ở định dạng bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 534______53Ghi chú. Khi bạn chỉ định lược đồ bằng công cụ dòng lệnh bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 535, bạn không thể gồm có loại bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 536 ( bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 537), bạn không thể gồm có mô tả trường và bạn không thể chỉ định chính sách trường. Tất cả những chính sách trường mặc định là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 538. Để gồm có những mô tả trường, chính sách và loại bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 536, hãy đáp ứng tệp lược đồ JSON thay thế.Lệnh sau tải tài liệu từ nhiều tệp trong
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 540 vào một bảng mang tên là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 13 trong bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 512. URI tàng trữ đám mây sử dụng ký tự đại diện. Lược đồ được tự động phát hiện bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 2Lệnh sau tải tài liệu từ nhiều tệp trong
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 540 vào một bảng mang tên là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 13 trong bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 512. Lệnh gồm có một list những URI tàng trữ đám mây được phân tách bằng dấu phẩy với những ký tự đại diện. Lược đồ được xác định trong một tệp lược đồ cục bộ mang tên là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 513 bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 50API
Tạo việc làm
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 547 trỏ đến tài liệu nguồn trong Lưu trữ đám mây(Tùy chọn) Chỉ định vị trí của bạn trong thuộc tính
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 548 trong phần bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 549 của tài nguyên việc làmThuộc tính
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 550 phải đủ điều kiện, ở định dạng bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 551. Mỗi URI hoàn toàn có thể chứa một ký tự đại diện '*'Chỉ định định dạng tài liệu CSV bằng phương pháp đặt thuộc tính
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 552 thành bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 15Để kiểm tra trạng thái việc làm, hãy gọi
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 554, trong đó job_id là ID của việc làm được yêu cầu ban đầu trả về- Nếu bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
555, việc làm đã hoàn thành xong thành côngNếu có thuộc tính bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
556, yêu cầu không thành công và đối tượng đó sẽ gồm có thông tin mô tả những gì đã xảy ra. Khi yêu cầu không thành công, không còn bảng nào được tạo và không còn tài liệu nào được tảiNếu không còn bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
556, việc làm đã hoàn tất thành công, tuy nhiên hoàn toàn có thể có một số trong những lỗi không nghiêm trọng, ví dụ như sự cố khi nhập một vài hàng. Các lỗi không nghiêm trọng được liệt kê trong thuộc tính bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
558 của đối tượng việc làm được trả lại
ghi chú API
Công việc tải là nguyên tử và nhất quán;
Cách tốt nhất là tạo một ID duy nhất và chuyển ID đó thành
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 559 khi gọi bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 560 để tạo việc làm tải. Cách tiếp cận này hiệu suất cao hơn đối với sự cố mạng vì người tiêu dùng hoàn toàn có thể thăm dò hoặc thử lại trên ID việc làm đã biếtGọi
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 560 trên ID việc làm nhất định là idempotent. Bạn hoàn toàn có thể thử lại bao nhiêu lần tùy thích trên cùng một ID việc làm và nhiều nhất một trong những thao tác đó sẽ thành côngC#
Trước khi sử dụng thử mẫu này, hãy tuân theo hướng dẫn thiết lập C# trong hướng dẫn khởi đầu nhanh BigQuery bằng thư viện máy khách. Để biết thêm thông tin, hãy xem tài liệu tham khảo API BigQuery C# .
Xem trên GitHub Phản hồi
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 51Đi
Trước khi sử dụng thử mẫu này, hãy tuân theo hướng dẫn thiết lập Go trong phần khởi đầu nhanh BigQuery bằng thư viện máy khách. Để biết thêm thông tin, hãy xem tài liệu tham khảo API BigQuery Go .
Xem trên GitHub Phản hồi
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 52Java
Trước khi sử dụng thử mẫu này, hãy tuân theo hướng dẫn thiết lập Java trong hướng dẫn khởi đầu nhanh BigQuery bằng thư viện máy khách. Để biết thêm thông tin, hãy xem tài liệu tham khảo API BigQuery Java .
Xem trên GitHub Phản hồi
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 53Nút. js
Trước khi thử mẫu này, hãy tuân theo Nút. js hướng dẫn thiết lập trong khởi đầu nhanh BigQuery bằng thư viện máy khách. Để biết thêm thông tin, hãy xem Nút BigQuery. js Tài liệu tham khảo API.
Xem trên GitHub Phản hồi
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 54PHP
Trước khi sử dụng thử mẫu này, hãy tuân theo hướng dẫn thiết lập PHP trong hướng dẫn khởi đầu nhanh BigQuery bằng thư viện máy khách. Để biết thêm thông tin, hãy xem tài liệu tham khảo API BigQuery PHP .
Xem trên GitHub Phản hồi
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 55con trăn
Trước khi sử dụng thử mẫu này, hãy tuân theo hướng dẫn thiết lập Python trong hướng dẫn khởi đầu nhanh BigQuery bằng thư viện máy khách. Để biết thêm thông tin, hãy xem tài liệu tham khảo API BigQuery Python .
Sử dụng ứng dụng khách. phương thức load_table_from_uri() để tải tài liệu từ tệp CSV trong Cloud Storage. Cung cấp định nghĩa lược đồ rõ ràng bằng phương pháp đặt LoadJobConfig. thuộc tính lược đồ vào list những đối tượng SchemaField
Xem trên GitHub Phản hồi
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 56hồng ngọc
Trước khi sử dụng thử mẫu này, hãy tuân theo hướng dẫn thiết lập Ruby trong phần khởi đầu nhanh BigQuery bằng phương pháp sử dụng thư viện máy khách. Để biết thêm thông tin, hãy xem tài liệu tham khảo API BigQuery Ruby .
Xem trên GitHub Phản hồi
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 57Đang tải tài liệu CSV vào bảng sử dụng phân vùng thời gian nhờ vào cột
Để tải tài liệu CSV từ Cloud Storage vào bảng BigQuery sử dụng phân vùng thời gian nhờ vào cột
Đi
Trước khi sử dụng thử mẫu này, hãy tuân theo hướng dẫn thiết lập Go trong phần khởi đầu nhanh BigQuery bằng thư viện máy khách. Để biết thêm thông tin, hãy xem tài liệu tham khảo API BigQuery Go .
Xem trên GitHub Phản hồi
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 58Java
Trước khi sử dụng thử mẫu này, hãy tuân theo hướng dẫn thiết lập Java trong hướng dẫn khởi đầu nhanh BigQuery bằng thư viện máy khách. Để biết thêm thông tin, hãy xem tài liệu tham khảo API BigQuery Java .
Xem trên GitHub Phản hồi
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 59Nút. js
Trước khi thử mẫu này, hãy tuân theo Nút. js hướng dẫn thiết lập trong khởi đầu nhanh BigQuery bằng thư viện máy khách. Để biết thêm thông tin, hãy xem Nút BigQuery. js Tài liệu tham khảo API.
Xem trên GitHub Phản hồi
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 80con trăn
Trước khi sử dụng thử mẫu này, hãy tuân theo hướng dẫn thiết lập Python trong hướng dẫn khởi đầu nhanh BigQuery bằng thư viện máy khách. Để biết thêm thông tin, hãy xem tài liệu tham khảo API BigQuery Python .
Xem trên GitHub Phản hồi
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 81Thêm vào hoặc ghi đè lên bảng bằng tài liệu CSV
Bạn hoàn toàn có thể tải tài liệu tương hỗ update vào bảng từ tệp nguồn hoặc bằng phương pháp nối thêm kết quả truy vấn
Trong bảng điều khiển Google Cloud, hãy sử dụng tùy chọn Tùy chọn ghi để chỉ định hành vi cần thực hiện khi bạn tải tài liệu từ tệp nguồn hoặc từ kết quả truy vấn
Bạn có những tùy chọn sau khi tải thêm tài liệu vào bảng
Tùy chọn bảng điều khiển bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 535 cờ công cụ Thuộc tính API BigQueryMô tảGhi nếu trốngKhông được tương hỗ bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 563Chỉ ghi tài liệu nếu bảng trống. Nối vào bảng bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 564 hoặc bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 565; . Ghi đè lên bảng bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 568 hoặc bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 569 bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 570Xóa tất cả tài liệu hiện có trong một bảng trước khi ghi tài liệu mới. Hành động này cũng xóa lược đồ bảng và xóa mọi khóa Cloud KMSNếu bạn tải tài liệu vào một bảng hiện có, tác vụ tải hoàn toàn có thể nối thêm tài liệu hoặc ghi đè lên bảng
Ghi chú. Trang này sẽ không đề cập đến việc nối thêm hoặc ghi đè lên những bảng được phân vùng. Để biết thông tin về nối thêm và ghi đè những bảng được phân vùng, hãy xem. Thêm vào và ghi đè lên tài liệu bảng được phân vùng.Bảng điều khiển
Trong bảng điều khiển Google Cloud, hãy truy cập trang BigQuery
Truy cập BigQuery
Trong ngăn Explorer, hãy mở rộng dự án công trình bất Động sản của bạn rồi chọn một tập dữ liệuTrong phần tin tức tập tài liệu, hãy nhấp vào add_box Tạo bảng. Trong bảng Tạo bảng, chỉ định những cụ ông cụ bà thể sauTrong phần Nguồn, chọn Google Cloud Storage trong list Tạo bảng từ. Sau đó, làm như sauChọn một tệp từ nhóm Lưu trữ đám mây hoặc nhập URI tàng trữ đám mây. Bạn không thể gồm có nhiều URI trong bảng điều khiển Google Cloud, nhưng những ký tự đại diện được tương hỗ. Bộ chứa Lưu trữ đám mây phải ở cùng vị trí với tập tài liệu chứa bảng mà bạn muốn tạo, nối thêm hoặc ghi đè. Đối với Định dạng tệp, hãy lựa chọn CSVGhi chú. Có thể sửa đổi lược đồ của bảng khi bạn nối thêm hoặc ghi đè lên nó. Để biết thêm thông tin về những thay đổi lược đồ được tương hỗ trong quá trình hoạt động và sinh hoạt giải trí tải, hãy xem Sửa đổi lược đồ bảngTrong phần Đích, chỉ định những cụ ông cụ bà thể sauĐối với Tập tài liệu, hãy lựa chọn tập tài liệu mà bạn muốn tạo bảngTrong trường Bảng, nhập tên của bảng mà bạn muốn tạoXác minh rằng trường Loại bảng được đặt thành Bảng gốcTrong phần Lược đồ, nhập định nghĩa lược đồ. Để bật tính năng tự động phát hiện lược đồ, hãy lựa chọn Tự động phát hiện. Bạn hoàn toàn có thể nhập thông tin lược đồ theo cách thủ công minh phương pháp sử dụng một trong những phương pháp sau- lựa chọn một. Nhấp vào Chỉnh sửa dưới dạng văn bản và dán lược đồ ở dạng mảng JSON. Khi bạn sử dụng một mảng JSON, bạn tạo lược đồ bằng quy trình tương tự như tạo tệp lược đồ JSON. Bạn hoàn toàn có thể xem lược đồ của một bảng hiện có ở định dạng JSON bằng phương pháp nhập lệnh sau. bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
7Tùy chọn 2. Nhấp vào add_box Thêm trường và nhập lược đồ bảng. Chỉ định Tên, Loại và Chế độ của từng trường. Ghi chú. Có thể sửa đổi lược đồ của bảng khi bạn nối thêm hoặc ghi đè lên nó. Để biết thêm thông tin về những thay đổi lược đồ được tương hỗ trong quá trình hoạt động và sinh hoạt giải trí tải, hãy xem Sửa đổi lược đồ bảng
- Đối với tùy chọn Viết, hãy lựa chọn Thêm vào bảng hoặc Ghi đè lên bảngĐối với Số lượng lỗi được phép, hãy đồng ý giá trị mặc định của bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
17 hoặc nhập số hàng tối đa chứa lỗi hoàn toàn có thể bỏ qua. Nếu số lượng hàng có lỗi vượt quá giá trị này, việc làm sẽ dẫn đến thông báo bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
18 và không thành công. Tùy chọn này chỉ áp dụng cho những tệp CSV và JSONNếu bạn muốn bỏ qua những giá trị trong một hàng không còn trong lược đồ của bảng, hãy lựa chọn Giá trị không xác địnhĐối với Dấu phân cách trường, hãy lựa chọn ký tự phân tách những ô trong tệp CSV của bạn. Dấu phẩy, Tab, Ống hoặc Tùy chỉnh. Nếu chọn Custom thì điền dấu phân cách vào ô Custom field delimiter. Giá trị mặc định là Dấu phẩyĐể bỏ qua những hàng Tiêu đề, hãy nhập số hàng tiêu đề cần bỏ qua ở đầu tệp CSV. Giá trị mặc định là bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
17Đối với những dòng mới được trích dẫn, hãy kiểm tra Cho phép những dòng mới được trích dẫn để được cho phép những phần tài liệu được trích dẫn có chứa những ký tự dòng mới trong tệp CSV. Giá trị mặc định là bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
10Đối với những hàng có răng cưa, hãy lựa chọn Cho phép những hàng có răng cưa đồng ý những hàng trong tệp CSV bị thiếu những cột tùy chọn ở cuối. Các giá trị bị thiếu được xem là null. Nếu không được chọn, những bản ghi bị thiếu cột theo sau được xem là bản ghi không hợp lệ và nếu có quá nhiều bản ghi không hợp lệ, lỗi không hợp lệ sẽ được trả về trong kết quả việc làm. Giá trị mặc định là bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
10Đối với Mã hóa, hãy nhấp vào Khóa do người tiêu dùng quản lý để sử dụng khóa Dịch Vụ TM quản lý khóa đám mây. Nếu bạn rời khỏi tùy chọn setup khóa do Google quản lý, thì BigQuery sẽ mã hóa tài liệu ở trạng thái tàng trữ
SQL
Sử dụng câu lệnh
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 12 DDL. Ví dụ sau nối tệp CSV vào bảng bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 13Trong bảng điều khiển Google Cloud, hãy truy cập trang BigQuery
Truy cập BigQuery
Trong trình sửa đổi truy vấn, hãy nhập câu lệnh sau
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 83Nhấp vào play_circle Chạy.
Để biết thêm thông tin về cách chạy truy vấn, hãy xem Chạy truy vấn tương tác
bq
Sử dụng lệnh
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 14, chỉ định bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 15 bằng cờ bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 16 và gồm có URI tàng trữ đám mây. Bạn hoàn toàn có thể gồm có một URI, list URI được phân tách bằng dấu phẩy hoặc URI chứa ký tự đại diệnCung cấp lược đồ nội tuyến, trong tệp định nghĩa lược đồ hoặc sử dụng tính năng tự động phát hiện lược đồ. Nếu bạn không riêng gì có định lược đồ và
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 17 là bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 10 và bảng đích tồn tại, thì lược đồ của bảng đích sẽ được sử dụngChỉ định cờ
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 568 để ghi đè lên bảng. Sử dụng cờ bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 564 để thêm tài liệu vào bảng. Nếu không còn cờ nào được chỉ định, mặc định là nối thêm tài liệuCó thể sửa đổi lược đồ của bảng khi bạn nối thêm hoặc ghi đè lên nó. Để biết thêm thông tin về những thay đổi lược đồ được tương hỗ trong quá trình vận hành tải, hãy xem Sửa đổi lược đồ bảng
(Tùy chọn) Cung cấp cờ
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 19 và đặt giá trị cho vị trí của bạnCác cờ tùy chọn khác gồm có
- bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
20. Khi được chỉ định, hãy đồng ý những hàng trong tệp CSV bị thiếu những cột tùy chọn ở cuối. Các giá trị bị thiếu được xem là null. Nếu không được chọn, những bản ghi bị thiếu cột theo sau được xem là bản ghi không hợp lệ và nếu có quá nhiều bản ghi không hợp lệ, lỗi không hợp lệ sẽ được trả về trong kết quả việc làm. Giá trị mặc định là bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
10 bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
22. Khi được chỉ định, được cho phép những phần tài liệu được trích dẫn có chứa ký tự dòng mới trong tệp CSV. Giá trị mặc định là bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
10 bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
24. Ký tự chỉ ranh giới Một trong những cột trong tài liệu. Cả bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
25 và bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
26 đều được phép sử dụng dấu phân cách tab. Giá trị mặc định là bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
27 bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
28. Chuỗi tùy chỉnh tùy chọn đại diện cho giá trị NULL trong tài liệu CSV bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
29. Chỉ định số hàng tiêu đề cần bỏ qua ở đầu tệp CSV. Giá trị mặc định là bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
17 bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
31. Ký tự trích dẫn được sử dụng để đính kèm bản ghi. Giá trị mặc định là bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
32. Để biểu thị không còn ký tự trích dẫn, hãy sử dụng một chuỗi rỗng bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
33. Một số nguyên xác định số bản ghi lỗi tối đa được phép trước khi toàn bộ việc làm không thành công. Giá trị mặc định là bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
17. Nhiều nhất, năm lỗi thuộc bất kỳ loại nào được trả về bất kể giá trị bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
33 bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
36. Khi được chỉ định, được cho phép và bỏ qua những giá trị tương hỗ update, không được nhận dạng trong tài liệu CSV hoặc JSON bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
17. Khi được chỉ định, hãy bật tính năng tự động phát hiện lược đồ cho tài liệu CSV và JSON bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
504. Khóa Cloud KMS để mã hóa tài liệu bảng
ở đâu
- vị trí là vị trí của bạn. Cờ bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
19 là tùy chọn. Bạn hoàn toàn có thể đặt giá trị mặc định cho vị trí bằng phương pháp sử dụng. tập tin bigqueryrcđịnh dạng là bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
15tập tài liệu là một tập tài liệu hiện cóbảng là tên gọi của bảng mà bạn đang tải tài liệu vàopath_to_source là URI tàng trữ đám mây đủ điều kiện hoặc list URI được phân tách bằng dấu phẩy. Ký tự đại diện cũng khá được hỗ trợlược đồ là một lược đồ hợp lệ. Lược đồ hoàn toàn có thể là tệp JSON cục bộ hoặc hoàn toàn có thể được nhập nội tuyến như một phần của lệnh. Bạn cũng hoàn toàn có thể sử dụng cờ bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
17 thay vì đáp ứng định nghĩa lược đồ
ví dụ
Lệnh sau tải tài liệu từ
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 510 và ghi đè lên bảng mang tên bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 13 trong bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 512. Lược đồ được xác định bằng tính năng tự động phát hiện lược đồ bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 85Lệnh sau tải tài liệu từ
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 510 và nối thêm tài liệu vào bảng mang tên bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 13 trong bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 512. Lược đồ được xác định bằng tệp lược đồ JSON — bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 513 bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 86API
Tạo việc làm
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 547 trỏ đến tài liệu nguồn trong Lưu trữ đám mây(Tùy chọn) Chỉ định vị trí của bạn trong thuộc tính
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 548 trong phần bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 549 của tài nguyên việc làmThuộc tính
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 550 phải đủ điều kiện, ở định dạng bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 551. Bạn hoàn toàn có thể gồm có nhiều URI dưới dạng list được phân tách bằng dấu phẩy. Lưu ý rằng ký tự đại diện cũng khá được tương hỗChỉ định định dạng tài liệu bằng phương pháp đặt thuộc tính
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 820 thành bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 15Chỉ định tùy chọn ghi bằng phương pháp đặt thuộc tính
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 822 thành bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 570 hoặc bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 567Đi
Trước khi sử dụng thử mẫu này, hãy tuân theo hướng dẫn thiết lập Go trong phần khởi đầu nhanh BigQuery bằng thư viện máy khách. Để biết thêm thông tin, hãy xem tài liệu tham khảo API BigQuery Go .
Xem trên GitHub Phản hồi
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 87Java
Trước khi sử dụng thử mẫu này, hãy tuân theo hướng dẫn thiết lập Java trong hướng dẫn khởi đầu nhanh BigQuery bằng thư viện máy khách. Để biết thêm thông tin, hãy xem tài liệu tham khảo API BigQuery Java .
Xem trên GitHub Phản hồi
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 88Nút. js
Trước khi thử mẫu này, hãy tuân theo Nút. js hướng dẫn thiết lập trong khởi đầu nhanh BigQuery bằng thư viện máy khách. Để biết thêm thông tin, hãy xem Nút BigQuery. js Tài liệu tham khảo API.
Để thay thế những hàng trong một bảng hiện có, hãy đặt giá trị
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 825 trong tham số bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 826 thành bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 827Xem trên GitHub Phản hồi
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 89Trước khi sử dụng thử mẫu này, hãy tuân theo hướng dẫn thiết lập PHP trong hướng dẫn khởi đầu nhanh BigQuery bằng thư viện máy khách. Để biết thêm thông tin, hãy xem tài liệu tham khảo API BigQuery PHP .
Xem trên GitHub Phản hồi
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 0con trăn
Trước khi sử dụng thử mẫu này, hãy tuân theo hướng dẫn thiết lập Python trong hướng dẫn khởi đầu nhanh BigQuery bằng thư viện máy khách. Để biết thêm thông tin, hãy xem tài liệu tham khảo API BigQuery Python .
Để thay thế những hàng trong một bảng hiện có, hãy đặt LoadJobConfig. write_disposition vào hằng số SourceFormat
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 570Xem trên GitHub Phản hồi
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 1Đang tải tài liệu CSV được phân vùng tổ ong
BigQuery tương hỗ tải tài liệu CSV được phân vùng tổ ong được tàng trữ trên Cloud Storage và sẽ điền những cột phân vùng tổ ong dưới dạng những cột trong bảng đích do BigQuery quản lý. Để biết thêm thông tin, hãy xem Tải tài liệu được phân vùng bên phía ngoài từ bộ nhớ đám mây
Chi tiết tải tài liệu CSV
Phần này mô tả cách BigQuery xử lý những tùy chọn định dạng CSV rất khác nhau
mã hóa
BigQuery dự kiến tài liệu CSV sẽ được mã hóa UTF-8. Nếu bạn có tệp CSV với tài liệu được mã hóa ở định dạng ISO-8859-1 (còn được gọi là Latin-1), thì bạn nên chỉ có thể định rõ ràng mã hóa để BigQuery hoàn toàn có thể quy đổi tài liệu thành UTF-8 một cách đúng chuẩn
Nếu bạn không riêng gì có định mã hóa hoặc nếu bạn chỉ định mã hóa UTF-8 khi tệp CSV không được mã hóa UTF-8, thì BigQuery sẽ nỗ lực quy đổi tài liệu thành UTF-8. Nói chung, tài liệu của bạn sẽ được tải thành công, nhưng nó hoàn toàn có thể không khớp với từng byte như bạn mong đợi. Để tránh điều này, hãy chỉ định mã hóa đúng chuẩn bằng phương pháp sử dụng cờ
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 829Ghi chú. Theo mặc định, nếu tệp CSV chứa ký tự ASCII bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 17 (NULL), thì bạn không thể tải tài liệu vào BigQuery. Nếu bạn muốn được cho phép ASCII bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 17 và những ký tự điều khiển ASCII khác, hãy đặt bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 832 cho việc làm tải của bạn.Nếu BigQuery không thể quy đổi một ký tự không phải ký tự ASCII
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 17, thì BigQuery sẽ quy đổi ký tự đó thành ký tự thay thế Unicode tiêu chuẩn. �Dấu phân cách trường
Dấu phân cách trong tệp CSV hoàn toàn có thể là bất kỳ ký tự byte đơn nào. Nếu tệp nguồn sử dụng mã hóa ISO-8859-1, bất kỳ ký tự nào thì cũng hoàn toàn có thể là dấu phân cách. Nếu tệp nguồn sử dụng mã hóa UTF-8, bất kỳ ký tự nào trong phạm vi thập phân 1-127 (U+0001-U+007F) đều hoàn toàn có thể được sử dụng mà không cần sửa đổi. Bạn hoàn toàn có thể chèn một ký tự ISO-8859-1 bên phía ngoài phạm vi này làm dấu phân cách và BigQuery sẽ diễn giải đúng chuẩn ký tự đó. Tuy nhiên, nếu bạn sử dụng ký tự nhiều byte làm dấu phân cách, một số trong những byte sẽ được diễn giải không đúng chuẩn như một phần của giá trị trường
Nói chung, cách tốt nhất là sử dụng dấu phân cách chuẩn, ví dụ như tab, dấu gạch ngang hoặc dấu phẩy. Mặc định là dấu phẩy
Loại tài liệu
Boolean. BigQuery hoàn toàn có thể phân tích cú pháp bất kỳ cặp nào sau đây cho tài liệu Boolean. 1 hoặc 0, đúng hoặc sai, t hoặc f, có hoặc không, hoặc y hoặc n (tất cả đều không phân biệt chữ hoa chữ thường). Tự động phát hiện sơ đồ tự động phát hiện bất kỳ trong số này ngoại trừ 0 và 1byte. Các cột có loại BYTES phải được mã hóa dưới dạng Base64
Ngày tháng. Các cột có loại NGÀY phải ở định dạng
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 5Ngày giờ. Các cột có loại DATETIME phải ở định dạng
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 835Môn Địa lý. Các cột có loại ĐỊA LÝ phải chứa những chuỗi ở một trong những định dạng sau
- Văn bản nổi tiếng (WKT)Nhị phân nổi tiếng (WKB)GeoJSON
Nếu bạn sử dụng WKB, giá trị phải được mã hóa hex
Danh sách sau đây đã cho tất cả chúng ta biết những ví dụ về tài liệu hợp lệ
- WKT. bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
836GeoJSON. bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
837WKB được mã hóa hex. bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
838
Trước khi tải tài liệu ĐỊA LÝ, hãy tham khảo thêm Đang tải tài liệu không khí địa lý
khoảng chừng thời gian. Các cột có loại
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 839 phải ở định dạng bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 840, trong đó- Y = Năm. Phạm vi được tương hỗ là 0-10.000M = Tháng. Phạm vi được tương hỗ là một trong-12Đ = Ngày. Phạm vi được tương hỗ là một trong-[ngày cuối cùng của tháng được chỉ định]H = GiờM = PhútS = Thứ hai[. F] = Phân số của một giây lên đến mức sáu chữ số, với độ đúng chuẩn micro giây
Bạn hoàn toàn có thể chỉ ra giá trị âm bằng phương pháp thêm trước dấu gạch ngang (-)
Danh sách sau đây đã cho tất cả chúng ta biết những ví dụ về tài liệu hợp lệ
- bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
841 bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
842 bq load
--source_format=CSV
mydataset.mytable
gs://mybucket/mydata.csv
./myschema.json
843
Để tải tài liệu INTERVAL, bạn phải sử dụng lệnh
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 14 và sử dụng cờ bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 845 để chỉ định lược đồ. Bạn không thể tải lên tài liệu INTERVAL bằng phương pháp sử dụng bảng điều khiểnJSON. Dấu ngoặc kép được thoát ra bằng phương pháp sử dụng chuỗi hai ký tự
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 846. Để biết thêm thông tin, hãy xem ví dụ về tải tài liệu JSON từ tệp CSVThời gian. Các cột có loại THỜI GIAN phải ở định dạng
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 847Dấu thời gian. BigQuery đồng ý những định dạng dấu thời gian rất khác nhau. Dấu thời gian phải gồm có phần ngày và phần thời gian
Phần ngày hoàn toàn có thể được định dạng là
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 5 hoặc bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 849Phần dấu thời gian phải được định dạng là
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 850 (giây và phân số của giây là tùy chọn)Ngày và giờ phải được phân tách bằng dấu cách hoặc 'T'
Theo tùy chọn, ngày và giờ hoàn toàn có thể được theo sau bởi phần bù UTC hoặc bộ chỉ định vùng UTC (
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 851). Để biết thêm thông tin, xem Múi giờVí dụ: bất kỳ giá trị nào sau đây là giá trị dấu thời gian hợp lệ
- 2022-08-19 12. 112018-08-19 12. 11. 352018-08-19 12. 11. 35. 222018/08/19 12. 112018-07-05 12. 54. 00 UTC2018-08-19 07. 11. 35. 220 -05. 002018-08-19T12. 11. 35. 220Z
Nếu bạn đáp ứng một giản đồ, thì BigQuery cũng đồng ý thời gian Unix epoch cho những giá trị dấu thời gian. Tuy nhiên, tính năng tự động phát hiện lược đồ không phát hiện trường hợp này và thay vào đó xử lý giá trị dưới dạng số hoặc loại chuỗi
Ví dụ về giá trị dấu thời gian Unix epoch
- 15346806951. 534680695e11
Tự động phát hiện lược đồ
Phần này mô tả hành vi tự động phát hiện lược đồ khi tải tệp CSV
dấu phân cách CSVBigQuery phát hiện những dấu phân cách sau
- dấu phẩy ( , )đường ống (. )tab ( t )
BigQuery phỏng đoán những tiêu đề bằng phương pháp so sánh số 1 tiên của tệp với những hàng khác trong tệp. Nếu dòng đầu tiên chỉ chứa chuỗi và những dòng khác chứa nhiều chủng loại tài liệu khác, BigQuery sẽ giả định rằng số 1 tiên là hàng tiêu đề. Trong trường hợp đó, BigQuery chỉ định tên cột nhờ vào tên trường trong hàng tiêu đề. Tên hoàn toàn có thể được sửa đổi để đáp ứng quy tắc đặt tên cho những cột trong BigQuery. Ví dụ: khoảng chừng trắng sẽ được thay thế bằng dấu gạch dưới
Mặt khác, BigQuery giả định số 1 tiên là hàng tài liệu và gán những tên cột chung, ví dụ như
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 852. Lưu ý rằng sau khi tạo bảng, không thể update tên cột trong lược đồ, tuy nhiên bạn hoàn toàn có thể thay đổi tên theo cách thủ công sau khi tạo bảng. Một tùy chọn khác là đáp ứng lược đồ rõ ràng thay vì sử dụng tính năng tự động phát hiệnBạn hoàn toàn có thể có tệp CSV có hàng tiêu đề, trong đó tất cả những trường tài liệu đều là chuỗi. Trong trường hợp đó, BigQuery sẽ không tự động phát hiện số 1 tiên là tiêu đề. Sử dụng tùy chọn
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 29 để bỏ qua hàng tiêu đề. Nếu không, tiêu đề sẽ được nhập dưới dạng tài liệu. Ngoài ra, hãy xem xét việc đáp ứng một lược đồ rõ ràng trong trường hợp này để bạn hoàn toàn có thể gán tên cộtCSV trích dẫn dòng mớiBigQuery phát hiện những ký tự dòng mới được trích dẫn trong trường CSV và không diễn giải ký tự dòng mới được trích dẫn dưới dạng ranh giới hàng
tùy chọn CSV
Để thay đổi cách BigQuery phân tích cú pháp tài liệu CSV, hãy chỉ định những tùy chọn tương hỗ update trong bảng điều khiển Google Cloud, công cụ dòng lệnh
bq load --source_format=CSV mydataset.mytable gs://mybucket/mydata.csv ./myschema.json 535 hoặc API Tải thêm tài liệu liên quan đến nội dung bài viết Đọc tệp CSV từ tàng trữ Azure blob python programming python
Post a Comment