Remove Streaming Export for Large Datasets section

- Remove chunked export functionality - Remove parallel export functionality - Simplify export guide to focus on basic export operations
2026-03-27 07:09:27 +08:00 · 2026-02-24 11:13:01 -07:00
parent 70a34bd652
commit 518261c4f2
1 changed files with 0 additions and 106 deletions
--- a/scientific-skills/tiledbvcf/references/export.md
+++ b/scientific-skills/tiledbvcf/references/export.md
@@ -130,112 +130,6 @@ processed_df = export_processed_variants(
 )
 ```
 ## Streaming Export for Large Datasets
 ### Chunked Export
 ```python
 def streaming_export(ds, regions, samples, output_file, chunk_size=100000):
    """Export large datasets in chunks to manage memory"""
    import csv
    total_variants = 0
    with open(output_file, 'w', newline='') as f:
        writer = None
        header_written = False
        for region in regions:
            print(f"Processing region: {region}")
            # Query region
            df = ds.read(
                attrs=["sample_name", "contig", "pos_start", "alleles", "fmt_GT"],
                regions=[region],
                samples=samples
            )
            if df.empty:
                continue
            # Process in chunks
            for i in range(0, len(df), chunk_size):
                chunk = df.iloc[i:i+chunk_size]
                # Write header on first chunk
                if not header_written:
                    writer = csv.writer(f)
                    writer.writerow(chunk.columns)
                    header_written = True
                # Write chunk data
                for _, row in chunk.iterrows():
                    writer.writerow(row.values)
                total_variants += len(chunk)
                if i + chunk_size < len(df):
                    print(f"  Processed {i + chunk_size:,} variants...")
    print(f"Exported {total_variants:,} variants to {output_file}")
 # Usage
 regions = [f"chr{i}" for i in range(1, 23)]  # All autosomes
 streaming_export(ds, regions, ds.sample_names(), "genome_wide_variants.csv")
 ```
 ### Parallel Export
 ```python
 import multiprocessing as mp
 import os
 def export_region_chunk(args):
    """Export single region - for parallel processing"""
    dataset_uri, region, samples, output_dir = args
    # Create separate dataset instance for each process
    ds = tiledbvcf.Dataset(uri=dataset_uri, mode="r")
    # Generate output filename
    region_safe = region.replace(":", "_").replace("-", "_")
    output_file = os.path.join(output_dir, f"variants_{region_safe}.tsv")
    # Export region
    ds.export_tsv(
        uri=output_file,
        regions=[region],
        samples=samples,
        tsv_fields=["CHR", "POS", "REF", "ALT", "S:GT", "S:DP"]
    )
    return region, output_file
 def parallel_export(dataset_uri, regions, samples, output_dir, n_processes=4):
    """Export multiple regions in parallel"""
    os.makedirs(output_dir, exist_ok=True)
    # Prepare arguments for parallel processing
    args = [(dataset_uri, region, samples, output_dir) for region in regions]
    # Export in parallel
    with mp.Pool(n_processes) as pool:
        results = pool.map(export_region_chunk, args)
    # Combine results if needed
    output_files = [output_file for _, output_file in results]
    print(f"Exported {len(output_files)} region files to {output_dir}")
    return output_files
 # Usage
 regions = [f"chr{i}:1-50000000" for i in range(1, 23)]  # First half of each chromosome
 output_files = parallel_export(
    dataset_uri="my_dataset",
    regions=regions,
    samples=ds.sample_names()[:100],
    output_dir="parallel_export",
    n_processes=8
 )
 ```
 ## Integration with Analysis Tools