harvard-edge · profvjreddi · Jun 4, 2024 · Jun 4, 2024
diff --git a/contents/training/training.qmd b/contents/training/training.qmd
@@ -1010,19 +1010,19 @@ However, as the model parts run on physically separate devices, they must commun
 
 ### Comparison
 
-To summarize, @tbl-parallelism demonstrates some of the key characteristics for comparing data parallelism and model parallelism:
-
-| Characteristic | Data Parallelism | Model Parallelism |
-|-|-----------------|-------------------|
-| Definition | Distribute data across devices with model replicas | Distribute model across devices |  
-| Objective | Accelerate training through compute scaling | Enable larger model training |
-| Scaling Method | Scale devices/workers | Scale model size|
-| Main Constraint | Model size per device | Device coordination overhead |
-| Hardware Requirements | Multiple GPU/TPUs | Often specialized interconnect |  
-| Primary Challenge | Parameter synchronization | Complex partitioning + communication |
-| Types | N/A | Layer-wise, filter-wise, spatial |
-| Code Complexity | Minimal changes | More significant model surgery |
-| Popular Libraries | Horovod, PyTorch Distributed | Mesh TensorFlow |
+To summarize, `@tbl-parallelism` demonstrates some of the key characteristics for comparing data parallelism and model parallelism:
+
+| Characteristic       | Data Parallelism                                   | Model Parallelism                    |
+|----------------------|----------------------------------------------------|--------------------------------------|
+| Definition           | Distribute data across devices with model replicas | Distribute model across devices      |  
+| Objective            | Accelerate training through compute scaling        | Enable larger model training         |
+| Scaling Method       | Scale devices/workers                              | Scale model size                     |
+| Main Constraint      | Model size per device                              | Device coordination overhead         |
+| Hardware Requirements| Multiple GPU/TPUs                                  | Often specialized interconnect       |  
+| Primary Challenge    | Parameter synchronization                          | Complex partitioning + communication |
+| Types                | N/A                                                | Layer-wise, filter-wise, spatial     |
+| Code Complexity      | Minimal changes                                    | More significant model surgery       |
+| Popular Libraries    | Horovod, PyTorch Distributed                       | Mesh TensorFlow                      |
 
 : Comparing data parallelism and model parallelism. {#tbl-parallelism}