Peter Bailis

I build data-intensive systems.

I am the CEO and Founder of Sisu Data.

Before Sisu, I was an assistant professor of CS at Stanford, where I founded the DAWN project.

CV

Picture

Twitter

Blog

PhD Students and Postdocs

Edward Gan (PhD 2020, software engineer at Databricks)
Kexin Rong (PhD 2021, faculty at Georgia Tech; w/ Phil Levis)
Kai Sheng Tai (PhD 2021, research scientist at Facebook AI; w/ Greg Valiant)
Cody Coleman (PhD 2021, founder at Coactive AI; w/ Matei Zaharia)
Firas Abuzaid (PhD 2022, founder at neo.tax; w/ Matei Zaharia)
Daniel Kang (PhD 2022, faculty at UIUC; w/ Matei Zaharia)
Fiodar Kazhamiaka (postdoc 2022, researcher at Microsoft Research; w/ Matei Zaharia)
Peter Kraft (w/ Matei Zaharia)
Sahaana Suri (PhD 2022, stealth startup)

Recent Publications

2023

Epoxy: ACID Transactions Across Diverse Data Stores, Peter Kraft, Qian Li, Xinjing Zhou, Peter Bailis, Michael Stonebraker, Xiangyao Yu, Matei Zaharia. VLDB 2023.
Parallelism-Optimizing Data Placement for Faster Data-Parallel Computations, Nirvik Baruah, Peter Kraft, Fiodar Kazhamiaka, Peter Bailis, Matei Zaharia. VLDB 2023.
Data Management for ML-based Analytics and Beyond, Daniel Kang, John Guibas, Peter Bailis, Tatsunori Hashimoto, Matei Zaharia. ACM Journal of Data Science, 2023.

2022

TAOBench: An End-to-End Benchmark for Social Network Workloads, Audrey Cheng, Xiao Shi, Aaron Kabcenell, Shilpa Lawande, Hamza Qadeer, Jason Chan, Harrison Tin, Ryan Zhao, Peter Bailis, Mahesh Balakrishnan, Nathan Bronson, Natacha Crooks, Ion Stoica. VLDB 2022.
Semantic Indexes for Machine Learning-based Queries over Unstructured Data, Daniel Kang, John Guibas, Peter Bailis, Tatsu Hashimoto, Matei Zaharia. SIGMOD 2022.
Finding Label and Model Errors in Perception Data With Learned Observation Assertions, Daniel Kang, Nikos Arechiga, Sudeep Pillai, Peter Bailis, Matei Zaharia. SIGMOD 2022.
Data-Parallel Actors: A Programming Model for Scalable Query Serving Systems, Peter Kraft, Fiodar Kazhamiaka, Peter Bailis, Matei Zaharia. NSDI 2022.
The Seattle report on database research, Daniel Abadi, Anastasia Ailamaki, David Andersen, Peter Bailis, others. Communications of the ACM, 2022.
VIVA: An End-to-End System for Interactive Video Analytics, Daniel Kang, Francisco Romero, Peter Bailis, Christos Kozyrakis, Matei Zaharia. CIDR 2022.
Similarity search for efficient active learning and search of rare concepts, Cody Coleman, Edward Chou, Julian Katz-Samuels, Sean Culatana, Peter Bailis, Alexander Berg, Robert Nowak, Roshan Sumbaly, Matei Zaharia, Zeki Yalniz. AAAI 2022.

2021

Accelerating Approximate Aggregation Queries with Expensive Predicates, Daniel Kang, John Guibas, Peter Bailis, Tatsunori Hashimoto, Yi Sun, Matei Zaharia. VLDB 2021.
RAMP-TAO: Layering Atomic Transactions on Facebook's Online TAO Data Store, Audrey Cheng, Xiao Shi, Lu Pan, Anthony Simpson, Neil Wheaton, Shilpa Lawande, Nathan Bronson, Peter Bailis, Natacha Crooks, Ion Stoica. VLDB 2021. Best Industrial Track Paper.
Jointly Optimizing Preprocessing and Inference for DNN-based Visual Analytics, Daniel Kang, Ankit Mathur, Teja Veeramacheneni, Peter Bailis, Matei Zaharia. VLDB 2021.
Finding Label and Model Errors in Perception Data With Learned Observation Assertions, Daniel Kang, Nikos Arechiga, Sudeep Pillai, Peter Bailis, Matei Zaharia. NeurIPS DCAI Workshop 2021.
Exploiting Proximity Search and Easy Examples to Select Rare Events, Daniel Kang, Alex Derhacobian, Kaoru Tsuji, Trevor Hebert, Peter Bailis, Tadashi Fukami, Tatsunori Hashimoto, Yi Sun, Matei Zaharia. NeurIPS DCAI Workshop 2021.
Contracting Wide-area Network Topologies to Solve Flow Problems Quickly, Firas Abuzaid, Srikanth Kandula, Ishai Menache, Peter Bailis, Matei Zaharia. NSDI 2021.
Sinkhorn Label Allocation: Semi-Supervised Classification via Annealed Self-Training, Kai Sheng Tai, Peter Bailis, Gregory Valiant. ICML 2021.
Challenges and Opportunities for Autonomous Vehicle Query Systems, Fiodar Kazhamiaka, Peter Bailis, Matei Zaharia. CIDR 2021.

2020

DIFF: A Relational Interface for Large-Scale Data Explanation, Firas Abuzaid, Peter Kraft, Sahaana Suri, Edward Gan, Eric Xu, Atul Shenoy, Asvin Anathanarayan, John Sheu, Erik Meijer, Xi Wu, Jeffrey Naughton, Peter Bailis, Matei Zaharia. VLDB Journal, 2020. "Best of VLDB 2019" Special Issue.
CoopStore: Optimizing Precomputed Summaries for Aggregation, Edward Gan, Peter Bailis, Moses Charikar. VLDB 2020.
Approximate Selection with Guarantees using Proxies, Daniel Kang, Edward Gan, Peter Bailis, Tatsunori Hashimoto, Matei Zaharia. VLDB 2020.
Leveraging Organizational Resources to Adapt Models to New Data Modalities, Sahaana Suri, Raghuveer Chanda, Neslihan Bulut, Pradyumna Narayana, Yemao Zeng, Peter Bailis, Sugato Basu, Girija Narlikar, Christopher Re. VLDB 2020.
Approximate Partition Selection for Big-Data Workloads using Summary Statistics, Kexin Rong, Yao Lu, Peter Bailis, Srikanth Kandula, Philip Levis. VLDB 2020.
BlazeIt: Optimizing Declarative Aggregation and Limit Queries for Neural Network-Based Video Analytics, Daniel Kang, Peter Bailis, Matei Zaharia. VLDB 2020.
MLPerf Training Benchmark, Peter Mattson, Christine Cheng, Cody Coleman, Greg Diamos, Paulius Micikevicius, David Patterson, Hanlin Tang, Gu-Yeon Wei, Peter Bailis, Victor Bittorf, David Brooks, Dehao Chen, Debojyoti Dutta, Udit Gupta, Kim Hazelwood, Andrew Hock, Xinyuan Huang, Bill Jia, Daniel Kang, David Kanter, Naveen Kumar, Jeffery Liao, Guokai Ma, Deepak Narayanan, Tayo Oguntebi, Gennady Pekhimenko, Lillian Pentecost, Vijay Janapa Reddi, Taylor Robie, Tom St. John, Carole-Jean Wu, Lingjie Xu, Cliff Young, Matei Zaharia. MLSys 2020.
Model Assertions for Monitoring and Improving ML Models, Daniel Kang, Deepti Raghavan, Peter Bailis, Matei Zaharia. MLSys 2020.
Willump: A Statistically-Aware End-to-end Optimizer for Machine Learning Inference, Peter Kraft, Daniel Kang, Deepak Narayanan, Shoumik Palkar, Peter Bailis, Matei Zaharia. MLSys 2020.
Selection via Proxy: Efficient Data Selection for Deep Learning, Cody Coleman, Stephen Mussmann, Baharan Mirzasoleiman, Peter Bailis, Percy Liang, Jure Leskovec, Matei Zaharia. ICLR 2020.
An End-to-End Earthquake Monitoring Method for Joint Earthquake Detection and Association using Deep Learning, Weiqiang Zhu, Kai Sheng Tai, S. Mostafa Mousavi, Peter Bailis, Gregory C. Beroza. AI for Earth Sciences Workshop at NeurIPS 2020.

2019

DIFF: A Relational Interface for Large-Scale Data Explanation, Firas Abuzaid, Peter Kraft, Sahaana Suri, Edward Gan, Eric Xu, Atul Shenoy, Asvin Anathanarayan, John Sheu, Erik Meijer, Xi Wu, Jeffrey Naughton, Peter Bailis, Matei Zaharia. VLDB 2019.
DROP: A Workload-Aware Optimizer for Dimensionality Reduction, Sahaana Suri, Peter Bailis. SIGMOD DEEM Workshop 2019.
CrossTrainer: Practical Domain Adaptation with Loss Reweighting, Justin Chen, Edward Gan, Kexin Rong, Sahaana Suri, Peter Bailis. SIGMOD DEEM Workshop 2019.
Rehashing Kernel Evaluation in High Dimensions, Paris Siminelakis, Kexin Rong, Peter Bailis, Moses Charikar, Philip Levis. ICML 2019.
Compressed Factorization: Fast and Accurate Low-Rank Factorization of Compressively-Sensed Data, Vatsal Sharan, Kai Sheng Tai, Peter Bailis, Gregory Valiant. ICML 2019.
Equivariant Transformer Networks, Kai Sheng Tai, Peter Bailis, Gregory Valiant. ICML 2019.
LIT: Block-wise Intermediate Representation Training for Model Compression, Animesh Koratana, Daniel Kang, Peter Bailis, Matei Zaharia. ICML 2019.
To Index or Not to Index: Optimizing Exact Maximum Inner Product Search, Firas Abuzaid, Geet Sethi, Peter Bailis, Matei Zaharia. ICDE 2019. (code)
Challenges and Opportunities in DNN-Based Video Analytics: A Demonstration of the BlazeIt Video Query Engine, Daniel Kang, Peter Bailis, Matei Zaharia. CIDR 2019 (Demo).

2018

Moment-Based Quantile Sketches for Efficient High Cardinality Aggregation Queries, Edward Gan, Jialin Ding, Kai Sheng Tai, Vatsal Sharan, Peter Bailis. VLDB 2018. (blog) (code)
Filter Before You Parse: Faster Analytics on Raw Data with Sparser, Shoumik Palkar, Firas Abuzaid, Peter Bailis, Matei Zaharia. VLDB 2018. (blog) (talk) (code)
Locality-Sensitive Hashing for Earthquake Detection: A Case Study of Scaling Data-Driven Science, Kexin Rong, Clara E. Yoon, Karianne J. Bergen, Hashem Elezabi, Peter Bailis, Philip Levis, Gregory C. Beroza. VLDB 2018. (blog) (talk) (code)
Sketching Linear Classifiers over Data Streams, Kai Sheng Tai, Vatsal Sharan, Peter Bailis, Gregory Valiant. SIGMOD 2018. (blog) (talk) (code)
Analysis of the Time-To-Accuracy Metric and Entries in the DAWNBench Deep Learning Benchmark, Cody Coleman, Deepak Naraynanan, Daniel Kang, Tian Zhao, Jian Zhang, Luigi Nardi, Peter Bailis, Kunle Olukotun, Chris Re, Matei Zaharia. NeurIPS Systems for ML Workshop 2018. (blog)
Model Assertions for Debugging Machine Learning, Daniel Kang, Deepti Raghavan, Sahaana Suri, Peter Bailis, Matei Zaharia. NeurIPS Systems for ML Workshop 2018.
Exploring the Use of Learning Algorithms for Efficient Performance Profiling, Shoumik Palkar, Sahaana Suri, Peter Bailis, Matei Zaharia. NeurIPS ML for Systems Workshop 2018.
MacroBase: Prioritizing Attention in Fast Data, Firas Abuzaid, Peter Bailis, Jialin Ding, Edward Gan, Samuel Madden, Deepak Narayanan, Kexin Rong, Sahaana Suri. ACM TODS, 2018. "Best of SIGMOD 2017" Special Issue.

2017

NoScope: Optimizing Neural Network Queries over Video at Scale, Daniel Kang, John Emmons, Firas Abuzaid, Peter Bailis, Matei Zaharia. VLDB 2017. (blog) (talk) (slides) (code)
ASAP: Prioritizing Attention via Time Series Smoothing, Kexin Rong, Peter Bailis. VLDB 2017. (demo) (blog) (talk) (slides) (code)
ACIDRain: Concurrency-Related Attacks on Database-Backed Web Applications, Todd Warszawski, Peter Bailis. SIGMOD 2017. (slides) (code) (coverage)
Scalable Kernel Density Classification via Threshold-Based Pruning, Edward Gan, Peter Bailis. SIGMOD 2017. (talk) (slides) (code)
MacroBase: Prioritizing Attention in Fast Data, Peter Bailis, Edward Gan, Samuel Madden, Deepak Narayanan, Kexin Rong, Sahaana Suri. SIGMOD 2017. Invited to ACM TODS "Best of SIGMOD 2017 Special Issue".
DAWNBench: An End-to-End Deep Learning Benchmark and Competition, Cody Coleman, Deepak Naraynanan, Daniel Kang, Tian Zhao, Jian Zhang, Luigi Nardi, Peter Bailis, Kunle Olukotun, Chris Re, Matei Zaharia. NeurIPS ML Systems Workshop 2017. (blog) (code)
Prioritizing Attention in Fast Data: Principles and Promise, Peter Bailis, Edward Gan, Kexin Rong, Sahaana Suri. CIDR 2017.

2016

Scalable Atomic Visibility with RAMP Transactions, Peter Bailis, Alan Fekete, Ali Ghodsi, Joseph M. Hellerstein, Ion Stoica. ACM TODS, 2016. "Best of SIGMOD 2014" Special Issue. (blog) (slides) (code)

2015

Coordination Avoidance in Database Systems, Peter Bailis, Alan Fekete, Michael J. Franklin, Ali Ghodsi, Joseph M. Hellerstein, Ion Stoica. VLDB 2015. (blog) (slides) (code)
Feral Concurrency Control: An Empirical Investigation of Modern Application Integrity, Peter Bailis, Alan Fekete, Michael J. Franklin, Ali Ghodsi, Joseph M. Hellerstein, Ion Stoica. SIGMOD 2015. (blog) (slides) (code)
The Missing Piece in Complex Analytics: Low Latency, Scalable Model Management and Serving with Velox, Dan Crankshaw, Peter Bailis, Joseph E. Gonzalez, Haoyuan Li, Zhao Zhang, Michael J. Franklin, Ali Ghodsi, Michael I. Jordan. CIDR 2015. (code)
Readings in Database Systems, 5th Edition, Peter Bailis, Joseph M. Hellerstein, Michael Stonebraker, eds. 2015.
Coordination Avoidance in Distributed Databases, Peter Bailis. UC Berkeley EECS Ph.D. Thesis, 2015.

2014

Highly Available Transactions: Virtues and Limitations, Peter Bailis, Aaron Davidson, Alan Fekete, Ali Ghodsi, Joseph M. Hellerstein, Ion Stoica. VLDB 2014. (blog) (slides) (code)
Quantifying Eventual Consistency with PBS, Peter Bailis, Shivaram Venkataraman, Michael J. Franklin, Joseph M. Hellerstein, Ion Stoica. The VLDB Journal, 2014. "Best of VLDB 2012" Special Issue. (demo) (talk) (slides) (code)
Scalable Atomic Visibility with RAMP Transactions, Peter Bailis, Alan Fekete, Ali Ghodsi, Joseph M. Hellerstein, Ion Stoica. SIGMOD 2014. Invited to ACM TODS "Best of SIGMOD 2014" Special Issue. (blog) (slides) (code)
The Network is Reliable: An Informal Survey of Real-World Communications Failures, Peter Bailis, Kyle Kingsbury. Queue, July 2014. Also appears in Communications of the ACM 57(9):48-55, September 2014.
Quantifying Eventual Consistency with PBS, Peter Bailis, Shivaram Venkataraman, Michael J. Franklin, Joseph M. Hellerstein, Ion Stoica. Communications of the CACM, August 2014. Research Highlight. (demo) (talk) (slides) (code)

2013

Consistency without Borders, Peter Alvaro, Peter Bailis, Neil Conway, Joseph M. Hellerstein. SoCC 2013 (Vision Track).
PBS at Work: Advancing Data Management with Consistency Metrics, Peter Bailis, Shivaram Venkataraman, Michael J. Franklin, Joseph M. Hellerstein, Ion Stoica. SIGMOD 2013 (Demo).
Bolt-on Causal Consistency, Peter Bailis, Ali Ghodsi, Joseph M. Hellerstein, Ion Stoica. SIGMOD 2013. (slides) (code)
HAT, not CAP: Towards Highly Available Transactions, Peter Bailis, Alan Fekete, Ali Ghodsi, Joseph M. Hellerstein, Ion Stoica. HotOS 2013.
Eventual Consistency Today: Limitations, Extensions, and Beyond, Peter Bailis, Ali Ghodsi. ACM Queue, March 2013. Also appears in Communications of the ACM 56(3):55-63, May 2013.

2012

Probabilistically Bounded Staleness for Practical Partial Quorums, Peter Bailis, Shivaram Venkataraman, Michael J. Franklin, Joseph M. Hellerstein, Ion Stoica. VLDB 2012. Invited to VLDB Journal "Best of VLDB 2012" and selected as a CACM Research Highlight. (demo) (talk) (slides) (code)
The Potential Dangers of Causal Consistency and an Explicit Solution, Peter Bailis, Alan Fekete, Ali Ghodsi, Joseph M. Hellerstein, Ion Stoica. SoCC 2012 (Vision Track). (blog) (talk) (slides)

2011

Programming Micro-aerial Vehicle Swarms with Karma, Karthik Dantu, Bryan Kate, Jason Waterman, Peter Bailis, Matt Welsh. SenSys 2011. (code)
Dimetrodon: Processor-level Preventive Thermal Management via Idle Cycle Injection, Peter Bailis, Vijay Janapa Reddi, Sanjay Gandhi, David Brooks, Margo Seltzer. DAC 2011. (code)

2010

Positional Communication and Private Information in Honeybee Foraging Models, Peter Bailis, Radhika Nagpal, Justin Werfel. ANTS 2010. Best Student Paper. (code)

Google Scholar

CV

Picture

Twitter

Blog

PhD Students and Postdocs

Recent Publications