Himabindu Lakkaraju at Harvard University

University	Harvard University
Position	Assistant Professor
Citations(all)	6902
Citations(since 2020)	6004
Cited By	2561
hIndex(all)	34
hIndex(since 2020)	32
i10Index(all)	49
i10Index(since 2020)	46
Email	Access Email
University Profile Page	Harvard University
Google Scholar	View Google Scholar Profile

More RLHF, More Trust? On The Impact of Human Preference Alignment On Language Model Trustworthiness

arXiv preprint arXiv:2404.18870

2024/4/29

Himabindu Lakkaraju

H-Index: 18

Quantifying uncertainty in natural language explanations of large language models

2024/4/18

Chirag Agarwal

H-Index: 7

Himabindu Lakkaraju

H-Index: 18

Towards Safe and Aligned Large Language Models for Medicine

arXiv preprint arXiv:2403.03744

2024/3/6

Aounon Kumar

H-Index: 3

Chirag Agarwal

H-Index: 7

Himabindu Lakkaraju

H-Index: 18

Follow My Instruction and Spill the Beans: Scalable Data Extraction from Retrieval-Augmented Generation Systems

arXiv preprint arXiv:2402.17840

2024/2/27

Hanlin Zhang

H-Index: 1

Eric Xing

H-Index: 76

Himabindu Lakkaraju

H-Index: 18

Interpreting CLIP with Sparse Linear Concept Embeddings (SpLiCE)

arXiv preprint arXiv:2402.10376

2024/2/16

Alex Oesterling

H-Index: 0

Himabindu Lakkaraju

H-Index: 18

Opening the Black Box of Large Language Models: Two Views on Holistic Interpretability

arXiv preprint arXiv:2402.10688

2024/2/16

Haiyan Zhao

H-Index: 16

Fan Yang

H-Index: 3

Himabindu Lakkaraju

H-Index: 18

Which models have perceptually-aligned gradients? an explanation via off-manifold robustness

Advances in neural information processing systems

2024/2/13

Sebastian Bordt

H-Index: 1

Himabindu Lakkaraju

H-Index: 18

Discriminative Feature Attributions: Bridging Post Hoc Explainability and Inherent Interpretability

Advances in Neural Information Processing Systems

2024/2/13

Himabindu Lakkaraju

H-Index: 18

Post hoc explanations of language models can improve language models

arXiv preprint arXiv:2305.11426

2023/5/19

Jiaqi Ma

H-Index: 6

Dylan Slack

H-Index: 3

Asma Ghandeharioun

H-Index: 14

Sameer Singh

H-Index: 1

Himabindu Lakkaraju

H-Index: 18

Understanding the Effects of Iterative Prompting on Truthfulness

arXiv preprint arXiv:2402.06625

2024/2/9

Chirag Agarwal

H-Index: 7

Himabindu Lakkaraju

H-Index: 18

Faithfulness vs. Plausibility: On the (Un) Reliability of Explanations from Large Language Models

arXiv preprint arXiv:2402.04614

2024/2/7

Chirag Agarwal

H-Index: 7

Himabindu Lakkaraju

H-Index: 18

OpenXAI: Towards a Transparent Evaluation of Model Explanations

Advances in Neural Information Processing Systems

2022/12/6

Chirag Agarwal

H-Index: 7

Martin Pawelczyk

H-Index: 3

Isha Puri

H-Index: 1

Marinka Zitnik

H-Index: 25

Himabindu Lakkaraju

H-Index: 18

Consistent explanations in the face of model indeterminacy via ensembling

2023/6/9

Dan Ley

H-Index: 0

Himabindu Lakkaraju

H-Index: 18

Investigating the Fairness of Large Language Models for Predictions on Tabular Data

arXiv preprint arXiv:2310.14607

2023/10/23

Yanchen Liu

H-Index: 6

Jiaqi Ma

H-Index: 6

Himabindu Lakkaraju

H-Index: 18

In-context unlearning: Language models as few shot unlearners

arXiv preprint arXiv:2310.07579

2023/10/11

Martin Pawelczyk

H-Index: 3

Himabindu Lakkaraju

H-Index: 18

Word-level explanations for analyzing bias in text-to-image models

arXiv preprint arXiv:2306.05500

2023/6/3

Alexander Lin

H-Index: 25

Himabindu Lakkaraju

H-Index: 18

Are Large Language Models Post Hoc Explainers?

arXiv preprint arXiv:2310.05797

2023/10/9

Nicholas Kroeger

H-Index: 3

Dan Ley

H-Index: 0

Chirag Agarwal

H-Index: 7

Himabindu Lakkaraju

H-Index: 18

On the Trade-offs between Adversarial Robustness and Actionable Explanations

arXiv preprint arXiv:2309.16452

2023/9/28

Chirag Agarwal

H-Index: 7

Himabindu Lakkaraju

H-Index: 18

The Disagreement Problem in Explainable Machine Learning: A Practitioner's Perspective

2023/5/23

Shahin Jabbari

H-Index: 8

Steven Wu

H-Index: 12

Himabindu Lakkaraju

H-Index: 18

Certifying llm safety against adversarial prompting

arXiv preprint arXiv:2309.02705

2023/9/6

Aounon Kumar

H-Index: 3

Chirag Agarwal

H-Index: 7

Soheil Feizi

H-Index: 17

Himabindu Lakkaraju

Harvard University

About Himabindu Lakkaraju

Himabindu Lakkaraju Information

Himabindu Lakkaraju Skills & Research Interests

Top articles of Himabindu Lakkaraju

More RLHF, More Trust? On The Impact of Human Preference Alignment On Language Model Trustworthiness

Himabindu Lakkaraju

Quantifying uncertainty in natural language explanations of large language models

Chirag Agarwal

Himabindu Lakkaraju

Towards Safe and Aligned Large Language Models for Medicine

Aounon Kumar

Chirag Agarwal

Himabindu Lakkaraju

Follow My Instruction and Spill the Beans: Scalable Data Extraction from Retrieval-Augmented Generation Systems

Hanlin Zhang

Eric Xing

Himabindu Lakkaraju

Interpreting CLIP with Sparse Linear Concept Embeddings (SpLiCE)

Alex Oesterling

Himabindu Lakkaraju

Opening the Black Box of Large Language Models: Two Views on Holistic Interpretability

Haiyan Zhao

Fan Yang

Himabindu Lakkaraju

Which models have perceptually-aligned gradients? an explanation via off-manifold robustness

Sebastian Bordt

Himabindu Lakkaraju

Discriminative Feature Attributions: Bridging Post Hoc Explainability and Inherent Interpretability

Himabindu Lakkaraju

Post hoc explanations of language models can improve language models

Jiaqi Ma

Dylan Slack

Asma Ghandeharioun

Sameer Singh

Himabindu Lakkaraju

Understanding the Effects of Iterative Prompting on Truthfulness

Chirag Agarwal

Himabindu Lakkaraju

Faithfulness vs. Plausibility: On the (Un) Reliability of Explanations from Large Language Models

Chirag Agarwal

Himabindu Lakkaraju

OpenXAI: Towards a Transparent Evaluation of Model Explanations

Chirag Agarwal

Martin Pawelczyk

Isha Puri

Marinka Zitnik

Himabindu Lakkaraju

Consistent explanations in the face of model indeterminacy via ensembling

Dan Ley

Himabindu Lakkaraju

Investigating the Fairness of Large Language Models for Predictions on Tabular Data

Yanchen Liu

Jiaqi Ma

Himabindu Lakkaraju

In-context unlearning: Language models as few shot unlearners

Martin Pawelczyk

Himabindu Lakkaraju

Word-level explanations for analyzing bias in text-to-image models

Alexander Lin

Himabindu Lakkaraju

Are Large Language Models Post Hoc Explainers?

Nicholas Kroeger

Dan Ley

Chirag Agarwal

Himabindu Lakkaraju

On the Trade-offs between Adversarial Robustness and Actionable Explanations

Chirag Agarwal

Himabindu Lakkaraju

The Disagreement Problem in Explainable Machine Learning: A Practitioner's Perspective

Shahin Jabbari

Steven Wu

Himabindu Lakkaraju

Certifying llm safety against adversarial prompting

Aounon Kumar

Chirag Agarwal

Soheil Feizi

Co-Authors

Jure Leskovec