meta recently shared how they are enhancing their system reliability through advanced investigation tools, including the ai-assisted hawkeye, which aids in debugging machine learning workflows. by...
meta最近通过ai辅助的hawkeye工具增强了其系统可靠性,该工具有助于调试机器学习工作流程。通过整合人工智能,meta开发了一种新的调查系统,将启发式检索与大型语言模型排序相结合,以协助根本原因分析。该系统在meta的web monorepo相关调查的开始阶段,已经显示出有希望的结果,达到了42%的根本原因识别准确率。hawkeye是meta开发的工具包,旨在增强meta ml-products的监控、可观察性和调试能力。调查大型系统中的问题可能很复杂,特别是在处理涉及多个团队和众多更改的单体存储库时。为了简化这个过程,meta的新系统使用启发式方法来减少潜在原因的搜索空间。基于llm的排序系统识别出最有可能的根本原因,最终集中在前五个更改上。