Cal Lee和Kam Woods将以30万美元的NSF赠款领导新的修订软件项目

2021年7月14日

来自国家科学基金会(NSF)的300000美元拨款将支持一项新项目。北卡罗来纳大学信息与图书馆学学院(SILS)开发能够识别和编辑研究相关数据集、文件和通信中敏感信息的软件。

卡尔·李和金·伍兹
SILS教授Cal Lee和研究科学家Kam Woods

SILS教授克里斯托弗“卡尔”李将担任首席研究员和研究科学家坎伍兹将担任为期一年(2021年7月至2022年6月)的计算机辅助学术交流和产品编校和匿名化(CARASCAP)项目的技术负责人。Antoine de Torcy将担任该项目的软件工程师。

大多数现代编校软件都是使用同一套核心技术构建的,这些核心技术是文档解析器、光学字符识别和自然语言处理的组合,用于识别常见的私有和单独的识别信息。随着开发人员增加文档格式覆盖率、扩展模式库,这些产品的改进速度也在缓慢或采用增强型NLP模型。

“CARASCAP将引入一种新的方法,增加过程的可解释性,”伍兹说。“这将允许档案管理员和其他用户通过将这些行为与手动编校的人员执行的操作进行比较来验证软件行为。然后,用户可以为类似文档的集合创建调整为特定编校行为的模型。”

Lee说,研究人员和他们工作的机构在其学术产品中面临许多数据隐私和敏感问题。积压和人员配备限制可能导致公众无法无限期访问材料,或者在仍然包含敏感数据的情况下发布材料。

CARASCAP旨在帮助团体和个人开放并与他人分享更多的工作,同时关注各种数据敏感性问题。该项目团队还希望影响机构社区使用的工作流程,即制作、保存和提供学术交流和产品。

CARASCAP将在以往项目成功的基础上再接再厉,包括比特馆长,比特管理员访问,比特馆长,及拉托姆,该公司开发并发布了开源工具,以帮助图书馆、档案馆和博物馆管理多样化且快速增长的数字材料。

30万美元的奖金是美国国家科学基金会探索性研究早期概念拨款(EAGER)计划的一部分。作为国家科学基金会网站解释说,热切的资助支持“在未经测试但具有潜在变革性的研究思路或方法上”的探索性工作